大模型核心技术

引言

随着人工智能技术的飞速发展，大型语言模型（LLMs）已成为当今科技领域最受关注的焦点之一。这些模型在自然语言处理、计算机视觉等多个领域展现出令人惊叹的能力，深刻改变着我们与数字世界的交互方式。然而，支撑这些强大能力的背后，是一系列复杂而精妙的技术原理。包括自注意力机制、词嵌入、Token 分词、参数以及上下文长度。

自注意力机制（Self-Attention）

自注意力机制是大模型 Transformer 架构的核心组件，它可以使模型在处理序列时同时关注到序列中的所有位置。通过计算查询向量、键向量和值向量之间的相似度分数，动态分配注意力权重，使模型能够识别和利用序列中的重要信息和依赖关系。自注意力机制的并行化特性和全局视野使其在处理长序列和复杂语言结构时表现出色，在自然语言处理（如机器翻译、文本摘要）和计算机视觉等领域广泛应用，大幅提升了 AI 智能。

attention

原理概述

自注意力机制的核心思想是为输入序列中的每个元素计算一个“注意力权重”，这些权重决定了在生成当前元素的表示时，序列中其他元素的重要性。这个过程可以概括为以下几个关键步骤：

查询（Query）、键（Key）和值（Value）的生成：对于输入序列中的每个词向量（或 Token 嵌入），模型会生成三个不同的向量：查询（Query, Q）、键（Key, K）和值（Value, V）。这三个向量是通过将原始词向量分别乘以三个不同的可学习权重矩阵得到的。Q 向量用于查询其他词的相关性，K 向量用于被查询，V 向量则包含了词的实际信息。
计算注意力分数：通过计算查询向量 Q 与所有键向量 K 的点积来衡量它们之间的相似度。点积的结果越大，表示两个词之间的相关性越强。为了防止点积结果过大导致梯度消失，通常会对结果进行缩放（除以键向量维度的平方根）。
Softmax 归一化：缩放后的注意力分数会通过 Softmax 函数进行归一化，将分数转换为 0 到 1 之间的概率分布。这些概率就是注意力权重，它们表示了在编码当前词时，序列中每个词的相对重要性。
加权求和：最后，将每个值向量 V 与对应的注意力权重相乘，然后将所有加权后的值向量求和，得到当前词的最终自注意力表示。这个表示融合了序列中所有词的信息，并根据其相关性进行了加权。

多头自注意力（Multi-Head Self-Attention）

Transformer 架构进一步引入了“多头自注意力”机制。这意味着自注意力过程会并行地进行多次（例如，8 个“头”）。每个头独立地学习一组 Q、K、V 的权重矩阵，从而能够从不同的“表示子空间”中捕捉到不同的注意力模式和语义关系。例如，一个头可能关注语法依赖，另一个头可能关注语义相似性。最后，所有头的输出会被拼接起来，并通过一个线性变换得到最终的输出。这种并行处理和多视角学习的能力极大地增强了模型的表达能力和鲁棒性。

优势与应用

自注意力机制的引入带来了多项显著优势：

全局依赖捕捉：模型可以直接计算序列中任意两个位置之间的依赖关系，无需像 RNN 那样通过循环逐步传递信息，这对于处理长距离依赖至关重要。
并行化能力：注意力分数的计算可以并行进行，这使得 Transformer 模型在 GPU 等并行计算硬件上能够高效训练，大大缩短了训练时间。
可解释性：注意力权重在一定程度上提供了模型决策的可解释性，我们可以通过可视化注意力矩阵来理解模型在处理特定词时“关注”了哪些其他词。

自注意力机制已广泛应用于自然语言处理和计算机视觉领域：

自然语言处理（NLP）：作为 Transformer 模型的基础，自注意力机制在机器翻译、文本摘要、问答系统、情感分析和文本生成等任务中取得了突破性进展。BERT、GPT 系列等大型语言模型都严重依赖自注意力机制来理解和生成复杂的语言结构。
计算机视觉（CV）：Vision Transformer（ViT）的出现将自注意力机制引入图像处理领域，通过将图像分割成小块（patch）并将其视为序列，使得 Transformer 在图像分类、目标检测和图像生成等任务中也展现出强大的性能。例如，SHViT 通过单头自注意力（SHSA）模块有效减少了内存访问成本并提高了计算效率 [2]。

词嵌入（Word Embeddings）

词嵌入（Word Embedding）是自然语言处理（NLP）中的一项关键技术，它将词汇表中的词语映射到低维、稠密的实数向量空间。其核心思想是让语义相近的词在向量空间中也相互靠近。通过训练过程，语义相近的词汇在向量空间中的距离也会相近，使计算机能够通过数学运算理解和处理语言的语义关系。常见的词嵌入模型包括 Word2Vec（CBOW 和 Skip-gram）、GloVe 和 FastText。这些模型通过分析大规模文本语料库中词语的共现模式来学习词向量。词嵌入为神经网络处理自然语言提供了数学基础，是所有现代语言模型的基础组件。

Embeddings）

原理与发展

在词嵌入技术出现之前，词语通常使用独热编码（One-Hot Encoding）表示。这种表示方式虽然简单，但存在两个主要缺点：

维度灾难：词汇表越大，向量维度越高，导致计算效率低下和存储空间浪费。
无法捕捉语义关系：独热编码中，每个词都是独立的，向量之间是正交的，无法体现词语之间的相似性或关联性。

词嵌入通过学习词语的上下文信息，克服了独热编码的这些局限。其基本思想是，如果两个词在大量文本中经常出现在相似的语境中，那么它们的词嵌入向量在向量空间中也会彼此靠近。这种“靠近”不仅体现在距离上，还体现在方向上，从而能够捕捉到复杂的语义和语法关系，例如“国王 - 男人 + 女人 ≈ 女王”这种类比关系。

早期的词嵌入方法包括潜在语义分析（LSA）和潜在狄利克雷分配（LDA），它们主要基于词语的共现统计。然而，真正推动词嵌入技术普及并使其成为 NLP 基石的是基于神经网络的模型，其中最具代表性的是 Word2Vec。

Word2Vec

由 Google 在 2013 年提出的 Word2Vec 模型包含两种主要的架构：

CBOW (Continuous Bag-of-Words)：通过上下文词语来预测目标词语。例如，给定“我爱 [ ] 北京”，模型会尝试预测中间的词“天安门”。
Skip-gram：通过目标词语来预测上下文词语。例如，给定“天安门”，模型会尝试预测其周围的词语，如“我”、“爱”、“北京”。

Word2Vec 通过一个简单的两层神经网络进行训练，其优化目标是最大化词语在给定上下文中的出现概率。训练完成后，神经网络的隐藏层权重即为词语的嵌入向量。Word2Vec 的优势在于其高效的训练速度和捕捉词语语义关系的能力。

GloVe (Global Vectors for Word Representation)

GloVe 由斯坦福大学于 2014 年提出，它结合了全局矩阵分解（如 LSA）和局部上下文窗口（如 Word2Vec）的优点。GloVe 模型通过构建一个词语共现矩阵，并在此基础上进行加权最小二乘回归来学习词向量。它旨在捕捉词语的全局统计信息，同时保留局部上下文的语义特性。GloVe 的训练目标是使得词向量的点积能够反映词语在共现矩阵中的对数共现频率。

FastText

FastText 由 Facebook 在 2016 年发布，它在 Word2Vec 的基础上引入了字符 n-gram 的概念。这意味着 FastText 不仅考虑整个词语，还考虑词语内部的子词信息（例如，'apple'可以被分解为'ap', 'pp', 'le'等 n-gram）。这种方法有几个优点：

处理生僻词和未登录词（OOV）：对于训练语料中未出现过的词语，FastText 可以通过其子词的向量组合来生成一个合理的表示。
处理形态学丰富的语言：对于像德语、土耳其语这样词形变化丰富的语言，子词信息能够更好地捕捉词语的语义。
更小的模型大小：通过共享子词向量，可以有效减少模型参数数量。

词嵌入在大模型中的作用

词嵌入是所有现代大型语言模型（LLMs）的基础组件。在 Transformer 架构中，输入文本首先通过一个嵌入层转换为词嵌入向量。这些向量随后被送入多层自注意力机制和前馈网络进行处理。词嵌入的质量直接影响着模型对语言的理解能力和最终任务的表现。

在大模型时代，虽然预训练语言模型（如 BERT、GPT 系列）已经包含了强大的上下文感知能力，但词嵌入仍然是其不可或缺的组成部分。这些大型模型在预训练阶段会学习到更高级、更丰富的词语表示，这些表示通常被称为“上下文嵌入”或“动态嵌入”，因为它们会根据词语在句子中的具体上下文而变化。然而，这些动态嵌入的起点仍然是静态的词嵌入，或者说，静态词嵌入是动态嵌入的基础输入层。

应用案例

词嵌入技术广泛应用于各种 NLP 任务中，包括但不限于：

机器翻译：将源语言词语映射到目标语言词语的向量空间，帮助模型理解跨语言的语义对应关系。
情感分析：通过词嵌入捕捉文本的情感倾向，例如“好”和“棒”的向量会很接近，而“差”和“烂”的向量则会远离。
文本分类：将文档表示为词嵌入的聚合，用于新闻分类、垃圾邮件检测等。
信息检索与推荐系统：通过计算查询词与文档词之间的向量相似度，提高检索和推荐的准确性。
问答系统：帮助系统理解问题和答案之间的语义匹配。

Token 分词（Tokenization）

Token 分词（Tokenization）是自然语言处理（NLP）的基础步骤，指将连续的文本序列切分成一系列有意义的单元，即“Token”。这些 Token 可以是词语、子词（subword，如词根、词缀）或单个字符，具体粒度取决于应用需求和所用算法。现代分词算法如字节对编码（BPE）能够在词汇表大小和表示效率之间找到最优平衡，有效处理未知词汇、多语言文本和特殊符号。分词策略的选择直接影响模型的训练效率和语言理解能力。

Tokenization

分词的必要性

计算机无法直接理解人类语言的原始文本形式。为了让模型能够处理和学习语言，我们需要将文本转换为数字表示。分词就是实现这一转换的第一步。不同的分词策略会产生不同粒度的 Token，例如：

词级别分词（Word-level Tokenization）：将文本切分为独立的词语。例如，“我爱北京天安门”可以被分为“我”、“爱”、“北京”、“天安门”。这种方法简单直观，但对于词汇量庞大、存在大量生僻词或形态变化丰富的语言（如德语、土耳其语）来说，会导致词汇表过大，难以处理未登录词（Out-Of-Vocabulary, OOV）问题。
字符级别分词（Character-level Tokenization）：将文本切分为单个字符。例如，“我爱北京”可以被分为“我”、“爱”、“北”、“京”。这种方法词汇表小，能够处理所有词语，但会丢失词语的语义信息，且序列长度会显著增加，导致模型难以捕捉长距离依赖。
子词级别分词（Subword-level Tokenization）：介于词级别和字符级别之间，旨在平衡词汇表大小和对未登录词的处理能力。它将词语分解为更小的、有意义的子单元，如词根、词缀或常用字符序列。这是现代大型语言模型中最常用的分词策略。

现代分词算法

随着深度学习和大型语言模型的发展，子词分词算法变得尤为重要，它们能够在保持较小词汇表的同时，有效处理未登录词问题。其中最流行的包括：

字节对编码（Byte Pair Encoding, BPE）： BPE 最初是一种数据压缩算法，后来被引入 NLP 领域用于分词。其核心思想是迭代地合并文本中最频繁出现的字节对（或字符对），直到达到预设的词汇表大小或不再有符合条件的合并。例如，如果“low”和“er”经常一起出现，它们可能会被合并为“lower”。BPE 的优势在于能够有效地平衡词汇表大小和对未登录词的处理能力，尤其适用于处理多语言文本。
WordPiece： WordPiece 是 Google 在 BERT 模型中使用的分词算法，它与 BPE 类似，但合并规则略有不同。WordPiece 不是简单地合并最频繁的字节对，而是选择合并后能最大化训练数据似然度的子词对。这使得 WordPiece 在生成子词时更倾向于保留语义信息。
Unigram Language Model (ULM)： ULM 分词算法与 BPE 和 WordPiece 的贪婪合并策略不同，它采用概率模型来决定如何切分词语。ULM 会训练一个 Unigram 语言模型，并根据每个子词的概率来选择最优的切分方式，使得切分后的子词序列的概率最大化。这种方法通常能够生成更合理、更符合语言学直觉的子词。

Token 分词在大模型中的作用

在大型语言模型中，Token 分词是输入预处理的关键环节。原始文本经过分词器处理后，会生成一系列 Token ID，这些 ID 随后被映射为词嵌入向量，作为模型（如 Transformer）的输入。分词策略的选择直接影响模型的：

词汇表大小：子词分词能够有效控制词汇表大小，避免了词级别分词的维度爆炸问题。
未登录词处理：通过将未登录词分解为已知子词，模型能够处理训练语料中未出现过的词语。
序列长度：不同的分词粒度会产生不同长度的 Token 序列。序列越长，模型的计算成本和内存需求越高，尤其是在 Transformer 架构中，自注意力机制的计算复杂度与序列长度的平方成正比。
语义表示：合理的分词能够更好地保留词语的语义信息，帮助模型理解文本。

例如，Tiktokenizer 作为一种现代分词解决方案，具备高效性、适应性，并在设计过程中充分考虑了机器学习领域的最新进展。

参数（Parameters）

参数（Parameters）在机器学习和统计模型中，是模型内部用于进行预测或分类的可学习变量。它们是模型从训练数据中学习到的知识的具体体现，其值在训练过程中通过优化算法（如梯度下降）不断调整，以最小化模型在训练数据上的预测误差（损失函数）。在训练过程中，这些参数通过反向传播算法和梯度下降优化不断调整，以最小化预测误差和实际目标之间的差距。参数的数量直接决定了模型的表达能力和学习容量，而参数的质量则决定了模型在具体任务上的性能表现。 Parameters

参数的本质与作用

可以把机器学习模型想象成一个复杂的函数，这个函数接收输入数据，并产生输出预测。而参数就是这个函数内部的“旋钮”和“开关”，通过调整这些旋钮和开关，模型能够学习到输入数据与输出结果之间的复杂映射关系。

具体来说，参数主要体现在以下几个方面：

权重（Weights）：在神经网络中，权重是连接不同神经元之间的数值。它们决定了输入信号在网络中传递时被放大或缩小的程度。每个连接都有一个权重，模型通过调整这些权重来学习输入特征的重要性。
偏置（Biases）：偏置项是添加到神经元输出的常数。它们允许模型在不改变输入特征的情况下调整激活函数的输出，从而更好地拟合数据。偏置可以看作是模型在没有任何输入时的一个“基线”输出。

在训练过程中，模型会接收大量的训练数据。对于每个数据点，模型会进行预测，然后将预测结果与真实标签进行比较，计算出损失。优化算法会根据这个损失来计算每个参数的梯度（即损失函数对参数的导数），然后沿着梯度的反方向更新参数，从而逐步减小损失。这个迭代过程会持续进行，直到模型性能达到满意水平或收敛。

参数的数量与模型能力

大型语言模型之所以被称为“大模型”，一个显著的特点就是其拥有海量的参数。例如，GPT-3 拥有 1750 亿个参数，而更先进的模型如 GPT-4、Llama 系列等参数量可能更大。参数数量的增加通常意味着：

更强的表达能力：更多的参数使得模型能够学习和记忆更复杂的模式、更细致的语言规则和更广泛的知识。这就像给模型提供了更多的“记忆空间”和“思考维度”。
更高的学习容量：模型能够从海量数据中捕捉到更深层次的特征和关联，从而在各种任务上表现出更强大的泛化能力。

然而，参数数量并非越多越好。过多的参数也可能带来挑战：

计算资源需求：训练和部署拥有数千亿甚至万亿参数的模型需要极其庞大的计算资源（GPU、TPU 等）和存储空间，导致高昂的成本。
过拟合风险：如果训练数据不足或模型过于复杂，过多的参数可能导致模型过度拟合训练数据，从而在未见过的数据上表现不佳。
训练难度：优化海量参数是一个复杂的工程问题，需要精巧的优化策略和分布式训练技术。

参数与超参数的区别

理解“参数”时，常常会遇到另一个概念——“超参数”（Hyperparameters）。两者之间存在本质区别：

参数（Parameters）：是模型在训练过程中自动学习的变量，例如神经网络中的权重和偏置。
超参数（Hyperparameters）：是模型在训练之前手动设置的配置变量，它们不通过训练数据学习，而是由开发者或研究者根据经验或通过实验（如网格搜索、随机搜索、贝叶斯优化等）来确定。常见的超参数包括学习率（learning rate）、批次大小（batch size）、神经网络的层数、每层的神经元数量、激活函数的选择等。

超参数的设定对模型的训练效果和最终性能有着至关重要的影响。合适的超参数能够帮助模型更快地收敛，并达到更好的泛化能力。

上下文长度（Context Length）

上下文长度，是指模型在单次推理中能够处理的最大 token 数量，这个限制决定了模型能够"记住"和利用的信息范围。更长的上下文允许模型处理更复杂的任务，如长文档分析、多轮对话记忆和复杂推理链。上下文长度是模型架构的关键参数，直接影响其理解长距离依赖关系、处理复杂指令、生成连贯长文本的能力。较长的上下文窗口允许模型捕捉更广泛的语境，但也通常意味着更高的计算成本和内存需求。因此，扩展上下文长度是当前模型研究的重要方向之一，旨在增强模型处理长序列任务的性能。

Context

上下文长度的含义与重要性

想象一下人类的对话，我们能够记住之前说过的很多话，并根据这些历史信息来理解当前的话语并做出回应。对于 LLMs 而言，上下文长度就扮演着类似“短期记忆”的角色。模型在生成下一个 Token 时，会参考其输入序列中所有前序 Token 的信息，但这种参考能力并非无限，而是受到上下文长度的严格限制。

上下文长度的重要性体现在以下几个方面：

理解长距离依赖：在自然语言中，一个词语的含义或一个句子的理解可能依赖于文本中很远的其他部分。例如，在长篇小说中，一个角色的行为可能与几十页前埋下的伏笔相关。更长的上下文长度使得模型能够捕捉并利用这些长距离的依赖关系，从而更准确地理解文本的深层含义和逻辑。
处理复杂任务：许多高级 NLP 任务，如长文档摘要、多轮对话、代码生成与调试、复杂推理等，都要求模型能够处理大量的上下文信息。例如，在多轮对话中，模型需要记住之前的对话历史才能保持对话的连贯性和逻辑性。更长的上下文窗口允许模型处理更复杂的任务，如长文档分析、多轮对话记忆和复杂推理链。
生成连贯长文本：在文本生成任务中，如果上下文长度过短，模型在生成长文本时可能会出现主题漂移、重复内容或逻辑不连贯的问题。更长的上下文长度有助于模型生成更具连贯性、逻辑性和高质量的长篇文本。
减少信息损失：当输入文本的长度超过模型的上下文长度时，超出部分的信息将被截断或忽略，导致模型无法获取完整的语境，从而影响其性能。更长的上下文长度可以减少这种信息损失。

上下文长度的挑战与扩展

尽管更长的上下文长度带来了显著的优势，但它也伴随着巨大的计算成本和技术挑战：

计算复杂度：在 Transformer 架构中，自注意力机制的计算复杂度与序列长度的平方成正比（O(N^2)）。这意味着上下文长度每增加一倍，计算量将增加四倍。这导致训练和推理长上下文模型需要巨大的计算资源（GPU 内存和计算时间）。
内存消耗：随着上下文长度的增加，存储注意力权重矩阵和中间激活值的内存需求也会急剧增加，这限制了模型能够处理的最大序列长度。
训练数据需求：训练能够有效利用长上下文的模型需要大量的长序列数据，这在某些领域可能难以获取。

为了克服这些挑战，研究者们提出了多种扩展上下文长度的方法：

位置编码优化：Transformer 模型依赖位置编码来引入序列中 Token 的顺序信息。传统的绝对位置编码在序列过长时可能表现不佳。旋转位置编码（RoPE）等新型位置编码方法能够更好地处理长序列的位置信息，例如 LongRoPE [10]。
稀疏注意力机制：通过设计只关注部分相关 Token 的注意力模式，而不是所有 Token，从而降低计算复杂度。例如，局部注意力、滑动窗口注意力、全局-局部注意力等。
分块处理与循环机制：将长序列分割成多个块，并结合循环神经网络的思想，在块之间传递信息，以处理超长序列。
外挂记忆模块：为模型增加外部记忆单元，允许模型存储和检索超出当前上下文窗口的信息，例如检索增强生成（RAG）技术。
高效的训练策略：如 FlashAttention 等技术，通过优化注意力计算的内存访问模式，显著提升了长上下文训练的效率。

参考文献

[1] 注意力机制 23 种魔改方法汇总，含 2023 最新 - CSDN 博客. https://blog.csdn.net/weixin_42645636/article/details/134837436 [2] 暴力涨点！注意力机制 40 种前沿魔改方法汇总！2025 发顶会就靠它了！ - 知乎专栏. https://zhuanlan.zhihu.com/p/13608246429 [3] 注意力机制新突破！自适应 Attention 性能优越，可缝合到多种任务中 - CSDN 博客. https://blog.csdn.net/weixin_42645636/article/details/139331461 [4] 深入解析 Tiktokenizer：大语言模型中核心分词技术的原理与架构 - 知乎专栏. https://zhuanlan.zhihu.com/p/27791918016 [5] 大模型核心概念科普：Token、上下文长度、最大输出，一次讲透 - 知乎. https://zhuanlan.zhihu.com/p/27598806064 [6] 【大模型系列】大模型的上下文长度解释与拓展 - CSDN 博客. https://blog.csdn.net/kabuto_hui/article/details/138359826 [7] 大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！ - 53AI. https://www.53ai.com/news/LargeLanguageModel/2024073165281.html [8] 长上下文 | Gemini API | Google AI for Developers. https://ai.google.dev/gemini-api/docs/long-context?hl=zh-cn [9] 如何扩展大模型的上下文长度 - 得物技术. https://tech.dewu.com/article?id=104 [10] LongRoPE：超越极限，将大模型上下文窗口扩展超过 200 万 tokens. https://www.microsoft.com/en-us/research/articles/longrope/

大模型核心技术

引言

自注意力机制（Self-Attention）