Skip to content

模型技术

自注意力机制(Self-Attention)

自注意力机制是大模型 Transformer 架构的核心组件,它可以使模型在处理序列时同时关注到序列中的所有位置。通过计算查询向量、键向量和值向量之间的相似度分数,动态分配注意力权重,使模型能够识别和利用序列中的重要信息和依赖关系。自注意力机制的并行化特性和全局视野使其在处理长序列和复杂语言结构时表现出色,在自然语言处理(如机器翻译、文本摘要)和计算机视觉等领域广泛应用,大幅提升了 AI 智能。

词嵌入(Word Embeddings)

词嵌入(Word Embedding)是自然语言处理(NLP)中的一项关键技术,它将词汇表中的词语映射到低维、稠密的实数向量空间。其核心思想是让语义相近的词在向量空间中也相互靠近。通过训练过程,语义相近的词汇在向量空间中的距离也会相近,使计算机能够通过数学运算理解和处理语言的语义关系。常见的词嵌入模型包括 Word2Vec(CBOW 和 Skip-gram)、GloVe 和 FastText。这些模型通过分析大规模文本语料库中词语的共现模式来学习词向量。词嵌入为神经网络处理自然语言提供了数学基础,是所有现代语言模型的基础组件。

Token 分词(Tokenization)

Token 分词(Tokenization)是自然语言处理(NLP)的基础步骤,指将连续的文本序列切分成一系列有意义的单元,即“Token”。这些 Token 可以是词语、子词(subword,如词根、词缀)或单个字符,具体粒度取决于应用需求和所用算法。现代分词算法如字节对编码(BPE)能够在词汇表大小和表示效率之间找到最优平衡,有效处理未知词汇、多语言文本和特殊符号。分词策略的选择直接影响模型的训练效率和语言理解能力。

参数(Parameters)

参数(Parameters)在机器学习和统计模型中,是模型内部用于进行预测或分类的可学习变量。它们是模型从训练数据中学习到的知识的具体体现,其值在训练过程中通过优化算法(如梯度下降)不断调整,以最小化模型在训练数据上的预测误差(损失函数)。在训练过程中,这些参数通过反向传播算法和梯度下降优化不断调整,以最小化预测误差和实际目标之间的差距。参数的数量直接决定了模型的表达能力和学习容量,而参数的质量则决定了模型在具体任务上的性能表现。

上下文长度(Context Length)

上下文长度,是指模型在单次推理中能够处理的最大 token 数量,这个限制决定了模型能够"记住"和利用的信息范围。更长的上下文允许模型处理更复杂的任务,如长文档分析、多轮对话记忆和复杂推理链。上下文长度是模型架构的关键参数,直接影响其理解长距离依赖关系、处理复杂指令、生成连贯长文本的能力。较长的上下文窗口允许模型捕捉更广泛的语境,但也通常意味着更高的计算成本和内存需求。因此,扩展上下文长度是当前模型研究的重要方向之一,旨在增强模型处理长序列任务的性能。