基准测试(Benchmarks)
基准测试是评估 AI 模型能力和性能的标准化测试集合,涵盖了语言理解、逻辑推理、知识问答、代码生成等多个维度。知名的基准测试包括 MMLU(大规模多任务语言理解)、HellaSwag(常识推理)、HumanEval(代码生成)等。这些测试为模型比较、能力评估和技术进展追踪提供了客观的量化标准。我们平常所看到的大模型不同版本发布时,都会直接提供各类测试得分和排序,以此来表示新版本模型在哪些能力上有提升。
困惑度(Perplexity)
困惑度是衡量语言模型对文本序列预测不确定性的指标,数值越低表示模型的预测越准确。困惑度反映了模型对语言分布的建模质量,是评估生成模型性能的重要量化指标。在模型训练过程中,困惑度的变化趋势可以用来监控训练进度和判断模型收敛状态。例如,困惑度为 10,意味着模型平均在 10 个词中选择下一个最可能的词。困惑度依赖于词表大小和分词方式,因此比较不同模型的困惑度时,需确保在相同数据集和预处理条件下进行。
鲁棒性(Robustness)
鲁棒性是指 AI 模型在面对输入扰动、对抗性攻击或数据分布变化时保持稳定性能的能力。鲁棒的模型能够妥善处理拼写错误、语法变化、恶意输入、域外数据等挑战性情况。一个鲁棒的模型对于未预料到的或“非理想”输入表现出较强的容错性和适应性,不会轻易产生大幅性能下降或错误预测。例如,在图像识别中,对图像轻微旋转、亮度变化或添加微小噪声后,鲁棒模型仍能正确分类。提高模型鲁棒性对于确保 AI 系统在真实世界应用中的可靠性和安全性具有重要意义。
量化(Quantization)
量化是通过降低模型参数的数值精度来减少存储需求和计算成本的优化技术。常见的量化方法包括将 32 位浮点数转换为 16 位、8 位甚至更低精度的整数表示。有效的量化技术能够在保持模型性能的同时显著减少内存占用和推理延迟,使大型模型能够在资源受限的环境中部署。虽然量化可能引入微小的精度损失,但通过量化感知训练(QAT)或训练后量化(PTQ)等精细技术,可以在保持模型性能基本不变的前提下,显著提升部署效率,尤其适用于资源受限的边缘设备和追求极致性能的场景。
延迟(Latency)
延迟是指 AI 从接收输入请求到产生完整输出响应的时间间隔,是衡量 AI 系统实用性的关键性能指标。低延迟对于实时交互应用(如对话系统、实时翻译)至关重要。影响延迟的主要因素包括模型规模、硬件配置、网络传输、批处理策略和系统优化水平。