Skip to content

训练方法

规模法则(Scaling Laws)

规模法则描述了模型性能与训练规模(包括参数数量、数据集大小和计算资源)之间的数学关系。研究发现,在一定范围内,这些因素的增加能够以可预测的方式提升模型性能,遵循幂律分布。规模法则为 AI 系统的设计和资源配置提供了科学依据,指导了大模型发展的技术路线和投资决策。Scalling Laws 并非计算机领域独有现象,最早来源于动物世界,主要描述动物的器官大小、代谢速率、寿命、力量、繁殖率等成比例变化的关系,这种关系并非线性关系。

training

预训练(Pre-training)

预训练是在大规模无标注文本数据上进行的自监督学习过程,模型通过预测序列中的下一个 token 来学习语言的统计规律和语义知识。这个阶段使模型获得了基础的语言理解能力、世界知识和推理能力。预训练的质量和数据多样性直接影响模型的基础能力水平,为后续的任务特化提供了坚实基础。之后,该模型可在特定下游任务(如文本分类、图像识别)上,利用少量标注数据进行微调(Fine-tuning),从而显著提升任务性能、加快收敛速度并增强泛化能力。BERT、GPT 及许多视觉模型均采用此策略。

training

微调(Fine-tuning)

微调是在预训练模型基础上,使用特定任务的标注数据进行针对性训练的过程。通过调整模型参数,使其适应特定领域的语言特点、任务要求和输出格式。微调过程相比预训练需要更少的数据和计算资源,但能够显著提升模型在目标任务上的表现,实现从通用能力到专业应用的有效转换。通过微调,模型能够将预训练阶段学到的通用知识迁移并特化到具体应用场景,从而以较少的数据和训练成本,快速达到较高的性能水平,实现知识的有效利用和模型的快速适配。

training

RLHF(人类反馈强化学习)

人类反馈强化学习是一种通过人类偏好数据来优化语言模型行为的训练方法。该过程首先训练一个奖励模型来预测人类对模型输出的偏好评分,然后使用强化学习算法优化语言模型以最大化奖励分数。通俗来说,就是设计一个人类认知偏好的奖励模型,用这个奖励模型来给基础模型提供反馈,进而优化基础模型性能的一种训练方法。RLHF 能够使模型输出更加符合人类价值观和使用期望,提高响应的有用性、安全性和诚实性。

training

少样本学习(Few-shot Learning)

少样本学习是指模型仅通过少量标注数据就能快速适应新任务的能力。大型语言模型展现出了强大的少样本学习能力,能够在提示中理解任务要求、学习输入输出格式,并生成符合期望的结果,而无需修改模型参数。这种能力使模型能够快速适应新的应用场景,大大降低了部署和使用的门槛。FSL 对于降低数据标注成本、解决冷启动问题、以及在数据稀疏领域(如医学影像、珍稀物种识别)的应用至关重要,是实现更通用、更高效人工智能的关键技术之一。

training