帮助中心/最新通知

质量为本、客户为根、勇于拼搏、务实创新

< 返回文章列表

【开发相关】从零开始训练大模型的 4 个阶段,清晰讲解(含可视化)

发表时间:2025-01-16 01:32:56 小编:主机乐-Yutio

大家好,我是 Ai 学习的老章

从零开始构建 LLMs 的四个阶段,使其能够应用于真实场景。

涵盖:

  • 预训练
  • 指令微调
  • 偏好微调
  • 推理微调

0️⃣ 随机初始化的 LLM

此时,模型一无所知。

你问它“什么是 LLM?”,得到的却是像“try peter hand and hello 448Sn”这样的胡言乱语。

它尚未见过任何数据,只拥有随机的权重。

1️⃣ 预训练

这一阶段通过在海量语料上训练 LLM 预测下一个 token,让它掌握语言的基本规律,从而吸收语法、世界知识等。

但它并不擅长对话,因为当被提示时,它只是继续生成文本。

2️⃣ 指令微调

为了让模型具备对话能力,我们通过在指令 - 响应对上进行训练来进行指令微调。这帮助它学会如何遵循提示并格式化回复。

现在它可以:

  • 回答问题
  • 总结内容
  • 编写代码等

此时,我们很可能已经:

  • 用尽了整个原始互联网档案和知识。
  • 用光了用于人工标注指令 - 回复数据的预算。

那么我们还能做什么来进一步提升模型?

我们进入了强化学习(RL)的领域。

3️⃣ 偏好微调(PFT)

你一定在 ChatGPT 上见过这个界面,它会问:你更喜欢哪个回答?

这不仅仅是为了收集反馈,更是宝贵的人类偏好数据。

OpenAI 利用这些数据,通过偏好微调来优化他们的模型。

在 PFT 中:

用户在两个回答之间做出选择,以生成人类偏好数据。

随后训练一个奖励模型来预测人类偏好,并使用 RL 更新 LLM。

上述过程称为 RLHF(Reinforcement Learning with Human Feedback,基于人类反馈的强化学习),用于更新模型权重的算法称为 PPO。

它教会 LLM 在没有“正确答案”的情况下也能与人类对齐。

但我们还可以进一步改进 LLM。

4️⃣ 推理微调

在推理任务(数学、逻辑等)中,通常只有一个正确答案,以及一系列明确的步骤来得出答案。

因此我们不需要人类偏好,而是可以用正确性作为信号。

这被称为推理微调 ?

步骤:

  • 模型针对提示生成一个答案。
  • 将该答案与已知正确答案进行比较。
  • 根据正确性,我们给予奖励。

这被称为“基于可验证奖励的强化学习”。

DeepSeek 的 GRPO 是一种流行的技术。

这就是从零开始训练一个 LLM 的 4 个阶段。

  • 从一个随机初始化的模型开始。
  • 在大规模语料库上进行预训练。
  • 使用指令微调,使其能够遵循命令。
  • 使用偏好与推理微调来优化回答。

本文来源:https://x.com/akshay_pachaar/status/1962855866786607117


联系我们
返回顶部