从零开始训练大模型的 4 个阶段，清晰讲解（含可视化） - 主机乐 - 做有意思的尝试

首页

超值活动

产品中心

物理机租用

十堰物理机官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

物理机租用

襄阳物理机官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

物理机租用

宁波物理机官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

云服务器

湖北-十堰高防电信云服务器-200G防御，官方自营机柜，全系铂金8163宿主机/DDR4/U2固态 SAS备份盘

云服务器

陕西-西安西安电信云服务器-100G防御，官方自营机柜，宿主机金牌5218/DDR4/U2固态

云服务器

美国-圣何塞官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

云服务器

香港-将军澳官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

虚拟主机

美国主机官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

虚拟主机

陕西西安西安电信云服务器-100G防御，官方自营机柜，宿主机金牌5218/DDR4/U2固态

免费空间

香港为学习者提供稳定平台

免费空间

大陆为学习者提供稳定可用的平台

云电脑/挂机宝

贵州官方自营机柜。全系列戴尔物理机、优质设备、专业售后团队，稳定在线

订购产品

文章公告

关于我们

博客动态

所有文章

< 返回文章列表

【开发相关】从零开始训练大模型的 4 个阶段，清晰讲解（含可视化）

发表时间：2025-01-16 01:32:56 小编：主机乐-Yutio

大家好，我是 Ai 学习的老章

从零开始构建 LLMs 的四个阶段，使其能够应用于真实场景。

涵盖：

预训练
指令微调
偏好微调
推理微调

0️⃣ 随机初始化的 LLM

此时，模型一无所知。

你问它“什么是 LLM？”，得到的却是像“try peter hand and hello 448Sn”这样的胡言乱语。

它尚未见过任何数据，只拥有随机的权重。

1️⃣ 预训练

这一阶段通过在海量语料上训练 LLM 预测下一个 token，让它掌握语言的基本规律，从而吸收语法、世界知识等。

但它并不擅长对话，因为当被提示时，它只是继续生成文本。

2️⃣ 指令微调

为了让模型具备对话能力，我们通过在指令 - 响应对上进行训练来进行指令微调。这帮助它学会如何遵循提示并格式化回复。

现在它可以：

回答问题
总结内容
编写代码等

此时，我们很可能已经：

用尽了整个原始互联网档案和知识。
用光了用于人工标注指令 - 回复数据的预算。

那么我们还能做什么来进一步提升模型？

我们进入了强化学习（RL）的领域。

3️⃣ 偏好微调（PFT）

你一定在 ChatGPT 上见过这个界面，它会问：你更喜欢哪个回答？

这不仅仅是为了收集反馈，更是宝贵的人类偏好数据。

OpenAI 利用这些数据，通过偏好微调来优化他们的模型。

在 PFT 中：

用户在两个回答之间做出选择，以生成人类偏好数据。

随后训练一个奖励模型来预测人类偏好，并使用 RL 更新 LLM。

上述过程称为 RLHF（Reinforcement Learning with Human Feedback，基于人类反馈的强化学习），用于更新模型权重的算法称为 PPO。

它教会 LLM 在没有“正确答案”的情况下也能与人类对齐。

但我们还可以进一步改进 LLM。

4️⃣ 推理微调

在推理任务（数学、逻辑等）中，通常只有一个正确答案，以及一系列明确的步骤来得出答案。

因此我们不需要人类偏好，而是可以用正确性作为信号。

这被称为推理微调 ?

步骤：

模型针对提示生成一个答案。
将该答案与已知正确答案进行比较。
根据正确性，我们给予奖励。

这被称为“基于可验证奖励的强化学习”。

DeepSeek 的 GRPO 是一种流行的技术。

这就是从零开始训练一个 LLM 的 4 个阶段。

从一个随机初始化的模型开始。
在大规模语料库上进行预训练。
使用指令微调，使其能够遵循命令。
使用偏好与推理微调来优化回答。

本文来源：https://x.com/akshay_pachaar/status/1962855866786607117

联系我们

返回顶部