帮助中心/最新通知

质量为本、客户为根、勇于拼搏、务实创新

< 返回文章列表

【开发相关】大模型常识篇——Temperature

发表时间:2025-01-16 01:32:56 小编:油条

大家好,我是 Ai 学习的老章

本文一起学习一下大模型中经常看到的一个参数——Temperature

Temperature: 用于调整随机从生成模型中抽样的程度,因此每次“生成”时,相同的提示可能会产生不同的输出。温度为 0 将始终产生相同的输出。温度越高随机性越大!主要用于控制创造力。

Temperature

大模型中的 temperature 参数用于控制模型输出的随机性和创造性。

较高的 temperature 值会增加输出的随机性,产生更多样化的结果,但也可能降低预测准确性。

较低的 temperature 值则会使输出更确定、更保守,更倾向于产生重复和更可预测的输出。

设置 temperature 时需要在随机性和准确性之间找到平衡。在测试大模型时,可以通过改变 temperature 的值来评估模型在不同情境下的表现,比如在创意生成、代码编写等任务中,观察其生成结果的变化。

除了 Temperature 这个最常被讨论的参数,我们还会经常看到以下参数:

  • top_p :限制被考虑的标记范围。若设为 0.5,则仅考虑累计概率不超过 50% 的最高概率标记。
  • top_k :同样限制被考虑的标记,仅考虑概率最高的前 k 个标记。
  • frequency_penalty : 根据生成文本中新词出现的频率对其进行惩罚。可设置为负值以鼓励重复。
  • presence_penalty : 若新词已出现在已生成文本中,则对其进行惩罚。可设置为负值以鼓励重复。
  • repetition_penalty : 该参数被记录为根据新词是否已在生成文本或提示中出现过而进行惩罚的参数。

开源模型推荐参数

开源权重与开源数据集的模型[1]

模型名称

temperature

top_p

top_k

备注

deepseek-ai/DeepSeek-V3-0324

0.3

官方推荐 0.3,但部分基准测试使用 0.7。

deepseek-ai/DeepSeek-R1-0528

0.6

0.95

模型卡和论文均推荐此配置。

microsoft/phi-4

无 (报告用 0.5)

官方无推荐,但技术报告多用 temperature=0.5。

microsoft/Phi-4-reasoning

0.8

0.95

50

模型卡明确指定所有参数。

mistralai/Mistral-Small-3.2-24B-Instruct-2506

0.15

API 返回的旧版默认值与模型卡不符。

mistralai/Devstral-Small-2505

不明确 (示例用 0.15)

示例代码用 0.15,但 API 默认值为 0.0。

mistralai/Magistral-Small-2506

0.7

0.95

模型卡明确推荐,与 API 默认值一致。

qwen3 系列

思考: 0.6非思考: 0.7

思考: 0.95非思考: 0.8

20

官方为不同模式提供明确参数建议。

THUDM/GLM-Z1-32B-0414

0.6

0.95

40

模型卡明确指定所有参数。

权重可用(非开源)模型

模型名称

temperature

top_p

top_k

备注

google/gemma-3-27b-it

1.0

0.96

64

参数来自非官方确认,但已写入配置文件。

meta-llama/Llama-4-Scout-17B-16E-Instruct

0.6

0.9

参数来自配置文件,模型卡未提及。

关键结论与建议

  1. Temperature 是平衡随机性与确定性的核心参数,无统一最优值,需根据任务特性动态调整。
  2. 低 T 值适合追求准确性的任务,高 T 值适合追求创造性的任务,但需通过提示词或后处理(如核采样、Top-K 采样)辅助控制输出质量。
  3. 实际应用中建议进行小范围调优实验(如 T=0.7、1.0、1.3 对比),结合人工评估与客观指标确定最佳值。

关于 Temperature 的其他研究

图片
图片

The Effect of Sampling Temperature on Problem Solving in Large Language Models[2],这篇论文主要探讨了采样温度对大型语言模型(LLMs)解决问题能力的影响,具体内容如下:

  • 研究方法
    • 模型与提示:使用了 9 个流行的 LLM 模型,并结合 5 种提示工程技术,包括基线提示、领域专家提示、自我复述提示、思维链(CoT)提示和复合提示。
    • 数据:从标准的 LLM 基准测试中随机抽样,创建了包含不同领域和难度的多项选择题(MCQA)考试,包括大型考试(1000 题)和小型考试(100 题)。
    • 实验过程:在不同的采样温度(0.0 到 1.6)下,让模型使用不同的提示技术解决这些 MCQA 问题,并记录正确答案的准确率。同时,还使用了多种文本相似性指标来分析模型输出的可变性。
  • 研究结果
    • 准确率与温度的关系:在 0.0 到 1.0 的温度范围内,LLM 的问题解决性能相对稳定,没有显著的统计学差异。当温度超过 1.0 时,生成的文本会迅速变得不连贯,准确率开始下降,在 1.6 左右降至零。
    • 文本可变性与温度的关系:随着温度的升高,文本相似性降低,即文本可变性增加。这种趋势在温度超过 1.0 时更为明显,与准确率的下降趋势一致。
  • 研究结论
    • 实际应用建议:对于问题解决任务,建议将 LLM 的采样温度设置为 0.0,以最大化结果的可重复性,同时不影响准确性,并避免温度超过 1.0 时性能下降。
    • 研究局限性:研究仅涉及部分 LLM 模型、提示技术和问题领域,样本量有限,且未考虑其他采样参数的组合效应。
    • 未来研究方向:建议进一步研究更多 LLM 模型、扩展问题类型、增加问题数量和领域,以及深入分析温度对不同类型问题的影响。
    图片
    图片

Is Temperature the Creativity Parameter of Large Language Models?[3],这篇论文发现:

  • 创造力是复杂的,不仅需要新颖性,还需要有用性、连贯性等。比如,一个故事若只是随机堆砌词语(高温度),可能毫无逻辑,算不上真正的“创意”。
  • 固定实验条件:使用 LLAMA 2-CHAT 模型,用同一个简单 prompt(“Write a story.”)生成故事,仅改变温度参数(范围 0.001 到 2.0)。
  • 评估维度:从 4 个维度判断故事的创造力:
    • 新颖性(是否独特)、典型性(是否符合故事常见模式)、内聚性(句子和情节是否连贯)、连贯性(读者是否容易理解)。
  • 核心发现:温度的影响比想象中弱
    • 温度与新颖性:有微弱的正相关,即温度越高,故事偶尔会更独特,但效果不明显。
    • 温度与连贯性:呈负相关,温度越高,故事越可能逻辑混乱(比如情节跳跃、难以理解)。
    • 温度与典型性、内聚性:几乎没有关系。比如,高温度并不能让故事更符合某种类型(如冒险故事),也不能让句子衔接更自然。
    • 关键结论:温度只能带来有限的 “多样性”,但远不能代表 “创造力”。它更像是 “碰运气”—— 温度高可能偶然出现新颖内容,但也可能产生垃圾输出。
    • 创造力需要平衡 “新颖” 和 “有用”,而温度仅控制随机性,无法保证内容质量。
    • 比如,一个好的创意故事需要合理的情节、鲜明的角色,这些不是靠调高温度就能自动生成的,可能需要更复杂的模型设计或提示工程。温度参数对 LLM 的 “创意输出” 有一定影响,但远非决定性因素。真正的 AI 创造力需要更复杂的机制,而不是简单调参。未来研究应聚焦于如何让模型在 “随机” 和 “可控” 之间找到平衡,从而生成真正有价值的创意内容。

这篇论文:Exploring the Impact of Temperature on Large Language Models:Hot or Cold?[4],系统研究了大语言模型中temperature 参数(0-4.0 范围)对六种核心能力(因果推理、创造力、上下文学习、指令遵循、机器、摘要生成)的影响,发现其对不同能力和模型规模(小 1B-4B、中 6B-13B、大 40B-80B)的影响差异显著:小模型对温度更敏感,高温易导致性能骤降;大模型在高温下更稳健。例如,机器译在小模型中性能波动可达 192.32%,而大模型仅 76.86%。研究提出基于 BERT 的温度选择器,在 SuperGLUE 数据集上显著提升中小模型性能,并验证了 FP16 与 4-bit 量化下温度效应的一致性。

核心结果:

  • 创造力(CT):中/大模型在T=1.3时表现最优,小模型在 T=1.0 时显著下降(见表 3)。
  • 机器译(MT):温度与性能呈强负相关,小模型性能波动达**192.32%,大模型仅76.86%**(见表 3)。
  • 指令遵循(IF):T>1 时性能骤降,小/中/大模型的突变温度分别为 1.0-1.3、1.3-1.6、1.6-1.9(图 2)。 - 温度对 LLMs 的影响需结合任务类型(如 CT 需中高温,MT 需低温)和模型规模(小模型更敏感)动态调整,中小模型可通过BERT 选择器优化性能,大模型则可依赖其内在稳健性。

参考资料

[1] 

开源权重与开源数据集的模型: https://muxup.com/2025q2/recommended-llm-parameter-quick-reference

[2] 

The Effect of Sampling Temperature on Problem Solving in Large Language Models: https://arxiv.org/pdf/2402.05201

[3] 

Is Temperature the Creativity Parameter of Large Language Models?: https://arxiv.org/pdf/2405.00492

[4] 

Exploring the Impact of Temperature on Large Language Models:Hot or Cold?: https://www.themoonlight.io/file?url=https%3A%2F%2Farxiv.org%2Fpdf%2F2506.07295


联系我们
返回顶部