跳到主要内容

模型参数

模型参数控制 LLM 生成文本时的行为方式,包括创造性、输出长度、采样策略等。合理调整这些参数可以显著改善 AI 的输出质量,使其更适合你的使用场景。

何时使用

  • 默认输出太随机或太死板,想调整创造性
  • 回复经常被截断,需要增加输出长度限制
  • 使用推理模型时,想控制思考深度
  • 需要为不同任务场景(创意写作 vs. 代码生成)使用不同参数组合

参数设置入口

Elftia 提供多个层级的参数设置,优先级从高到低:

会话级参数(聊天窗口中临时调整)
|
v 覆盖
全局模型参数(设置 → 模型参数)
|
v 覆盖
提供商默认参数(提供商配置中的 defaultSettings)
|
v 覆盖
系统默认值

全局模型参数

  1. 打开 设置模型参数
  2. 调整各项参数的值
  3. 使用每个参数旁边的 启用/禁用 开关控制是否应用

会话级参数

  1. 在聊天界面中,点击模型选择区域旁的 参数 按钮
  2. 临时调整当前会话的参数
  3. 这些调整仅对当前会话有效

核心参数详解

temperature(温度)

属性
范围0 - 2
默认值0.7
全局可控

作用:控制输出的随机性和创造性。

  • 低 temperature (0 - 0.3):输出更确定、更一致,适合代码生成、事实问答、数据提取等需要精确性的场景
  • 中 temperature (0.4 - 0.8):平衡创造性和一致性,适合日常对话、文档撰写
  • 高 temperature (0.9 - 2.0):输出更随机、更有创意,适合创意写作、头脑风暴

推荐设置:

场景推荐值
代码生成0 - 0.2
技术文档0.3 - 0.5
日常对话0.6 - 0.8
创意写作0.8 - 1.2
头脑风暴1.0 - 1.5

max_tokens(最大输出 token 数)

属性
范围1 - (模型上限)
默认值4096
全局可控

作用:限制模型单次回复的最大长度(以 token 计算,1 个中文字约 1-2 个 token,1 个英文单词约 1 个 token)。

  • 如果回复在中间被截断且显示「达到最大长度」,说明 max_tokens 设置太小
  • 设置过大不会导致模型总是输出很长的回复,模型会在认为回答完整时自然停止
  • 不同模型的上限不同,超过模型支持的最大值会被自动裁剪

常见模型的输出上限:

模型最大输出 token
GPT-4o16,384
GPT-565,536
Claude Sonnet 4.565,536
Claude Haiku 4.565,536
Gemini 3 Flash65,536
Qwen3 Max65,536
DeepSeek V38,192

top_p(核采样)

属性
范围0 - 1
默认值1.0
全局可控

作用:核采样 (Nucleus Sampling) 是另一种控制随机性的方式。模型在生成每个 token 时,只从累计概率达到 top_p 的候选 token 中采样。

  • top_p = 1.0:考虑所有候选 token(不做筛选)
  • top_p = 0.9:只从概率最高的、累计占 90% 的 token 中采样
  • top_p = 0.1:只从概率最高的、累计占 10% 的 token 中采样,输出非常确定

注意:通常建议只调整 temperature 或 top_p 中的一个,不要同时大幅修改两者,以避免产生不可预测的效果。

推理预算 (Thinking Budget)

属性
可选值none / low / medium / high
默认值low
全局可控

作用:控制推理模型(如 Claude Sonnet 4.5、Gemini 3 Flash、DeepSeek R1 等支持推理的模型)在回复前的「思考」深度。

级别说明适用场景
none关闭推理,直接回复简单问答、闲聊
low轻度思考日常任务,平衡速度和质量
medium中度思考复杂问题,需要一定推理
high深度思考,分配最大思考 token数学证明、复杂代码、深度分析

推理预算仅对标记了 reasoning: true 的模型生效。对不支持推理的模型,此设置会被忽略。

reasoning_effort(推理力度)

该参数专用于 OpenAI 的 o 系列模型(如 o1、o3、o4-mini)。

属性
可选值low / medium / high
默认值medium
  • low:快速响应,适合简单问题
  • medium:平衡模式
  • high:深度推理,适合复杂任务

工具调用最大轮数 (Tool Max Turns)

属性
范围1 - 50
默认值5
全局可控

作用:限制 Agent 模式下 MCP 工具调用的最大迭代次数。当模型在一次对话中连续调用工具时,达到此上限后会强制停止并返回当前结果。

可配置项参考

全局模型参数

参数类型默认值范围启用/禁用
temperature数字0.70 - 2默认启用
topP数字1.00 - 1默认禁用
maxTokens数字40961 - (模型上限)默认禁用
defaultThinkingBudget枚举lownone/low/medium/high始终生效
toolMaxTurns数字51 - 50始终生效

提供商默认参数

参数类型系统默认说明
temperature数字0.7提供商级别的默认温度
topP数字1提供商级别的默认 top_p
maxTokens数字4096提供商级别的默认最大输出
stream布尔true是否使用流式传输
presencePenalty数字(未设置)存在惩罚 (-2 到 2)
frequencyPenalty数字(未设置)频率惩罚 (-2 到 2)
stop字符串数组(未设置)停止序列
seed数字(未设置)随机种子(用于可复现输出)
jsonMode布尔false是否强制 JSON 格式输出

各提供商的默认参数差异

不同提供商模板预设了不同的默认参数:

提供商temperaturemaxTokenstopP其他
OpenAI0.74,096----
Anthropic0.765,536----
Google Gemini0.765,5360.95--
系统默认0.74,0961stream: true

行为说明

参数优先级

当多个层级都设置了同一参数时,优先级为:

  1. 会话级参数(在聊天中临时调整的)—— 最高优先级
  2. 全局模型参数(设置页面中配置的,且标记为「启用」)
  3. 提供商默认参数(提供商配置中的 defaultSettings
  4. 系统默认值temperature: 0.7, topP: 1, maxTokens: 4096

全局模型参数中标记为「禁用」的参数不会覆盖提供商默认值。

参数与模型兼容性

并非所有参数都被所有模型支持:

参数OpenAIAnthropicGemini本地模型
temperature支持支持支持支持
maxTokens支持支持支持支持
topP支持支持支持支持
presencePenalty支持不支持不支持部分支持
frequencyPenalty支持不支持不支持部分支持
seed支持不支持不支持部分支持
thinking部分 (o 系列)支持支持不支持

不支持的参数会被 Transformer 在发送请求前自动移除,不会导致错误。

格式转换器 (Transformer) 对参数的影响

Elftia 的 Transformer 系统会在发送请求前对参数进行适配:

Transformer参数处理
anthropic将 max_tokens 映射到 Anthropic 的字段格式
gemini将参数转换为 Gemini 的 generationConfig 格式
sampling处理 temperature、top_p 等采样参数的标准化
maxtoken强制设置特定的 max_tokens 值(覆盖用户设置)
maxcompletiontokens将 max_tokens 转换为 max_completion_tokens(部分模型要求)
reasoning处理推理模型的 reasoning_content 字段
forcereasoning强制启用推理模式(忽略用户的 thinking budget 设置)

模型路由

Elftia 支持为不同任务类型配置不同的模型:

路由角色说明配置位置
默认模型主要的聊天模型聊天界面模型选择
后台模型用于轻量级任务(摘要、标题生成等)设置 → Agent 默认模型
视觉模型处理包含图片的消息(当默认模型不支持视觉时)设置 → Agent 默认模型
推理模型需要深度思考的任务通过 thinking budget 级别控制

跟随提供商 (Follow Provider):当启用此选项时,后台模型和视觉模型会自动选择当前默认模型所属提供商的对应模型。例如,如果你使用智谱的 GLM-5 作为默认模型,后台模型会自动使用 GLM-4.5 Air,视觉模型使用 GLM-4.6V。

Troubleshooting

问题可能原因解决方案
回复被截断max_tokens 设置太小增大 max_tokens 值,或在全局参数中启用并设置更大的值
回复太随机/不相关temperature 太高降低 temperature(推荐 0.3-0.7)
回复太死板/重复temperature 太低适当提高 temperature(推荐 0.5-0.8)
推理模型不显示思维链thinking budget 设为 none将 defaultThinkingBudget 设为 low 或更高
推理模型思考太久thinking budget 设为 high降低为 medium 或 low
参数设置不生效被更高优先级的设置覆盖检查会话级参数是否有覆盖,确认全局参数的启用开关已开启
请求返回参数错误模型不支持某个参数检查参数与模型的兼容性,禁用不兼容的参数
工具调用在中间停止达到 toolMaxTurns 上限增大 toolMaxTurns 值(注意可能增加 API 费用)
不同提供商表现差异大提供商默认参数不同在全局参数中启用并统一设置关键参数

相关页面