模型参数
模型参数控制 LLM 生成文本时的行为方式,包括创造性、输出长度、采样策略等。合理调整这些参数可以显著改善 AI 的输出质量,使其更适合你的使用场景。
何时使用
- 默认输出太随机或太死板,想调整创造性
- 回复经常被截断,需要增加输出长度限制
- 使用推理模型时,想控制思考深度
- 需要为不同任务场景(创意写作 vs. 代码生成)使用不同参数组合
参数设置入口
Elftia 提供多个层级的参数设置,优先级从高到低:
会话级参数(聊天窗口中临时调整)
|
v 覆盖
全局模型参数(设置 → 模型参数)
|
v 覆盖
提供商默认参数(提供商配置中的 defaultSettings)
|
v 覆盖
系统默认值
全局模型参数
- 打开 设置 → 模型参数
- 调整各项参数的值
- 使用每个参数旁边的 启用/禁用 开关控制是否应用
会话级参数
- 在聊天界面中,点击模型选择区域旁的 参数 按钮
- 临时调整当前会话的参数
- 这些调整仅对当前会话有效
核心参数详解
temperature(温度)
| 属性 | 值 |
|---|---|
| 范围 | 0 - 2 |
| 默认值 | 0.7 |
| 全局可控 | 是 |
作用:控制输出的随机性和创造性。
- 低 temperature (0 - 0.3):输出更确定、更一致,适合代码生成、事实问答、数据提取等需要精确性的场景
- 中 temperature (0.4 - 0.8):平衡创造性和一致性,适合日常对话、文档撰写
- 高 temperature (0.9 - 2.0):输出更随机、更有创意,适合创意写作、头脑风暴
推荐设置:
| 场景 | 推荐值 |
|---|---|
| 代码生成 | 0 - 0.2 |
| 技术文档 | 0.3 - 0.5 |
| 日常对话 | 0.6 - 0.8 |
| 创意写作 | 0.8 - 1.2 |
| 头脑风暴 | 1.0 - 1.5 |
max_tokens(最大输出 token 数)
| 属性 | 值 |
|---|---|
| 范围 | 1 - (模型上限) |
| 默认值 | 4096 |
| 全局可控 | 是 |
作用:限制模型单次回复的最大长度(以 token 计算,1 个中文字约 1-2 个 token,1 个英文单词约 1 个 token)。
- 如果回复在中间被截断且显示「达到最大长度」,说明 max_tokens 设置太小
- 设置过大不会导致模型总是输出很长的回复,模型会在认为回答完整时自然停止
- 不同模型的上限不同,超过模型支持的最大值会被自动裁剪
常见模型的输出上限:
| 模型 | 最大输出 token |
|---|---|
| GPT-4o | 16,384 |
| GPT-5 | 65,536 |
| Claude Sonnet 4.5 | 65,536 |
| Claude Haiku 4.5 | 65,536 |
| Gemini 3 Flash | 65,536 |
| Qwen3 Max | 65,536 |
| DeepSeek V3 | 8,192 |
top_p(核采样)
| 属性 | 值 |
|---|---|
| 范围 | 0 - 1 |
| 默认值 | 1.0 |
| 全局可控 | 是 |
作用:核采样 (Nucleus Sampling) 是另一种控制随机性的方式。模型在生成每个 token 时,只从累计概率达到 top_p 的候选 token 中采样。
- top_p = 1.0:考虑所有候选 token(不做筛选)
- top_p = 0.9:只从概率最高的、累计占 90% 的 token 中采样
- top_p = 0.1:只从概率最高的、累计占 10% 的 token 中采样,输出非常确定
注意:通常建议只调整 temperature 或 top_p 中的一个,不要同时大幅修改两者,以避免产生不可预测的效果。
推理预算 (Thinking Budget)
| 属性 | 值 |
|---|---|
| 可选值 | none / low / medium / high |
| 默认值 | low |
| 全局可控 | 是 |
作用:控制推理模型(如 Claude Sonnet 4.5、Gemini 3 Flash、DeepSeek R1 等支持推理的模型)在回复前的「思考」深度。
| 级别 | 说明 | 适用场景 |
|---|---|---|
| none | 关闭推理,直接回复 | 简单问答、闲聊 |
| low | 轻度思考 | 日常任务,平衡速度和质量 |
| medium | 中度思考 | 复杂问题,需要一定推理 |
| high | 深度思考,分配最大思考 token | 数学证明、复杂代码、深度分析 |
推理预算仅对标记了 reasoning: true 的模型生效。对不支持推理的模型,此设置会被忽略。
reasoning_effort(推理力度)
该参数专用于 OpenAI 的 o 系列模型(如 o1、o3、o4-mini)。
| 属性 | 值 |
|---|---|
| 可选值 | low / medium / high |
| 默认值 | medium |
- low:快速响应,适合简单问题
- medium:平衡模式
- high:深度推理,适合复杂任务
工具调用最大轮数 (Tool Max Turns)
| 属性 | 值 |
|---|---|
| 范围 | 1 - 50 |
| 默认值 | 5 |
| 全局可控 | 是 |
作用:限制 Agent 模式下 MCP 工具调用的最大迭代次数。当模型在一次对话中连续调用工具时,达到此上限后会强制停止并返回当前结果。
可配置项参考
全局模型参数
| 参数 | 类型 | 默认值 | 范围 | 启用/禁用 |
|---|---|---|---|---|
| temperature | 数字 | 0.7 | 0 - 2 | 默认启用 |
| topP | 数字 | 1.0 | 0 - 1 | 默认禁用 |
| maxTokens | 数字 | 4096 | 1 - (模型上限) | 默认禁用 |
| defaultThinkingBudget | 枚举 | low | none/low/medium/high | 始终生效 |
| toolMaxTurns | 数字 | 5 | 1 - 50 | 始终生效 |
提供商默认参数
| 参数 | 类型 | 系统默认 | 说明 |
|---|---|---|---|
| temperature | 数字 | 0.7 | 提供商级别的默认温度 |
| topP | 数字 | 1 | 提供商级别的默认 top_p |
| maxTokens | 数字 | 4096 | 提供商级别的默认最大输出 |
| stream | 布尔 | true | 是否使用流式传输 |
| presencePenalty | 数字 | (未设置) | 存在惩罚 (-2 到 2) |
| frequencyPenalty | 数字 | (未设置) | 频率惩罚 (-2 到 2) |
| stop | 字符串数组 | (未设置) | 停止序列 |
| seed | 数字 | (未设置) | 随机种子(用于可复现输出) |
| jsonMode | 布尔 | false | 是否强制 JSON 格式输出 |
各提供商的默认参数差异
不同提供商模板预设了不同的默认参数:
| 提供商 | temperature | maxTokens | topP | 其他 |
|---|---|---|---|---|
| OpenAI | 0.7 | 4,096 | -- | -- |
| Anthropic | 0.7 | 65,536 | -- | -- |
| Google Gemini | 0.7 | 65,536 | 0.95 | -- |
| 系统默认 | 0.7 | 4,096 | 1 | stream: true |
行为说明
参数优先级
当多个层级都设置了同一参数时,优先级为:
- 会话级参数(在聊天中临时调整的)—— 最高优先级
- 全局模型参数(设置页面中配置的,且标记为「启用」)
- 提供商默认参数(提供商配置中的
defaultSettings) - 系统默认值(
temperature: 0.7, topP: 1, maxTokens: 4096)
全局模型参数中标记为「禁用」的参数不会覆盖提供商默认值。
参数与模型兼容性
并非所有参数都被所有模型支持:
| 参数 | OpenAI | Anthropic | Gemini | 本地模型 |
|---|---|---|---|---|
| temperature | 支持 | 支持 | 支持 | 支持 |
| maxTokens | 支持 | 支持 | 支持 | 支持 |
| topP | 支持 | 支持 | 支持 | 支持 |
| presencePenalty | 支持 | 不支持 | 不支持 | 部分支持 |
| frequencyPenalty | 支持 | 不支持 | 不支持 | 部分支持 |
| seed | 支持 | 不支持 | 不支持 | 部分支持 |
| thinking | 部分 (o 系列) | 支持 | 支持 | 不支持 |
不支持的参数会被 Transformer 在发送请求前自动移除,不会导致错误。
格式转换器 (Transformer) 对参数的影响
Elftia 的 Transformer 系统会在发送请求前对参数进行适配:
| Transformer | 参数处理 |
|---|---|
anthropic | 将 max_tokens 映射到 Anthropic 的字段格式 |
gemini | 将参数转换为 Gemini 的 generationConfig 格式 |
sampling | 处理 temperature、top_p 等采样参数的标准化 |
maxtoken | 强制设置特定的 max_tokens 值(覆盖用户设置) |
maxcompletiontokens | 将 max_tokens 转换为 max_completion_tokens(部分模型要求) |
reasoning | 处理推理模型的 reasoning_content 字段 |
forcereasoning | 强制启用推理模式(忽略用户的 thinking budget 设置) |
模型路由
Elftia 支持为不同任务类型配置不同的模型:
| 路由角色 | 说明 | 配置位置 |
|---|---|---|
| 默认模型 | 主要的聊天模型 | 聊天界面模型选择 |
| 后台模型 | 用于轻量级任务(摘要、标题生成等) | 设置 → Agent 默认模型 |
| 视觉模型 | 处理包含图片的消息(当默认模型不支持视觉时) | 设置 → Agent 默认模型 |
| 推理模型 | 需要深度思考的任务 | 通过 thinking budget 级别控制 |
跟随提供商 (Follow Provider):当启用此选项时,后台模型和视觉模型会自动选择当前默认模型所属提供商的对应模型。例如,如果你使用智谱的 GLM-5 作为默认模型,后台模型会自动使用 GLM-4.5 Air,视觉模型使用 GLM-4.6V。
Troubleshooting
| 问题 | 可能原因 | 解决方案 |
|---|---|---|
| 回复被截断 | max_tokens 设置太小 | 增大 max_tokens 值,或在全局参数中启用并设置更大的值 |
| 回复太随机/不相关 | temperature 太高 | 降低 temperature(推荐 0.3-0.7) |
| 回复太死板/重复 | temperature 太低 | 适当提高 temperature(推荐 0.5-0.8) |
| 推理模型不显示思维链 | thinking budget 设为 none | 将 defaultThinkingBudget 设为 low 或更高 |
| 推理模型思考太久 | thinking budget 设为 high | 降低为 medium 或 low |
| 参数设置不生效 | 被更高优先级的设置覆盖 | 检查会话级参数是否有覆盖,确认全局参数的启用开关已开启 |
| 请求返回参数错误 | 模型不支持某个参数 | 检查参数与模型的兼容性,禁用不兼容的参数 |
| 工具调用在中间停止 | 达到 toolMaxTurns 上限 | 增大 toolMaxTurns 值(注意可能增加 API 费用) |
| 不同提供商表现差异大 | 提供商默认参数不同 | 在全局参数中启用并统一设置关键参数 |
相关页面
- LLM 提供商概览 - 了解提供商系统和格式转换器
- 添加提供商 - 配置提供商时设置默认参数
- API Key 池化 - 多 Key 管理与负载均衡
- 自定义端点 - 本地模型的参数兼容性说明