Skip to content

推理设置

本页面所有说明都应该在OpenAI SDK中使用。在Claude / Gemini原生 API 无效。

Claude

Claude 默认 tokens

如果未指定max_tokens,我们会默认赋值Claude允许的最大 tokens 传入。 例如claude-3-7的最大 tokens 为128000

Claude 3.7 模型开启 thinking

在请求时,将模型名称后面添加 #thinking 可以开启 thinking 模式。 我们会自动将 max_tokens 的 80%作为budget_tokens传入给 Claude。

例如:

bash
curl -X POST https://api.uniapi.io/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-proj-1234567890" \
  -d '{
    "model": "claude-3-7-sonnet-20250219#thinking",
    "messages": [{"role": "user", "content": "你好"}]
  }'

自定义 Claude 3-7 模型推理参数

您可以使用以下参数控制请求中的推理标记 reasoning:

json
{
  "model": "claude-3-7-sonnet-2025021",
  "messages": [],
  "reasoning": {
    "effort": "high", // 强度参数 (可选)
    "max_tokens": 2000 // 推理最大tokens,目前特指budget_tokens (可选)
  }
}

开启推理

当您直接传入"reasoning": {}时, 效果和claude-3-7-sonnet-20250219#thinking一致,不需要再更改模型名称。

强度参数

effort 参数可以设置为 highmediumlow

  • high:将分配80%max_tokens作为budget_tokens
  • medium:将分配50%max_tokens作为budget_tokens
  • low:将分配20%max_tokens作为budget_tokens

推理最大 tokens

reasoning.max_tokens 参数可以设置为具体的数值,表示推理最大 tokens,目前特指 budget_tokens。

WARNING

reasoning.max_tokens 参数需要大于max_tokens,且不能低于1024

优先级

如果同时在reasoning传入effortmax_tokens,优先级如下:

  • max_tokens > effort

Gemini

自定义 Gemini 模型推理参数

Gemini的推理参数和Claude不一样, 在gemini 2.5中是默认开启推理的,如果需要关闭则需要传入reasoning参数。

json
{
  "model": "gemini-2.5-flash-preview-04-17",
  "messages": [],
  "reasoning": {
    "max_tokens": 2000 // 推理最大tokens,目前特指budget_tokens (可选)
  }
}

WARNING

reasoning.max_tokens 为 0 时关闭推理。 或者只传入"reasoning": {}时,默认关闭推理。