按延迟、成本与可靠性智能路由模型调用

智能 LLM 路由，是指由网关而不是你的应用来决定每次模型调用走哪条上游线路。在 Router One 上，指定精确模型的请求遵循默认 model_name 策略、模型不变；model="auto" 的请求由服务端候选集承接，按近期 EWMA 延迟（alpha 0.20、15 分钟指标 TTL、按 model/provider 对维护）、公示的逐模型成本和近期可靠性打分。一个 OpenAI 兼容端点背后是 40+ 个模型，每次请求的 Trace 都会记录最终由哪个模型、哪条线路应答。反过来说，写死一家 provider，就要承受它的所有坏日子：延迟飙升、限流、区域故障。

立即接入

每次决策背后的信号

EWMA 延迟

按模型和 provider 维护指数加权移动平均，alpha=0.20。指标记录在 15 分钟后过期，避免陈旧观测持续影响决策；它不是固定的最近 50 个请求窗口。

可靠性

当受支持的候选路由生效时，已观测到的成功与失败结果会形成可靠性信号；公开合同不承诺用户可设置固定阈值。

公示成本

可用候选的 token 级成本可与延迟、可靠性一起参与判断，而不是一律按最低价格选择。

路由模式边界

生产环境默认使用 model_name。只有所选路由路径支持候选集时才会自适应评估候选，并非每个请求都会自动打分。

精确模型选择

需要模型选择可预期时，在标准 OpenAI 兼容请求里指定精确模型 id。请求体不需要额外的 router 对象。

同模型 provider 故障转移

对于精确模型请求，符合条件的失败可尝试为同一模型提供服务的另一条健康 provider 线路；model="auto" 路径在服务端候选集中重试。总延迟不承诺统一的 200ms 时延。

可预期是设计出来的

路由要可信，边界必须清楚：精确模型请求使用默认 model_name 策略；受支持的候选路由使用延迟、成本和可靠性，而不是质量评分；符合条件的 provider fallback 保持已请求模型不变。当前公开合同不承诺项目级权重或项目级 fallback 开关。

用标准请求结构发送 model="auto"

在标准 OpenAI 兼容请求体里设置 model="auto"。候选选择由服务端管理；不要发送自定义 router 对象或延迟/成本/质量权重。

request.json

# POST https://api.router.one/v1/chat/completions
{
  "model": "auto",
  "messages": [{"role": "user", "content": "Hello"}]
}

常见问题

智能路由如何决定用哪条线路？

精确模型请求使用默认 model_name 策略。使用 model="auto" 时，Router One 可在选择和重试服务端候选时考虑模型-provider 的 EWMA 延迟、公示成本与可靠性/成功率。

可以一直只用某个模型吗？

可以。在标准 OpenAI 兼容请求里指定模型 id；默认 model_name 策略会保持模型选择明确。

供应商退化时会发生什么？

可靠性观测可影响 model="auto" 路由。精确模型请求的符合条件失败可尝试同一模型的其他 provider 线路；auto 路由则在服务端候选集中重试。不承诺固定 fallback 时长。

Provider fallback 会改变已请求模型吗？

精确模型请求的 provider fallback 保持模型不变；model="auto" 的模型选择来自服务端候选集。Trace 记录最终模型和 provider 线路。

可以按项目或 API Key 配置权重吗？

当前公开合同不提供项目级或 API Key 级的延迟、成本、质量权重；受支持的候选路由使用网关管理的信号。

在哪里看最终路由结果？

每个请求都会出现在面板里，显示最终模型和 provider 线路、Token、成本、延迟与状态。信号背后的方法论见路由方法论页。