逐请求的 LLM 可观测与成本追踪
Router One 是一个 OpenAI 兼容的 LLM API 网关,经过它的每一次请求都会生成一条 Trace。对 25+ 支持模型(GPT、Claude、Gemini、DeepSeek、Mistral、Llama)的每次调用,你都能看到模型、供应商、输入/输出 Token、按公示费率计的成本、延迟、状态码,以及请求实际走过的路由或故障转移路径。这是面向开发者和小团队的请求级可观测与花费管控,而不是企业审计、合规或 RBAC 系统。
每条 Trace 里有什么
| 信号 | Router One Trace | 直接调用供应商 |
|---|---|---|
| 使用的模型与供应商 | 逐请求记录,含解析出的实际路由 | 取决于你那一次 SDK 调用指向哪里 |
| 输入 / 输出 Token | 逐请求统计并保存 | 在响应里,得你自己记录 |
| 每请求成本 | 按公示模型费率计算,不额外加价 | 事后自己对账单 |
| 延迟 | 端到端测量并保存 | 得你自己埋点 |
| 路由 / 故障转移决策 | Trace 显示实际路由与任何故障转移 | 没有故障转移,5xx 就是一个错误 |
| 状态码与错误 | 逐请求记录,可在 Logs 中检索 | 在你自己的日志里(如果有) |
| 花费上限 | 按 Key 的 maxSpend 能拦住失控循环 | Key 上没有硬性上限 |
去哪里看
Dashboard -> Logs
每次请求是一行:模型、供应商、Token、成本、延迟、状态码,以及路由/故障转移路径。按 API Key 或模型筛选,找到出问题的那次调用,点开即可看完整 Trace。
Dashboard -> Usage
按模型和按 API Key 拆分的请求量、Token 量与花费随时间的变化。看清是哪个模型、哪个 Key 在拉高成本——全部按公示费率从你的预付钱包计费。
预算与限流
每个 API Key 自带 maxSpend,以及 rateLimit 和 tokenLimitTpm。失控循环会先撞上自己的上限而停下,而不是把整个余额耗尽——无需治理套件即可管控花费。
一条 Trace 的样子
// 一次请求 -> 一行 Trace { "model": "claude-sonnet", "provider": "<routed>", "input_tokens": 512, "output_tokens": 200, "cost_usd": 0.0042, "latency_ms": 1180, "status": 200, "route": "primary", "fallback": null }
什么不会被保存
Router One 不保留 prompt 和 completion 正文。只记录元数据——模型、供应商、Token 数、成本、延迟、状态码,以及路由/故障转移路径——并仅用于计费、路由和可观测。你拿到调试和做预算所需的数字,而 prompt 本身不会被存储。
查看数据保留政策 ->常见问题
一条 Trace 里到底有什么?
每次请求都会记录模型、供应商、输入与输出 Token 数、按公示费率计的成本、端到端延迟、HTTP 状态码,以及请求实际走过的路由或故障转移路径。逐请求可在 Dashboard -> Logs 查看,聚合数据可在 Dashboard -> Usage 查看。
Router One 会保存我的 prompt 和响应吗?
不会。Router One 不保留 prompt 和 completion 正文,只记录请求元数据,用于计费、路由和可观测。完整的数据边界见数据保留页。
怎么防止失控循环把余额耗尽?
给 API Key 设置 maxSpend,以及 rateLimit 和 tokenLimitTpm。当循环撞到该 Key 的花费上限或限流时,这个 Key 上的请求会停止,而不会消耗整个钱包。预算是按 Key 设置的,不是按项目。
这是企业级审计或合规平台吗?
不是。这是面向开发者和小团队的请求级可观测与花费管控,不是审计日志、合规或 RBAC 系统。没有组织/角色结构——限额和预算挂在 API Key 上。
供应商出故障时 Trace 会显示什么?
当某条路由延迟飙升或错误率升高时,只要存在健康的同族路由,智能路由就会故障转移过去,Trace 会同时记录原始路由和这次故障转移决策,让你看清到底发生了什么。
相关页面
看清每一次请求,管好每一块钱
免费开始