Router One
返回博客

国内使用 Gemini 3.1 Pro 与 Gemini Code Assist 完整指南

|Router One Team

Google 的 Gemini 3.1 Pro 是市面上最强的模型之一——百万 token 上下文窗口、扎实的编码分数、很有竞争力的价格。Gemini Code Assist 这个 IDE 助手共享同一系列。国内开发者面临的麻烦和 Google 其他服务一样:generativelanguage.googleapis.com 在大陆网络上不稳定可达,Google Cloud 计费要的卡国内大多数发不了。

这篇文章讲清 2026 年真正能跑通的路径——API、Gemini Code Assist,以及 Gemini 的百万上下文能解锁的具体用例。

Gemini 值得折腾的地方

进入配置之前,先说清为什么值得。Gemini 3.1 Pro 在三个对真实工程重要的维度上领先 GPT-5.5 和 Claude Opus 4.7:

  • **上下文窗口。**100 万 token 意味着可以把一个中型代码库整个塞进 prompt,跨文件问架构问题。GPT-5.5 上限 12.8 万;Claude Opus 4.7 给到 100 万;这个量级下 Gemini 的百万最稳。
  • **百万 token 价格。**标准价格下,Gemini 3.1 Pro 在同样任务上明显比 GPT-5.5 和 Claude Sonnet 4.6 便宜。长上下文任务下差距更大,因为单 token 价格不变。
  • **多模态。**Gemini 原生在同一会话里处理视频帧、音频、PDF。处理"截图日志、带附件工单、带图文档"这类内容时直接拉满。

更全面的对比见 2026 LLM 选型指南;编码方向的具体 benchmark 见 DeepSeek V3 vs Claude 4 vs GPT-4.1 编程能力对比(2026 年 4 月)

两堵网络墙

Google 的开发者端点——Gemini API 走 generativelanguage.googleapis.com,Vertex AI 走 aiplatform.googleapis.com——背后都是 Google 全球基础设施。从国内看:

  • 连通性时好时坏。城市和 ISP 之间差异大,同一条链路按小时浮动。
  • 就算通,延迟也是 200-500ms 加长尾,对流式输出体验摧毁性的。
  • 鉴权 token(Application Default Credentials、OAuth)会周期性刷新失败,因为 OAuth 端点本身就不稳。

常见的几种自救:

  1. VPN——能用,但每个请求都加延迟,而且要常开。
  2. 香港/新加坡部署一个代理——单人开发可以;做成生产服务从国内调过去就不行。
  3. 在国内能用的区域上的 Vertex AI——只有 Google Cloud 客户加全球计费账号才走得通。

第四条路,也就是这篇文章的重点:通过国内可达、人民币结算的网关调 Gemini。

通过 Router One 调 Gemini

Router One 把 Gemini 3.1 Pro 暴露在一个 OpenAI 兼容端点后面,DNS 解析直接落到对国内友好的基础设施上。设两个环境变量,像调任何模型一样调它:

export OPENAI_BASE_URL=https://api.router.one/v1
export OPENAI_API_KEY=sk-your-router-one-key
from openai import OpenAI
client = OpenAI()

resp = client.chat.completions.create(
    model="gemini-3.1-pro",
    messages=[{"role": "user", "content": "给 ClickHouse 设计一个查询优化器架构"}],
)
print(resp.choices[0].message.content)

需要更便宜更快可以切到 gemini-2.5-flash;想用上一代旗舰用 gemini-2.0-pro;平台上其他模型不换 SDK 直接切 model 字段。计费走人民币,微信或支付宝充值——完整支付流程见 微信/支付宝充值 OpenAI/Claude API 完整教程

用好百万上下文

百万窗口你不喂对内容就是浪费。几个值得知道的模式:

全代码库提问。find . -name "*.go" | xargs cat 把 repo 拼进一个 prompt,问"这个单体拆成微服务的话哪里最痛?"对 ~15 万行的 Go、~10 万行的 TypeScript 都能塞下,再大就接近窗口边缘了。

**长文档分析。**把 700 页法律合同、整年的客户反馈 CSV 一次性丢进 prompt。检索 vs 上下文的取舍翻了:百万上下文下,常常可以跳过 RAG,让模型直接看全部。

**多文档推理。**架构 review 一次性给到 PRD + 设计文档 + 已有代码 + 最近事故。模型同时看到四份;能发现 RAG 流水线漏掉的不一致——因为切片之间从来没共现过。

实战注意:超长输入下流式输出会延迟开始,模型确实需要把所有内容读完。接近百万 token 的 prompt 第一个 token 打头一般 3-8 秒。

Gemini Code Assist

Gemini Code Assist 是 Google 的 IDE 插件(VS Code、JetBrains、Android Studio)。模型和 API 一样,但默认走 Google 自管端点。国内大多数情况下,插件在 OAuth 回调步骤失败。

当下两条可行路:

  1. **直接调 API + 自己包薄壳。**Router One 端点 + Continue.dev 这样的可定制插件,质量是 Gemini 的,网络是你掌控的。
  2. **等插件支持自定义端点。**2026 H1,Gemini Code Assist 设置里只对 Vertex AI 用户开放自定义 endpoint。如果哪天对一般 API 用户开放,把 Router One 的 URL 填进去就完事。

目前国内团队用 Gemini 做编码,多数是 API + Continue / Cursor(自定义端点)/ Claude Code(也能指向任意 OpenAI 兼容端点——配置见 Claude Code 配置指南)。

价格快览

Router One 上的价格基本反映上游费率,加上一点点维护网关和稳定中国线路的运营成本:

模型输入($/M tokens)输出($/M tokens)最适合
Gemini 3.1 Pro(≤200K 上下文)$2.00$12.00长上下文分析、深度推理
Gemini 3.1 Pro(>200K 上下文)$4.00$18.00全代码库 / 1M+ token prompt
Gemini 2.5 Flash~$0.30~$1.20高频任务、便宜兜底
Gemini 3(2026 年 1 月)$1.25$5.00老代;只在已经在它上面验证过 prompt 时用

对比一下,GPT-5.5 是 $5 / $30,Claude Sonnet 4.6 是 $3 / $15,Claude Opus 4.7 是 $5 / $25,DeepSeek V4-Pro 是 $0.145 / $1.74。Gemini 3.1 Pro 在前沿质量里有竞争力,且拿着最长的上下文窗口(2M tokens)。

什么时候专门挑 Gemini

不是每个任务都最适合 Gemini。粗略指南:

  • **挑 Gemini 3.1 Pro:**上下文大小重要时——跨文件重构、长文档 QA、多模态流水线、任何不想用 RAG 的场景。
  • **挑 Claude Opus 4.7:**生产级 Agent 循环最强——Claude Code、多工具 Agent、长程规划。见 DeepSeek V3 vs Claude 4 vs GPT-4.1 编程能力对比(2026 年 4 月)
  • **挑 GPT-5.5:**短而严谨的 prompt 下需要精确指令执行,延迟比深度更重要时。
  • **挑 Gemini 2.5 Flash:**高量、成本敏感的任务——90% 的质量、25% 的价格往往是对的取舍。

常见问题

Router One 支持 Vertex AI 的 context caching 之类的特性吗? Gemini API 路径在 Router One 上支持 Gemini 暴露的 prompt 缓存。Vertex 专属扩展(自部署模型端点、batch prediction)目前没有通过 OpenAI 兼容接口暴露。如果你专门需要 Vertex,请在 Google Cloud 项目下用接受你信用卡的计费账号跑 Vertex,其他模型用 Router One。

能在 Router One 上用 Gemini 原生 SDK(google-generativeai)吗? 当下最干净是 OpenAI 兼容接口。原生 Google SDK 用的是 Google 专属鉴权,转发不过来。多数团队要么用 OpenAI SDK 配 model="gemini-3.1-pro",要么自己写一层薄包装直接打 Router One 的 chat-completions 端点。

embedding 怎么办? text-embedding-004 和最新 Gemini embedding 模型通过 Router One 标准 OpenAI /v1/embeddings 端点暴露。同一个 key,同一套 SDK 调用方式。

支持 Gemini 的图像生成模型吗? 图像生成(Imagen 3)是 Vertex AI 的一部分,独立计费独立服务。Router One 通过 OpenAI /v1/images 端点暴露部分图像模型,最新覆盖见 router.one/models

有免费额度吗? Google 给 Gemini API 直连提供少量免费额度,但有上面说的网络问题。Router One 是按量付费,注册有少量赠送,没有月度订阅。

以后想切到 Google Cloud 直连,代码怎么保持兼容? 用 OpenAI SDK + OPENAI_BASE_URL 写。哪天切到 Vertex/Gemini API 直连,改 base URL,可能还要改 SDK 调用形态。把 prompt 和工具放在独立模块里,迁移就是机械的事。

结论

Gemini 3.1 Pro 的百万上下文、多模态、激进定价让它在很多任务上是对的选择——尤其是输入量大的场景。国内直连不稳;通过 Router One 它就和任何 OpenAI 兼容端点一样工作,微信支付计费。

更宏观的跨厂商路由叙事见 AI 模型路由详解;端到端如何在生产环境跑多模型 Agent,见 生产环境 AI Agent 完整指南

相关阅读