OmniRoute:让 Claude Code / Cursor / Codex 共享一个 AI 网关,再也不怕 rate limit
一、为什么 8.5k Star 的项目值得认真看
如果你跟我一样,每天在 Claude Code、Cursor、Codex 之间来回切,迟早会遇到这种场面:
“下午三点,关键重构写到一半,Anthropic 给我返回 429 rate limit。我切到 GPT,结果 Codex 又 quota 用完。再切 Gemini,关键上下文又丢了。”
或者更糟 —— 你在用一个 50 美元 / 月的订阅,但每天只用掉 30% 的额度,剩下的 token 像水一样流走。
GitHub Trending 上最近冒出来一个项目,OmniRoute(diegosouzapw/OmniRoute),做的事很直接:把 237 个 AI 提供商、500 多个模型,统一接进一个 OpenAI 兼容的端点,再给这个端点加上四层自动 fallback、token 压缩、配额追踪、CI/CD 集成。它 6 月 30 号登顶过 GitHub Trending #1,目前 8.5k Star、4,532 个 commit、14,965 个测试。
一句话总结:“Never stop coding”—— 让所有 AI 编程工具共享一个永远在线、永远便宜的网关。
二、项目背景:AI 编程工具的” 配额度假”
过去一年,AI 编程工具从单一选择(Copilot)变成了生态割据:
- Claude Code / Codex / Cursor / Cline / Copilot / Antigravity…… 每个工具都想要” 自己” 的 API 账号
- 每家订阅 20–50 美元 / 月,大多数人的订阅额度用不到 30%
- Rate limit、quota 耗尽、地区封锁,任何一个都可能让 workflow 突然中断
- 不同模型有不同价格、不同上下文窗口,手动切换心智成本极高
OmniRoute 的解法是做一层”AI 网关”(Gateway)—— 所有工具都指向 http://localhost:20128/v1,OmniRoute 在背后做:
- 统一协议:OpenAI 兼容 API,所有工具零改造接入
- 多账号聚合:Claude Code、Codex、Copilot 的 OAuth 都接进来
- 四层 fallback:Subscription → API Key → Cheap → Free,毫秒级切换
- Token 压缩:RTK + Caveman 双重压缩,省 15–95% token
- 可视化 Dashboard:实时看每个 provider 的 quota、cost、health
这种”API Gateway” 思路在传统后端很常见(Kong、Apigee、Tyk),但专门为 AI Coding 工具做一层开源的、自带 fallback 和压缩的网关,OmniRoute 算是把” 个人开发者的痛点” 产品化的典型。
三、核心功能详解
1. 一端点 + 237 提供商 + OpenAI 兼容
安装之后,OmniRoute 默认监听 20128 端口。所有 AI 工具只需要改两个配置:
1 | API Base URL: http://localhost:20128/v1 |
不管你用的是 Claude Code、Cursor、Cline、Codex 还是 Copilot,接入后看到的是同一个 OpenAI 兼容接口。背后可以是 Anthropic、OpenAI、Gemini、DeepSeek、Qwen、GLM、Kiro、Pollinations…… 写一次配置,237 家随便切。
2. Combo:四层自动 fallback
OmniRoute 最有杀伤力的特性叫 Combo—— 一个模型链,定义优先级,OmniRoute 自动按顺序选。
预置的几个开箱即用别名:
| 别名 | 优化目标 |
|---|---|
auto |
平衡默认(LKGP:粘住上次的好 provider) |
auto/coding |
编程质量优先 |
auto/fast |
延迟最低 |
auto/cheap |
最便宜 |
auto/offline |
配额余量最大 |
auto/smart |
质量优先 + 10% 探索 |
如果自己定义,可以这样写:
1 | Combo: "always-on" Strategy: priority |
加上 17 种 routing strategies(priority、fill-first、round-robin、weighted、p2c、least-used、cost-optimized、context-relay、context-optimized、random、strict-random、fusion、reset-window、headroom、lkgp、reset-aware、9-factor scoring),基本上能想到的调度策略都覆盖了。
3. 三层独立 resilience
OmniRoute 把” 不断流” 做成了三个独立层:
- 🔌 Circuit breaker(整 provider):检测到 provider 整体故障,停止打压,自动探测恢复
- 💤 Connection cooldown(单账号):某个 key 被限流,单独跳过,其他 key 继续服务
- 🎯 Model lockout(单 provider + model):某个模型 quota 用完,只隔离这一个模型,不影响其他模型
换句话说,任何一个环节出问题,都不会让整个 workflow 趴下。
4. RTK + Caveman token 压缩(15–95% 省 token)
这个是 OmniRoute 跟其他 gateway 最大的差异化能力。它内置了两层压缩:
- RTK (Request Token Kompressor):把 tool 输出、错误堆栈、长日志里的冗余字符砍掉
- Caveman:把工具输出转成更紧凑的表示
官方数据是 15–95% 的 token 节省。具体取决于你的工具输出类型(读文件、跑命令、查数据库这类场景压缩最猛)。
省钱的同时也省 quota—— 对一个 50 美元 / 月的订阅来说,等于把上限拉到了 100–200 美元 / 月。
5. 50+ 免费 Provider,约 1.6B 免费 token / 月
OmniRoute 最有诚意的部分是它真的能用免费模型:
| Provider | 前缀 | 免费模型 | 额度 |
|---|---|---|---|
| Kiro | kr/ |
Claude Sonnet 4.5 / Haiku 4.5 / Opus 4.6 | 50 credits / 月 |
| Qoder | if/ |
kimi-k2-thinking / qwen3-coder-plus / deepseek-r1 | 无限 |
| Qwen | qw/ |
qwen3-coder-plus / flash / next | 无限 |
| Pollinations | pol/ |
GPT-5 / Claude / Gemini / DeepSeek / Llama 4 | 无需 key |
| LongCat | lc/ |
LongCat-Flash-Lite | 50M tokens / 天 |
| Cloudflare AI | cf/ |
50+ 模型 | 10K neurons / 天 |
官方 Pro Tip:“Gemini CLI (180K 免费 / 月) + Qoder (无限免费) combo = $0 成本”。
也就是说,理论上你可以做到不花一分钱,跑 Claude Code / Cursor / Codex 这些付费工具。
6. 完整生态:MCP / A2A / Guardrails / Electron
OmniRoute 不只是转发,它还把 AI 编程工作流所需要的周边都做了:
- 87 个 MCP 工具(3 种 transport,30 个 scope)
- 6 个 A2A skill(JSON-RPC 2.0)
- Guardrails:内容过滤、限速、成本上限
- Electron Desktop App + PWA:本地开箱即用
- 42 种 i18n locale:包含中文
- 270 个 release:迭代速度非常快
四、实战示例:5 分钟跑起来
1. 安装
1 | # 需要 Node 22 / 24 |
2. 配 Claude Code
把 ~/.claude.json 改成:
1 | { |
或者用环境变量:
1 | export ANTHROPIC_BASE_URL=http://localhost:20128/v1 |
3. 配 Cursor
Settings → Models → Advanced:
1 | OpenAI API Base URL: http://localhost:20128/v1 |
4. 在 Dashboard 配一个 Combo
进入 /dashboard/combos,新建:
1 | Name: "always-on" |
保存后,Claude Code / Cursor 里只要把 model 写成 always-on,OmniRoute 就会按这个顺序自动选。
5. 监控
Dashboard 实时显示:
- 每个 provider 的健康度、quota 余量、cost
- 每个模型的调用次数、token 消耗、压缩比
- 失败回退触发次数
一个 dashboard 看完所有 AI 工具的运行状态,这个对重度用户特别爽。
五、适用场景和限制
适合谁用
- ✅ 重度 AI 编程用户:每天用 Claude Code / Cursor / Codex 4 小时以上,订阅额度经常不够用
- ✅ 多订阅用户:同时买了 Claude Code + Codex + Copilot,想统一调度
- ✅ 想省钱 / 跑免费模型:愿意花时间配 Qoder / Pollinations / Qwen,享受 $0 编程
- ✅ 团队 / 小公司:想统一管理 API key、配额、成本,搭一个内部 AI 网关
- ✅ AI 网关研究者 / DevOps 工程师:想了解 AI Gateway 的工程实现
不适合谁
- ❌ 只用一种 AI 工具 + 订阅够用:没有 fallback 痛点,装了也用不到核心能力
- ❌ 对延迟极敏感(如高频交易、毫秒级响应):多一层 proxy 会有 5–50ms 延迟
- ❌ 企业级 SSO / 合规要求:开源版没有 SSO,企业功能要付费(app.strix.ai 这种平台版本)
- ❌ 完全不想折腾:dashboard 配 Combo、provider、key 对纯用户来说不算轻松
- ❌ 担心数据出境:免费 provider 多数用海外 API,敏感业务要谨慎
已知限制
- 需要 Node.js 22 或 24(<23 或 24–26),其他版本装不上
- 免费 provider 的稳定性参差不齐:Qoder / Pollinations 偶尔会抽风
- 跨 provider 上下文接力(context-relay)还在演进,不一定每个模型组合都好用
- 官方推荐模型:openai/gpt-5.4、anthropic/claude-sonnet-4-6、vertex_ai/gemini-3-pro-preview 效果最好
六、跟同类项目对比
| 项目 | 定位 | OmniRoute 优势 |
|---|---|---|
| OpenRouter | 商业 AI Router | OmniRoute 开源 + 本地化 + 自带 dashboard |
| LiteLLM | Python 库,统一调用 | OmniRoute 是网关服务,不绑定语言,UI 更友好 |
| Portkey | 企业 AI Gateway | OmniRoute 免费、个人友好、含压缩 |
| 自建 Nginx + Lua | 完全自建 | OmniRoute 现成 fallback + 压缩 + dashboard |
| 单用 Claude Code / Cursor | 单工具 | OmniRoute 多订阅聚合 + 永不中断 |
最大差异化:
- 专为 AI 编程工具设计:OAuth、subscription quota、tool output 压缩这些场景都做透了
- Combo + 17 routing strategies:不是简单转发,是” 策略路由”
- RTK + Caveman 压缩:是 OmniRoute 自己写的,官方省 15–95%
- 完全本地 + Electron:你的 key 不经过任何第三方服务器
七、总结
OmniRoute 解决的是 AI 编程时代一个非常具体、非常普遍的问题:我有一堆订阅,但用着用着就断了;我有一堆免费 API,但不知道怎么聚合。
它的解法 —— 统一端点 + 四层 fallback + token 压缩 + 可视化 dashboard—— 既不性感也不前沿,但极其实用。对一个 2026 年每天用 AI 编程工具 4 小时以上的人来说,它是少有的” 装完就回不去” 的基础设施。
几个值得关注的点:
- 8.5k Star + 4,532 commit + 14,965 测试 + 270 release:开发活跃度很高,不会装完吃灰
- MIT License + 完全开源:可以 fork 改、可以私有部署
- 支持 Claude Code / Codex / Cursor / Cline / Copilot / Antigravity:覆盖了几乎所有主流 AI 编程工具
- 月省 50 美元的可能性:用好 Combo + 免费 provider,单用户一年能省 300–600 美元订阅费
值得现在就用起来。
如果你是 OmniRoute 的目标用户 —— 多订阅重度用户、想跑免费模型、想统一管理 AI API—— 花一个午休时间把它装上,配好 Combo,从此告别”rate limit 焦虑”。
仓库地址:https://github.com/diegosouzapw/OmniRoute
文档:https://docs.omniroute.online