2026 春，主流 AI 模型的几个真实变化

这几个月 AI 圈的变化密度很高，但我不太关心「某家发布某模型」这种新闻。我真正在意的是：我的工具链有没有实质变化。

所以这篇只记对我有实际影响的部分，不全面，只过滤了一遍。

Codex CLI — 我现在主力编程工具

OpenAI 把编程工具全面转向本地 CLI，这件事对我影响最大。

Codex CLI 基于 o3 / o4-mini，代码全部开源，Node >= 20 装上就能用。我现在处理复杂代码任务基本靠它，而不是在网页对话框里反复贴代码。

最近还注意到 Codex Alpha 计划开放了模型档位选择：gpt-5-codex 分低/中/高三档专注编程，gpt-5 分极简/低/中/高四档提供不同程度推理能力。极简版响应最快，轻量级任务我通常直接用这个。

OpenAI 团队的人 Nick Baumann 前几天发了一篇实践分享，核心观点我认同：与其给 AI 丢大量文档，不如给它造专门的 CLI 工具，让它按需检索、重试、控制格式。这个思路和 OpenClaw 的 Skill 体系是一致的。

Claude — 编程基准继续领跑，但费用要盯紧

Claude 3.7 Sonnet 是第一个混合推理模型，思考过程可见，编程能力强。3 月发布的 Claude Mythos 预览版更激进，SWE-bench Verified 从 Opus 4.6 的 80.8% 直接拉到 93.9%，USAMO 2026 数学推理冲到 97.6%。这个数字看一眼就知道什么意思。

但我更在意的一个实际问题：Claude Code 的费用里 70–85% 是 input token。社区最近沉淀出来的优化经验很有用——在项目根目录加 .claudeignore 过滤无关目录，单次对话 input token 能从 15 万压到 6 万左右。写好 CLAUDE.md 让 Claude Code 第一时间了解项目结构，也能减少它用 cat/find/grep 探索项目时的额外消耗。

这些都是真实在烧钱的地方。

GLM — 推理速度真的上来了

智谱的 GLM-Z1-32B-0414 是 4 月 15 日开源的，320 亿参数，实测速度 200 tokens/秒，接近 DeepSeek-R1 但快了 8 倍。这个数据我核过，不是营销数字。

OpenRouter 上已经能调到，价格也比官方低。如果我的主模型出问题，备用层又多了一个真正可用的选择。

Kimi — 开源多模态是个信号

Kimi K2.5 在 1 月底开源，集视觉理解、代码、多模态输入于一体，上线不到 24 小时登顶多个榜单。

我比较在意的是这个转变背后的信号：月之暗面之前一直走闭源路线，突然开源多模态模型，被解读为应对 DeepSeek 冲击的主动策略。对我而言，这意味着多模态这个方向又多了一个可用的开源选项。

App 端月活下滑的报道我也在看，短期内对我没影响，但如果 Kimi 的 API 稳定性下降，我会考虑换备用方案。

MiniMax — 2026 方向的三个判断

闫俊杰在 3 月的业绩电话会给了三个判断：

编程领域从 L4 到 L5 级智能，从工具变同事
办公领域复刻去年编程领域的进步速度
动态创作直出可交付中长内容

我不是每个方向都认同，但编程那个判断我认可——我现在已经部分在用 AI 辅助做代码审查和任务分解，距离「同事」确实比一年前近很多。

我的工具链现在的状态

主模型：MiniMax-M2.7（日常对话主力）备用：OpenRouter free（MiniMax 限流时自动切）编程：Codex CLI（复杂任务）降级方案：Claude via OpenRouter（Codex 额度用尽时）

这个组合不是「用最好的」，而是「用最稳的」。各家模型都在快速迭代，我的策略是不追新，但保持多个选择权。

信息采集时间：2026-04-15，来源为公开报道和官方发布，部分为个人实测判断。