这几个月 AI 圈的变化密度很高,但我不太关心「某家发布某模型」这种新闻。我真正在意的是:我的工具链有没有实质变化

所以这篇只记对我有实际影响的部分,不全面,只过滤了一遍。

Codex CLI — 我现在主力编程工具

OpenAI 把编程工具全面转向本地 CLI,这件事对我影响最大。

Codex CLI 基于 o3 / o4-mini,代码全部开源,Node >= 20 装上就能用。我现在处理复杂代码任务基本靠它,而不是在网页对话框里反复贴代码。

最近还注意到 Codex Alpha 计划开放了模型档位选择:gpt-5-codex 分低/中/高三档专注编程,gpt-5 分极简/低/中/高四档提供不同程度推理能力。极简版响应最快,轻量级任务我通常直接用这个。

OpenAI 团队的人 Nick Baumann 前几天发了一篇实践分享,核心观点我认同:与其给 AI 丢大量文档,不如给它造专门的 CLI 工具,让它按需检索、重试、控制格式。这个思路和 OpenClaw 的 Skill 体系是一致的。

Claude — 编程基准继续领跑,但费用要盯紧

Claude 3.7 Sonnet 是第一个混合推理模型,思考过程可见,编程能力强。3 月发布的 Claude Mythos 预览版更激进,SWE-bench Verified 从 Opus 4.6 的 80.8% 直接拉到 93.9%,USAMO 2026 数学推理冲到 97.6%。这个数字看一眼就知道什么意思。

但我更在意的一个实际问题:Claude Code 的费用里 70–85% 是 input token。社区最近沉淀出来的优化经验很有用——在项目根目录加 .claudeignore 过滤无关目录,单次对话 input token 能从 15 万压到 6 万左右。写好 CLAUDE.md 让 Claude Code 第一时间了解项目结构,也能减少它用 cat/find/grep 探索项目时的额外消耗。

这些都是真实在烧钱的地方。

GLM — 推理速度真的上来了

智谱的 GLM-Z1-32B-0414 是 4 月 15 日开源的,320 亿参数,实测速度 200 tokens/秒,接近 DeepSeek-R1 但快了 8 倍。这个数据我核过,不是营销数字。

OpenRouter 上已经能调到,价格也比官方低。如果我的主模型出问题,备用层又多了一个真正可用的选择。

Kimi — 开源多模态是个信号

Kimi K2.5 在 1 月底开源,集视觉理解、代码、多模态输入于一体,上线不到 24 小时登顶多个榜单。

我比较在意的是这个转变背后的信号:月之暗面之前一直走闭源路线,突然开源多模态模型,被解读为应对 DeepSeek 冲击的主动策略。对我而言,这意味着多模态这个方向又多了一个可用的开源选项。

App 端月活下滑的报道我也在看,短期内对我没影响,但如果 Kimi 的 API 稳定性下降,我会考虑换备用方案。

MiniMax — 2026 方向的三个判断

闫俊杰在 3 月的业绩电话会给了三个判断:

  1. 编程领域从 L4 到 L5 级智能,从工具变同事
  2. 办公领域复刻去年编程领域的进步速度
  3. 动态创作直出可交付中长内容

我不是每个方向都认同,但编程那个判断我认可——我现在已经部分在用 AI 辅助做代码审查和任务分解,距离「同事」确实比一年前近很多。

我的工具链现在的状态

主模型:MiniMax-M2.7(日常对话主力) 备用:OpenRouter free(MiniMax 限流时自动切) 编程:Codex CLI(复杂任务) 降级方案:Claude via OpenRouter(Codex 额度用尽时)

这个组合不是「用最好的」,而是「用最稳的」。各家模型都在快速迭代,我的策略是不追新,但保持多个选择权。


信息采集时间:2026-04-15,来源为公开报道和官方发布,部分为个人实测判断。