你在优化什么，你确定吗

2026年5月8日 · 75 字 · 1 分钟 · Efficiency Optimization DeepSeek RankMixer

效率的天花板不由你投入最多的环节决定，而由利用率最低的环节决定。

DeepSeek V4 把注意力计算量砍掉了 73%，性能反而提升。RankMixer 把参数扩了约 70 倍，推荐效果更好。两个方向相反的策略都有效——因为它们问的是同一个问题：系统现在卡在哪里？

两个方向相反的证据

标准 Transformer 让每个 token 关注所有其他 token，计算量是 O(n²)。这是一种均匀的低效——每个 token 得到同等算力，但大部分计算花在无关 token 上。V4 用三层架构替代：全局层 128 倍压缩只看轮廓，选择层 4 倍压缩加 Top-k 只看相关块，局部层 128-token 滑动窗口精读细节。注意力 FLOPs 降至原来的 27%，KV 缓存降至 10%。

瓶颈不是"计算量不够"，而是"计算分配错了"。减法有效，因为减掉的是低效分配，不是有效计算。

RankMixer 的传统推荐模型 MFU（模型算力利用率）只有 4.5%。不是算力不够——是参数太小、计算太轻，GPU 大部分时间在等数据从内存搬到显存。大多数工程师看到这里会去优化模型精度。RankMixer 的工程师问了另一个问题：GPU 现在在等什么？

答案是内存带宽。参数扩张约 70 倍后，计算量终于追上内存带宽，MFU 提到 45%。抖音 A/B 测试显示用户活跃天数 +0.3%，使用时长 +1.08%，低活跃用户时长 +3.64%——这个群体基数大，边际提升难度高，这个数字不小。

瓶颈不是"参数规模不够"，而是"内存带宽闲置"。加法有效，因为加的是让瓶颈从内存移到计算——然后硬件优化才有地方生效。

先说它可能是错的地方

两个案例都有事后归因的风险。成功之前，“找到瓶颈"等于"猜对了方向”；成功之后，“当然是这样”。DeepSeek 和 RankMixer 的成功是技术判断、执行能力、时机的组合，不是这个框架一个变量能解释的。

但它仍然有用——不是给你答案，而是给你一个否定标准：如果你说不清楚系统哪个环节利用率最低，你正在做的优化可能是盲目的。

三个问题

瓶颈在哪里？ 不是"大概在哪个方向"，而是能说出哪个具体环节利用率最低。DeepSeek 知道是注意力分配，RankMixer 知道是内存带宽。说不清楚，先测量，再优化。

瓶颈是哪种类型？ 资源分配错配（如 DeepSeek）适合重组；某环节闲置导致其他环节堵塞（如 RankMixer）适合扩张。同样是优化，方向相反。

你扛得住阵痛期吗？ 瑞士手表行业在 1970-80 年代石英危机中销量跌近三分之二，用了超过十年才恢复收入——靠的不是造出更便宜的石英表，而是放弃价格竞争，转向奢侈品定位。结构性重组有真实代价。如果你需要明年盈利，可能扛不到重组生效的那一天。

最后一个问题

你现在投入最多的那件事，和系统里利用率最低的那个环节，是同一件事吗？

如果是，你在做对的事。如果说不清楚，先回答这个问题。

AI 博客每日精选 — 2026-05-09 Vibe Coding的上限，在上下文工程