你在优化什么,你确定吗
2026年5月8日 · 75 字 · 1 分钟 · Efficiency Optimization DeepSeek RankMixer
效率的天花板不由你投入最多的环节决定,而由利用率最低的环节决定。
DeepSeek V4 把注意力计算量砍掉了 73%,性能反而提升。RankMixer 把参数扩了约 70 倍,推荐效果更好。两个方向相反的策略都有效——因为它们问的是同一个问题:系统现在卡在哪里?
两个方向相反的证据
标准 Transformer 让每个 token 关注所有其他 token,计算量是 O(n²)。这是一种均匀的低效——每个 token 得到同等算力,但大部分计算花在无关 token 上。V4 用三层架构替代:全局层 128 倍压缩只看轮廓,选择层 4 倍压缩加 Top-k 只看相关块,局部层 128-token 滑动窗口精读细节。注意力 FLOPs 降至原来的 27%,KV 缓存降至 10%。
瓶颈不是"计算量不够",而是"计算分配错了"。减法有效,因为减掉的是低效分配,不是有效计算。
RankMixer 的传统推荐模型 MFU(模型算力利用率)只有 4.5%。不是算力不够——是参数太小、计算太轻,GPU 大部分时间在等数据从内存搬到显存。大多数工程师看到这里会去优化模型精度。RankMixer 的工程师问了另一个问题:GPU 现在在等什么?
答案是内存带宽。参数扩张约 70 倍后,计算量终于追上内存带宽,MFU 提到 45%。抖音 A/B 测试显示用户活跃天数 +0.3%,使用时长 +1.08%,低活跃用户时长 +3.64%——这个群体基数大,边际提升难度高,这个数字不小。
瓶颈不是"参数规模不够",而是"内存带宽闲置"。加法有效,因为加的是让瓶颈从内存移到计算——然后硬件优化才有地方生效。
先说它可能是错的地方
两个案例都有事后归因的风险。成功之前,“找到瓶颈"等于"猜对了方向”;成功之后,“当然是这样”。DeepSeek 和 RankMixer 的成功是技术判断、执行能力、时机的组合,不是这个框架一个变量能解释的。
但它仍然有用——不是给你答案,而是给你一个否定标准:如果你说不清楚系统哪个环节利用率最低,你正在做的优化可能是盲目的。
三个问题
瓶颈在哪里? 不是"大概在哪个方向",而是能说出哪个具体环节利用率最低。DeepSeek 知道是注意力分配,RankMixer 知道是内存带宽。说不清楚,先测量,再优化。
瓶颈是哪种类型? 资源分配错配(如 DeepSeek)适合重组;某环节闲置导致其他环节堵塞(如 RankMixer)适合扩张。同样是优化,方向相反。
你扛得住阵痛期吗? 瑞士手表行业在 1970-80 年代石英危机中销量跌近三分之二,用了超过十年才恢复收入——靠的不是造出更便宜的石英表,而是放弃价格竞争,转向奢侈品定位。结构性重组有真实代价。如果你需要明年盈利,可能扛不到重组生效的那一天。
最后一个问题
你现在投入最多的那件事,和系统里利用率最低的那个环节,是同一件事吗?
如果是,你在做对的事。如果说不清楚,先回答这个问题。