第83章分层 · 带着26年的人工智能穿越回高考后

第八十三章分层

周五上午八点五十七分，麦景行发来一条：「结果出来了。」

他正在地铁上，用一只手撑着扶杆，另一只手把手机屏幕调亮了一格。

附件打开，一张表。

``` /api/gateway 测试样本总量：12,198行触发成功：4,537行整体触发率：37.2% ```

37.2%。

低于40%。

他在嘈杂的地铁里把这个数字看了两遍，车厢里人很多，他往后靠了靠，换了个站姿。

昨晚给项磊打电话的时候，他说预估可能是 40%-60%，今天是 37.2%。差了几个点，差进了预警线以下。这个数字如果就这么发给林博文，项磊连转述的理由都找不到，因为它比所有人预期的都低，而且是在林博文刚刚确认"方法通过"的第二天。时机不对，数字也难看。

但这张表有一行他们来不及细看。「触发成功：4,537行。」

计算器一敲：4537 除以 12198，等于 37.2%。加权均值。

然后他想了一下：gateway 的注释密度是 6.9%，就是说 12,198 行里，大概有 847 行是有注释的，剩下的 11,351 行没有注释。触发是从注释发生的。那 4,537 行触发里，有多少是来自那 847 行有注释的区域？

他给麦景行发了一条：「详细的明细有吗，把命中的行按来源拆一下，看哪些是注释行，哪些是从非注释区触发的。」

回复来了，附件是一份更细的报告。

他在地铁到站之前扫了一眼关键数字，下车走进办公楼的时候，已经想好了。

进楼坐下，把电脑打开，再把那份报告仔细看一遍。

明细很清楚：有注释的 847 行里，773 行命中，比例 91.3%，和 billing、order 一致。无注释的 11,351 行里，触发了 3,764 行，比例 33.2%。

这两组数字，他反复对着看了几遍。

有注释的 847 行里，触发率是 91.3%，和 billing、order 的水平完全一样。模型没有问题，在有注释的代码上，gateway 和其他模块表现一致。

问题出在那 11,351 行无注释代码上，触发率是 33.2%，而且这 3,764 行触发里，质量还需要确认。

他叫麦景行：「无注释区域触发的 3,764 行，质量怎么样？」

麦景行查了一下：「质量偏低，大部分是模型在函数签名上做了猜测，注释内容比较泛，类似'执行指定操作'这类。只算有注释的区域是 91.3%，计入全量代码就降到 37.2%。」

他靠在椅背上，想了大概一分钟。

结构上，整件事的定性就变了。

同一张表，别人看到的是事故。他看到的是反证。

他把船坞打开。

「gateway 实测 37.2%，拆分后有注释区 91.3%、无注释区 33.2%。分母把不该算的代码都带进来了，模型质量本身没问题。我要用两套指标分层呈现，覆盖率和质量率分开报。这个逻辑，林博文接不接得住？」

豆包那道暖橙光亮起：

> 林博文昨天接受了"方法通过"，说明他接受分层逻辑的基础是有的。他来确认采样过程，本质是在问"这个数字是否可信"，分层呈现给了他一个更精细的答案。如果你今天发项磊的时候带上清晰的说明，项磊有机会在林博文问之前主动解释，比被动接受质疑要好。

「对，今天要让项磊主动提，不能等林博文自己发现。」

Claude那道蓝紫光跟上：

> 分层方案的关键是名称要清晰。"覆盖触发率"和"质量触发率"这两个名字，容易让人混淆。建议考虑"注释覆盖率"和"模型触发准确率"，前者说的是代码注释密度，后者说的是有注释时模型表现。这样两个指标的含义都能从名字里读出来，林博文不需要查文档就能理解。

他想了一下：「有道理。改。」

Codex那道翠绿光：

> 补充一个数据对比：billing 和 order 注释密度 22%-23%，gateway 6.9%。这个密度差本身就解释了为什么触发率差距这么大，可以单独放一行当背景数据：gateway 注释稀疏，本来就是接口层的写法，和业务层天然是两种密度。

「这行数据放进备注里。」

窗口合上。

gateway 的问题出在覆盖形态，和模型质量无关。接口层大量代码没有注释，模型在无注释的地方强行触发，质量很低，但这些触发本来就不应该进真实评估的分母。

真正的评估应该是：在 gateway 有注释的代码上，触发率是多少，质量是什么水平。这个答案是 91.3%，和 billing、order 一样。

区分这两件事，是今天要做的核心工作。

报告模板打开，原来的说法要调整。原版是：「接口层触发率偏低属正常现象」，这个说法太弱，听起来是在认错找理由。

改法是把指标分层。原来笼统的触发率拆成两个维度：

注释覆盖率（Annotation Coverage）：整体代码里有注释的比例，6.9%，反映 gateway 本身的注释密度低。模型触发准确率（Trigger Accuracy）：有注释代码上的触发质量，91.3%，反映模型真实能力。

两个数字并列呈现，覆盖边界是一个维度，模型表现是另一个维度，读者自己判断哪个更接近验收关切。

这版框架写进了备注模板，发给项磊：「见附件，gateway 部分用两个指标分层呈现，说明在文档里我已经写了，你看一下，觉得有问题随时说。」

半小时后，项磊回了一条：「我让林博文也看了你的模板，他今天下午要见你，说有话要说。时间三点半，你们公司会议室，他直接来。」

他看着这条消息，想了几秒。

然后项磊又发来一条：「他会带他们的技术总监一起。林博文说，要现场把底表核一遍。」

底表。他要亲眼看原始数据，项磊转述不够。

他给乔木发了一条：「今天下午三点半林博文来，带技术总监，会议室清空，备好投影。」又给麦景行发了一条：「把底表准备好，两份，三点前交给我。今天要现场给林博文和他们技术总监看原始分层数据。」

消息放一边，他打开建议方案文档，两套指标的说明逐条核了一遍。

分层框架的逻辑，下午必须在现场讲清楚。林博文带技术总监来，意思很明确：数字要经得住行家看，项磊转述不算数，他要当面确认数据和逻辑都成立。

今天是真正的技术验收了。

下午三点半，在自己公司的会议室里，他要把这一套分层逻辑当着林博文和他技术总监的面讲清楚，然后签或者不签。

他靠在椅背上，盯着屏幕上那两行数字：37.2% 和 91.3%。

两个数字排在一起：37.2% 说明覆盖边界，91.3% 说明模型上限。中间那段距离，就是他今天要解释的事。

分层

第八十三章 分层

第八十三章分层