第八十三章 分层
周五上午八点五十七分,麦景行发来一条:「结果出来了。」
他正在地铁上,用一只手撑着扶杆,另一只手把手机屏幕调亮了一格。
附件打开,一张表。
``` /api/gateway 测试样本总量:12,198行 触发成功:4,537行 整体触发率:37.2% ```
37.2%。
低于40%。
他在嘈杂的地铁里把这个数字看了两遍,车厢里人很多,他往后靠了靠,换了个站姿。
昨晚给项磊打电话的时候,他说预估可能是 40%-60%,今天是 37.2%。差了几个点,差进了预警线以下。这个数字如果就这么发给林博文,项磊连转述的理由都找不到,因为它比所有人预期的都低,而且是在林博文刚刚确认"方法通过"的第二天。时机不对,数字也难看。
但这张表有一行他们来不及细看。「触发成功:4,537行。」
计算器一敲:4537 除以 12198,等于 37.2%。加权均值。
然后他想了一下:gateway 的注释密度是 6.9%,就是说 12,198 行里,大概有 847 行是有注释的,剩下的 11,351 行没有注释。触发是从注释发生的。那 4,537 行触发里,有多少是来自那 847 行有注释的区域?
他给麦景行发了一条:「详细的明细有吗,把命中的行按来源拆一下,看哪些是注释行,哪些是从非注释区触发的。」

回复来了,附件是一份更细的报告。
他在地铁到站之前扫了一眼关键数字,下车走进办公楼的时候,已经想好了。
进楼坐下,把电脑打开,再把那份报告仔细看一遍。
明细很清楚:有注释的 847 行里,773 行命中,比例 91.3%,和 billing、order 一致。无注释的 11,351 行里,触发了 3,764 行,比例 33.2%。
这两组数字,他反复对着看了几遍。
有注释的 847 行里,触发率是 91.3%,和 billing、order 的水平完全一样。模型没有问题,在有注释的代码上,gateway 和其他模块表现一致。
问题出在那 11,351 行无注释代码上,触发率是 33.2%,而且这 3,764 行触发里,质量还需要确认。
他叫麦景行:「无注释区域触发的 3,764 行,质量怎么样?」
麦景行查了一下:「质量偏低,大部分是模型在函数签名上做了猜测,注释内容比较泛,类似'执行指定操作'这类。只算有注释的区域是 91.3%,计入全量代码就降到 37.2%。」
他靠在椅背上,想了大概一分钟。
结构上,整件事的定性就变了。

同一张表,别人看到的是事故。他看到的是反证。
他把船坞打开。
「gateway 实测 37.2%,拆分后有注释区 91.3%、无注释区 33.2%。分母把不该算的代码都带进来了,模型质量本身没问题。我要用两套指标分层呈现,覆盖率和质量率分开报。这个逻辑,林博文接不接得住?」
豆包那道暖橙光亮起:
> 林博文昨天接受了"方法通过",说明他接受分层逻辑的基础是有的。他来确认采样过程,本质是在问"这个数字是否可信",分层呈现给了他一个更精细的答案。如果你今天发项磊的时候带上清晰的说明,项磊有机会在林博文问之前主动解释,比被动接受质疑要好。
「对,今天要让项磊主动提,不能等林博文自己发现。」
Claude那道蓝紫光跟上:
> 分层方案的关键是名称要清晰。"覆盖触发率"和"质量触发率"这两个名字,容易让人混淆。建议考虑"注释覆盖率"和"模型触发准确率",前者说的是代码注释密度,后者说的是有注释时模型表现。这样两个指标的含义都能从名字里读出来,林博文不需要查文档就能理解。
他想了一下:「有道理。改。」
Codex那道翠绿光:
> 补充一个数据对比:billing 和 order 注释密度 22%-23%,gateway 6.9%。这个密度差本身就解释了为什么触发率差距这么大,可以单独放一行当背景数据:gateway 注释稀疏,本来就是接口层的写法,和业务层天然是两种密度。

「这行数据放进备注里。」
窗口合上。
gateway 的问题出在覆盖形态,和模型质量无关。接口层大量代码没有注释,模型在无注释的地方强行触发,质量很低,但这些触发本来就不应该进真实评估的分母。
真正的评估应该是:在 gateway 有注释的代码上,触发率是多少,质量是什么水平。这个答案是 91.3%,和 billing、order 一样。
区分这两件事,是今天要做的核心工作。
报告模板打开,原来的说法要调整。原版是:「接口层触发率偏低属正常现象」,这个说法太弱,听起来是在认错找理由。
改法是把指标分层。原来笼统的触发率拆成两个维度:
注释覆盖率(Annotation Coverage):整体代码里有注释的比例,6.9%,反映 gateway 本身的注释密度低。 模型触发准确率(Trigger Accuracy):有注释代码上的触发质量,91.3%,反映模型真实能力。
两个数字并列呈现,覆盖边界是一个维度,模型表现是另一个维度,读者自己判断哪个更接近验收关切。
这版框架写进了备注模板,发给项磊:「见附件,gateway 部分用两个指标分层呈现,说明在文档里我已经写了,你看一下,觉得有问题随时说。」
半小时后,项磊回了一条:「我让林博文也看了你的模板,他今天下午要见你,说有话要说。时间三点半,你们公司会议室,他直接来。」

他看着这条消息,想了几秒。
然后项磊又发来一条:「他会带他们的技术总监一起。林博文说,要现场把底表核一遍。」
底表。他要亲眼看原始数据,项磊转述不够。
他给乔木发了一条:「今天下午三点半林博文来,带技术总监,会议室清空,备好投影。」又给麦景行发了一条:「把底表准备好,两份,三点前交给我。今天要现场给林博文和他们技术总监看原始分层数据。」
消息放一边,他打开建议方案文档,两套指标的说明逐条核了一遍。
分层框架的逻辑,下午必须在现场讲清楚。林博文带技术总监来,意思很明确:数字要经得住行家看,项磊转述不算数,他要当面确认数据和逻辑都成立。
今天是真正的技术验收了。
下午三点半,在自己公司的会议室里,他要把这一套分层逻辑当着林博文和他技术总监的面讲清楚,然后签或者不签。
他靠在椅背上,盯着屏幕上那两行数字:37.2% 和 91.3%。
两个数字排在一起:37.2% 说明覆盖边界,91.3% 说明模型上限。中间那段距离,就是他今天要解释的事。