哈哈小说
第 6 卷 · AI 的前夜 · 第 83 章 · 55 段 · 2479 字

分层

第八十三章 分层

周五上午八点五十七分,麦景行发来一条:「结果出来了。」

他正在地铁上,用一只手撑着扶杆,另一只手把手机屏幕调亮了一格。

附件打开,一张表。

``` /api/gateway 测试样本总量:12,198行 触发成功:4,537行 整体触发率:37.2% ```

37.2%。

低于40%。

他在嘈杂的地铁里把这个数字看了两遍,车厢里人很多,他往后靠了靠,换了个站姿。

昨晚给项磊打电话的时候,他说预估可能是 40%-60%,今天是 37.2%。差了几个点,差进了预警线以下。这个数字如果就这么发给林博文,项磊连转述的理由都找不到,因为它比所有人预期的都低,而且是在林博文刚刚确认"方法通过"的第二天。时机不对,数字也难看。

但这张表有一行他们来不及细看。「触发成功:4,537行。」

计算器一敲:4537 除以 12198,等于 37.2%。加权均值。

然后他想了一下:gateway 的注释密度是 6.9%,就是说 12,198 行里,大概有 847 行是有注释的,剩下的 11,351 行没有注释。触发是从注释发生的。那 4,537 行触发里,有多少是来自那 847 行有注释的区域?

他给麦景行发了一条:「详细的明细有吗,把命中的行按来源拆一下,看哪些是注释行,哪些是从非注释区触发的。」

插图

回复来了,附件是一份更细的报告。

他在地铁到站之前扫了一眼关键数字,下车走进办公楼的时候,已经想好了。

进楼坐下,把电脑打开,再把那份报告仔细看一遍。

明细很清楚:有注释的 847 行里,773 行命中,比例 91.3%,和 billing、order 一致。无注释的 11,351 行里,触发了 3,764 行,比例 33.2%。

这两组数字,他反复对着看了几遍。

有注释的 847 行里,触发率是 91.3%,和 billing、order 的水平完全一样。模型没有问题,在有注释的代码上,gateway 和其他模块表现一致。

问题出在那 11,351 行无注释代码上,触发率是 33.2%,而且这 3,764 行触发里,质量还需要确认。

他叫麦景行:「无注释区域触发的 3,764 行,质量怎么样?」

麦景行查了一下:「质量偏低,大部分是模型在函数签名上做了猜测,注释内容比较泛,类似'执行指定操作'这类。只算有注释的区域是 91.3%,计入全量代码就降到 37.2%。」

他靠在椅背上,想了大概一分钟。

结构上,整件事的定性就变了。

插图

同一张表,别人看到的是事故。他看到的是反证。


他把船坞打开。

「gateway 实测 37.2%,拆分后有注释区 91.3%、无注释区 33.2%。分母把不该算的代码都带进来了,模型质量本身没问题。我要用两套指标分层呈现,覆盖率和质量率分开报。这个逻辑,林博文接不接得住?」

豆包那道暖橙光亮起:

> 林博文昨天接受了"方法通过",说明他接受分层逻辑的基础是有的。他来确认采样过程,本质是在问"这个数字是否可信",分层呈现给了他一个更精细的答案。如果你今天发项磊的时候带上清晰的说明,项磊有机会在林博文问之前主动解释,比被动接受质疑要好。

「对,今天要让项磊主动提,不能等林博文自己发现。」

Claude那道蓝紫光跟上:

> 分层方案的关键是名称要清晰。"覆盖触发率"和"质量触发率"这两个名字,容易让人混淆。建议考虑"注释覆盖率"和"模型触发准确率",前者说的是代码注释密度,后者说的是有注释时模型表现。这样两个指标的含义都能从名字里读出来,林博文不需要查文档就能理解。

他想了一下:「有道理。改。」

Codex那道翠绿光:

> 补充一个数据对比:billing 和 order 注释密度 22%-23%,gateway 6.9%。这个密度差本身就解释了为什么触发率差距这么大,可以单独放一行当背景数据:gateway 注释稀疏,本来就是接口层的写法,和业务层天然是两种密度。

插图

「这行数据放进备注里。」

窗口合上。


gateway 的问题出在覆盖形态,和模型质量无关。接口层大量代码没有注释,模型在无注释的地方强行触发,质量很低,但这些触发本来就不应该进真实评估的分母。

真正的评估应该是:在 gateway 有注释的代码上,触发率是多少,质量是什么水平。这个答案是 91.3%,和 billing、order 一样。

区分这两件事,是今天要做的核心工作。

报告模板打开,原来的说法要调整。原版是:「接口层触发率偏低属正常现象」,这个说法太弱,听起来是在认错找理由。

改法是把指标分层。原来笼统的触发率拆成两个维度:

注释覆盖率(Annotation Coverage):整体代码里有注释的比例,6.9%,反映 gateway 本身的注释密度低。 模型触发准确率(Trigger Accuracy):有注释代码上的触发质量,91.3%,反映模型真实能力。

两个数字并列呈现,覆盖边界是一个维度,模型表现是另一个维度,读者自己判断哪个更接近验收关切。

这版框架写进了备注模板,发给项磊:「见附件,gateway 部分用两个指标分层呈现,说明在文档里我已经写了,你看一下,觉得有问题随时说。」


半小时后,项磊回了一条:「我让林博文也看了你的模板,他今天下午要见你,说有话要说。时间三点半,你们公司会议室,他直接来。」

插图

他看着这条消息,想了几秒。

然后项磊又发来一条:「他会带他们的技术总监一起。林博文说,要现场把底表核一遍。」

底表。他要亲眼看原始数据,项磊转述不够。

他给乔木发了一条:「今天下午三点半林博文来,带技术总监,会议室清空,备好投影。」又给麦景行发了一条:「把底表准备好,两份,三点前交给我。今天要现场给林博文和他们技术总监看原始分层数据。」

消息放一边,他打开建议方案文档,两套指标的说明逐条核了一遍。

分层框架的逻辑,下午必须在现场讲清楚。林博文带技术总监来,意思很明确:数字要经得住行家看,项磊转述不算数,他要当面确认数据和逻辑都成立。

今天是真正的技术验收了。

下午三点半,在自己公司的会议室里,他要把这一套分层逻辑当着林博文和他技术总监的面讲清楚,然后签或者不签。

他靠在椅背上,盯着屏幕上那两行数字:37.2% 和 91.3%。

两个数字排在一起:37.2% 说明覆盖边界,91.3% 说明模型上限。中间那段距离,就是他今天要解释的事。