第七十四章 排期
周五上午九点五十八分,麦景行推开会议室门进来,比约定时间早了两分钟。
他在桌子那头等着。麦景行放下背包,把笔记本打开,屏幕上已经是方案文档。
「我先说整体结构,」他说,「三层:识别层、训练分离、输出校验。」
识别层是第一步,tokenizer要改造,让它在处理注释文本时识别语言切换边界,不能把中英混排的段落当成一整段中文或英文来处理,要按语言块切分,每块单独向量化。这一步是基础,后面两步都建在这上面。
训练分离是第二步:客户仓库里的注释语料,按语言分桶标注,中文注释单独训练一路,英文注释单独训练一路,中英混排的按切分后的语言块分别归入两路。模型出建议时根据当前文件的目标语言配置,决定从哪路或哪个比例取建议。
输出校验是第三步:建议生成后,检查建议里的注释语言是否与文件配置一致,如果文件标注了英文优先,建议里出现了中文注释就拦截,让模型重新生成。
「时间线,」他说,「识别层一周,训练改造一周半,测试调优一周半。基准是四周。」
「四周以内?」陆衍问。
「四周以内。」
「我昨晚说的是能不能提前。」
光标点到方案的一个区块:「有一个功能如果不做,可以省半到一周。」
那个功能叫自动检测文件语言比例。客户仓库里的文件,注释语言分布各不一样,自动检测会在接入时扫描每个文件的注释,按实际语言比例给文件打标,训练分桶按这个比例走。如果跳过这步,就改成手动配置:客户在接入时填一份配置文件,标明各目录的语言策略,双语混合的单独选一个flag,其余的标中文或英文就行。

那行功能名称他看了一秒。这个功能听起来完整,但星汇云现在要的是先接入跑起来,配置手填得出来。这个可以后置。
「精度会低一点,」麦景行说,「但对大多数仓库够用。等v1.1再做自动检测。」
「砍掉,」他说,「v1.1再补。」
他点了一下那个功能区块,「他们仓库的语言分布,老工程师能知道吗?」
「应该清楚,」麦景行说,「让他们在调查表里填一下,我们按他们填的配。」
「那就没问题。手动配置,目标三周,这个你今天能确认吗?」
「需要跟秦朗确认识别层的技术可行性。识别层不是我们之前做过的,tokenizer改造有不确定性。」
「今天内确认。」
「今天内。」
出会议室,乔木在工位那边招手:「项磊发消息来了,他们Java技术负责人,附了一张调查表。」
他走过去,把调查表拉出来看。
八个仓库,按规模从大到小排:主仓库一个,中间件三个,基础服务四个。主仓库是Java单体,代码量最大,注释行数粗估在15万行以上。备注那一栏,项磊填了几个字:主仓库注释分布,中文约50%,英文约40%,中英交替约10%。

「40%纯英文,」乔木说,「加10%中英混,五成注释里有英文成分。」
「去掉纯英文那部分,40%可以直接用手动配置处理,」陆衍说,「麦景行的方案,英文优先目录单独标,训练时按英文路走。」
「10%的中英交替才是问题,」乔木接过去,「这种文件要怎么配置,还是说自动识别?」
「这个我转给麦景行看。」调查表截图发过去,附了一句:「看一下10%中英交替这种文件,在手动配置方案里怎么处理。」
回复来得很快。
「中英交替按混排文件配置,独立一个flag,意思是这个文件走双语训练通道,两路语料都参与,按文件内实际比例加权。这个逻辑已经在方案里有,三周计划不变。」
再下一条来了:「我已经问了秦朗,识别层不是从零开始,他之前在处理BPM词汇表的时候做过语料分类逻辑,有一部分可以复用。他说三周跑得过来,周一启动。」
他把这条发进内部群:「双语注释三周计划确认,周一开始,三周后周五上线。」
乔木:「项磊那边我来回。」
「让他们准备接入前的配置文件,语言分布情况填好,我们这边接到后给他们出一份接入预评估。」
下午乔木回星汇云的消息发出去之前,先过来对了一遍:

「接入时间线,他们那边会问。小规模验证从哪天开始?」
「双语注释上线之后,」陆衍说,「三周后,我们给他们启动接入。验证周期两周,用主仓库的一个子模块,覆盖率作为验收标准。」
「这样的话,范睿那边也是三周后才能推进,」乔木说,「两条线都压在同一个日期上。他们动作很快,内部有排期,这个验证窗口等不了第二次。范睿那边我判断热度有期限,拖久了就凉了。」
「知道,所以要管好三周。卡着上不够,提前上才稳。」
晚上,顾衔把范睿那边的沟通记录整理了一份发过来,他扫了一遍,范睿上周发来一条询问进度的消息,还没回。
他给范睿回了一条:「双语注释能力正在做,三周内上线。上线后我联系你,开始正式接入评估。」
范睿回:「好,等消息。」
船坞里,今天说得简短。
「双语注释方案确认,三层结构,识别层+训练分离+输出校验,三周,周一开工。项磊发来了仓库调查表,主仓库15万行注释,40%英文+10%中英交替,方案覆盖得住。」
豆包那道暖橙的光:
> 星汇云动作快,引荐的第二天就发来调查表,说明魏城那边是真的在认真考虑,不是走过场。三周给你们的时间窗口其实很紧,他们那边可能也有排期压力。
「知道,所以要麦景行锁死时间。」

Claude那道蓝紫光:
> 项磊调查表里的数字值得注意:主仓库注释行数15万,加上中间件和基础服务,全量可能超过40万行。这个量级比凤合大,训练数据量会影响时间线,让秦朗把数据量估进方案里。
「明天跟麦景行对一下。」
Codex那道翠绿光:
> 中英交替注释有一个结构问题:如果英文注释用行尾格式而中文用块注释,tokenizer在切语言边界时要能处理两种注释结构,不能用同一套切分逻辑。方案的识别层要把这个显式处理掉,不然训练语料里会有脏数据。
「发给麦景行,加进识别层需求。」
窗口合上。
启动消息已经出去了。三周计时器今晚开始跑。
手机要关的时候,乔木发来一条:「魏城那边有个新消息。他问,三周后能不能跳过子模块试点,直接跑主仓库全量。」
这条看了两遍。
全量比子模块大得多,验证周期和风险都不一样。魏城这个问题,不是随口问的。