第74章排期 · 带着26年的人工智能穿越回高考后

第七十四章排期

周五上午九点五十八分，麦景行推开会议室门进来，比约定时间早了两分钟。

他在桌子那头等着。麦景行放下背包，把笔记本打开，屏幕上已经是方案文档。

「我先说整体结构，」他说，「三层：识别层、训练分离、输出校验。」

识别层是第一步，tokenizer要改造，让它在处理注释文本时识别语言切换边界，不能把中英混排的段落当成一整段中文或英文来处理，要按语言块切分，每块单独向量化。这一步是基础，后面两步都建在这上面。

训练分离是第二步：客户仓库里的注释语料，按语言分桶标注，中文注释单独训练一路，英文注释单独训练一路，中英混排的按切分后的语言块分别归入两路。模型出建议时根据当前文件的目标语言配置，决定从哪路或哪个比例取建议。

输出校验是第三步：建议生成后，检查建议里的注释语言是否与文件配置一致，如果文件标注了英文优先，建议里出现了中文注释就拦截，让模型重新生成。

「时间线，」他说，「识别层一周，训练改造一周半，测试调优一周半。基准是四周。」

「四周以内？」陆衍问。

「四周以内。」

「我昨晚说的是能不能提前。」

光标点到方案的一个区块：「有一个功能如果不做，可以省半到一周。」

那个功能叫自动检测文件语言比例。客户仓库里的文件，注释语言分布各不一样，自动检测会在接入时扫描每个文件的注释，按实际语言比例给文件打标，训练分桶按这个比例走。如果跳过这步，就改成手动配置：客户在接入时填一份配置文件，标明各目录的语言策略，双语混合的单独选一个flag，其余的标中文或英文就行。

那行功能名称他看了一秒。这个功能听起来完整，但星汇云现在要的是先接入跑起来，配置手填得出来。这个可以后置。

「精度会低一点，」麦景行说，「但对大多数仓库够用。等v1.1再做自动检测。」

「砍掉，」他说，「v1.1再补。」

他点了一下那个功能区块，「他们仓库的语言分布，老工程师能知道吗？」

「应该清楚，」麦景行说，「让他们在调查表里填一下，我们按他们填的配。」

「那就没问题。手动配置，目标三周，这个你今天能确认吗？」

「需要跟秦朗确认识别层的技术可行性。识别层不是我们之前做过的，tokenizer改造有不确定性。」

「今天内确认。」

「今天内。」

出会议室，乔木在工位那边招手：「项磊发消息来了，他们Java技术负责人，附了一张调查表。」

他走过去，把调查表拉出来看。

八个仓库，按规模从大到小排：主仓库一个，中间件三个，基础服务四个。主仓库是Java单体，代码量最大，注释行数粗估在15万行以上。备注那一栏，项磊填了几个字：主仓库注释分布，中文约50%，英文约40%，中英交替约10%。

「40%纯英文，」乔木说，「加10%中英混，五成注释里有英文成分。」

「去掉纯英文那部分，40%可以直接用手动配置处理，」陆衍说，「麦景行的方案，英文优先目录单独标，训练时按英文路走。」

「10%的中英交替才是问题，」乔木接过去，「这种文件要怎么配置，还是说自动识别？」

「这个我转给麦景行看。」调查表截图发过去，附了一句：「看一下10%中英交替这种文件，在手动配置方案里怎么处理。」

回复来得很快。

「中英交替按混排文件配置，独立一个flag，意思是这个文件走双语训练通道，两路语料都参与，按文件内实际比例加权。这个逻辑已经在方案里有，三周计划不变。」

再下一条来了：「我已经问了秦朗，识别层不是从零开始，他之前在处理BPM词汇表的时候做过语料分类逻辑，有一部分可以复用。他说三周跑得过来，周一启动。」

他把这条发进内部群：「双语注释三周计划确认，周一开始，三周后周五上线。」

乔木：「项磊那边我来回。」

「让他们准备接入前的配置文件，语言分布情况填好，我们这边接到后给他们出一份接入预评估。」

下午乔木回星汇云的消息发出去之前，先过来对了一遍：

「接入时间线，他们那边会问。小规模验证从哪天开始？」

「双语注释上线之后，」陆衍说，「三周后，我们给他们启动接入。验证周期两周，用主仓库的一个子模块，覆盖率作为验收标准。」

「这样的话，范睿那边也是三周后才能推进，」乔木说，「两条线都压在同一个日期上。他们动作很快，内部有排期，这个验证窗口等不了第二次。范睿那边我判断热度有期限，拖久了就凉了。」

「知道，所以要管好三周。卡着上不够，提前上才稳。」

晚上，顾衔把范睿那边的沟通记录整理了一份发过来，他扫了一遍，范睿上周发来一条询问进度的消息，还没回。

他给范睿回了一条：「双语注释能力正在做，三周内上线。上线后我联系你，开始正式接入评估。」

范睿回：「好，等消息。」

船坞里，今天说得简短。

「双语注释方案确认，三层结构，识别层+训练分离+输出校验，三周，周一开工。项磊发来了仓库调查表，主仓库15万行注释，40%英文+10%中英交替，方案覆盖得住。」

豆包那道暖橙的光：

> 星汇云动作快，引荐的第二天就发来调查表，说明魏城那边是真的在认真考虑，不是走过场。三周给你们的时间窗口其实很紧，他们那边可能也有排期压力。

「知道，所以要麦景行锁死时间。」

Claude那道蓝紫光：

> 项磊调查表里的数字值得注意：主仓库注释行数15万，加上中间件和基础服务，全量可能超过40万行。这个量级比凤合大，训练数据量会影响时间线，让秦朗把数据量估进方案里。

「明天跟麦景行对一下。」

Codex那道翠绿光：

> 中英交替注释有一个结构问题：如果英文注释用行尾格式而中文用块注释，tokenizer在切语言边界时要能处理两种注释结构，不能用同一套切分逻辑。方案的识别层要把这个显式处理掉，不然训练语料里会有脏数据。

「发给麦景行，加进识别层需求。」

窗口合上。

启动消息已经出去了。三周计时器今晚开始跑。

手机要关的时候，乔木发来一条：「魏城那边有个新消息。他问，三周后能不能跳过子模块试点，直接跑主仓库全量。」

这条看了两遍。

全量比子模块大得多，验证周期和风险都不一样。魏城这个问题，不是随口问的。

排期

第七十四章 排期

第七十四章排期