哈哈小说
第 6 卷 · AI 的前夜 · 第 76 章 · 45 段 · 0 字

方案落地

第七十六章 方案落地

昨晚散会的时候,所有人都默认行内混排会拖慢进度。tokenizer没有处理过这种模式,要硬塞进训练流程,至少要改一遍识别层的切分逻辑,三周计划说是在轨,其实悬了半截。

周日上午十点,麦景行发来一条:「昨晚想通了,行内混排能处理。」

消息看了一眼,往窗边站了一下。楼下街道是周末的安静,偶尔一辆车。

「怎么处理,说一下。」

「在tokenizer前面加一层预处理。思路是这样:同一行里的注释,先用规则扫一遍,识别出哪些字符段是中文、哪些是英文,按语言边界切出若干片段,每片段独立送进tokenizer。这样tokenizer看到的都是单一语言的输入,它就不需要处理行内切换,只做它本来擅长的事。」

停了一下,又来一条:「规则层可以穷举,就那几种写法:中文后空格+英文、英文后空格+中文、括号里嵌英文、引号里嵌中文。项磊发来的样例把常见情况基本覆盖了,可以直接拿来做规则测试集。」

这段他读了两遍。

预处理层的思路干净,而且不动tokenizer本体,万一有问题可以单独修,不牵连训练分离那条线。

「工作量估一下。」

「大概一天半。写规则半天,测试和边界调优一天。加进来,三周内还有富余,不影响deadline。」

插图

「行,」他回,「做。一个要求:预处理模块要独立封装,接口干净,不要耦合进识别层的其他逻辑。」

麦景行:「你想以后开放这个模块?」

「现在还没想,但封装干净之后才有这个选项。」他说,「等星汇云这一单跑完,这个模块处理过几百万行实际注释,有没有潜在价值,到时候再判断。」

「了解,我去搞。」

手机放下,在椅子上坐了一会儿。这个方案他自己没有想出来,是麦景行昨晚想的,但麦景行想到的只是怎么解问题,后面这一步他要多看一层。一个能处理行内中英混排注释的预处理器,如果拿实际客户语料调出来,技术壁垒比tokenizer改造本身还难复制。暂时先做好,后续的事后续再说。


下午顾衔把星汇云合同草稿发来了,他扫了一遍结构,发给乔木。

乔木只看了三分钟:「这句会出事。'验收标准达到80%',没定义口径。客户如果按静态行覆盖率验,我们白干;按凤合那套迭代期触发率算,才是真实的。」

「按凤合标准,」他回,「两个阶段都写'迭代期触发率80%',测试集版本号和测试方法进条款。」

顾衔改完发过来,乔木看了一眼:「这版可以,明天发项磊。」

插图

「好。顺便说一下,」乔木停了一下,「星汇云这单,价值在案例。天象云和凤合解决的是技术方案层面的问题,星汇云不一样,它胜在量级,八个仓库加双语注释,以后见同等规模的客户,这是第一个真实参照。」

「判断对,」他说,「但现在先签合同,案例的事等第一阶段跑完。」

星汇云那一单的合同锁住了。现在等的是签字,等签字的同时,双语注释sprint继续跑,等sprint出来,第一阶段正式接入才能开始。两个时间线是并行的,有一条先到就等另一条,两条都到了才开始。


晚上范睿的消息来了。

「陆总,你们说三周出双语注释,现在大概第几天了,能给个进度吗?」

他看了一下,回了:「第四天,sprint在轨。识别层完成,训练分离进入测试阶段,预计三周内按计划上线。上线后第一时间联系你。」

范睿:「好,我这边随时候着。另外,我们内部有个评审要在月底前定供应商,如果你们能在那之前上,评审我可以带你们进去。」

他把这条又看了一遍。月底是三周内。只要sprint按计划跑,时间是够的。

手机放下来。范睿那条消息,意思是在确认节奏,他那边有内部排期在等这个能力。等上线的不只星汇云,还有范睿。一个功能点,两条客户线,时间线就是一把刀,早一天出来就早一天能推进。

插图

他回了范睿的消息,把日期算了一下:三周后是六月底,范睿说的月底评审,时间卡得刚好。如果双语注释按计划上,可以赶在评审前给范睿演示一遍,让他在会上有东西可以说。这个事不用现在跟范睿讲,等能力出来了再说,现在说了等于提前承诺,万一偏差了很麻烦。

他给顾衔发了一条:「范睿那边的信息更新一下:他们月底有供应商评审,双语注释上线后安排一次演示,时间卡在评审前。先存档,等能力出来了再推进。」

「收到,备注进去了。」


船坞里,今天话不多。

「周日总结:麦景行给出行内混排解法,预处理层加进去,1.5天工作量,三周计划不影响。星汇云合同草稿里有个验收条款歧义,乔木发现了,顾衔修了,合同今天锁住,明天发出去。范睿催了进度,第四天在轨,按节点回复了他。」

豆包那道暖橙的光:

> 预处理层独立封装这个方向对。这类通用工具,如果后来有人愿意用,不用你主动推,就会有人问。

「先把活干好,后面的事后面再说。」

Claude那道蓝紫光:

插图

> 合同验收条款用触发率,这个维度比静态覆盖率更难造假。客户工程师实际用不用这个建议,数据是真实的。以后遇到质疑的时候,这个数字最有说服力。

「凤合那个'比预期高',就是这个逻辑。」

Codex那道翠绿光:

> 预处理规则要处理的边界情况,里面可能有一种你们还没遇过:注释里嵌了代码片段,代码片段里有中英混合的变量名,这种不算自然语言注释,不应该按中英注释处理。麦景行的规则层要加一条过滤逻辑,或者先问一下项磊,他们仓库里有没有这种情况。

「明天告诉麦景行确认一下。」

窗口没有立刻合上,他停了一下。

星汇云八个仓库,一半是老代码,里面真有在注释里嵌英文函数名或变量名的写法。预处理规则按字符边界切,碰到这种情况会怎么处理?函数名被切出来当英文片段,整段注释语义就碎了。理论边界是一回事,老代码的常规操作是另一回事。

第四天。合同明天出去。预处理模块今天开工。三周里还剩十七天,但真正的坑,往往不在计划表上。