哈哈小说
第 6 卷 · AI 的前夜 · 第 93 章 · 35 段 · 1428 字

主模块

第九十三章 主模块

麦景行发来的那份分析,他打开来看了两遍。

不是账单超支的问题那么简单。

二期启动后三周,算力花销的走势图,上升斜率是一期同期的两倍。麦景行在分析报告里把这个数字单独标出来,下面备注:「原因在报告第三页。」

第三页,是一张调用路径图。


23 个模块,不是均等的。麦景行把所有调用记录整理之后发现,有 7 个模块在处理链上处于中间位置:其他模块的处理结果,在落库前,都需要经过这 7 个模块的交叉验证。他在报告里给这 7 个路径打了标签:主模块依赖。

任何触碰主模块的调用,都会拉起长上下文,把当前模块和 7 个主模块的处理历史一起带进大模型。这是交叉验证的要求,不可以绕过去。

分级调度的方案,可以压缩其他 16 个模块的算力花销。但这 7 个,无法降级。

而且,随着处理进度推进,主模块积累的注释数据越来越多,上下文长度是在增长的,算力消耗是非线性的。

插图

他打开船坞。

「二期有 7 个主模块,所有其他模块处理时必须带着主模块历史注释做交叉验证,无法降级,算力是非线性增长的。现在怎么处理这个问题?」

豆包:

> 这是架构层的问题,效率优化解决不了。主模块的历史注释是所有模块的共享上下文,每次处理都重新计算代价很高。解决方向是把这部分计算从每次调用里剥离出来,变成可以提前缓存、增量更新的结构。

Claude:

> 具体做法:把主模块的注释向量化存储,每次处理其他模块时,调用缓存里的向量而不是原始文本,减少长上下文的生成量。这需要一个独立的向量缓存层,和每次新注释进来时的增量更新逻辑。

Codex:

插图

> 技术上是 RAG 架构的一个变体:主模块构成知识库,其余模块处理时做检索而不是全量注入。但要实现稳定的检索质量,需要一套专门的嵌入模型选型和检索评估体系,不是一周能搭起来的工作。

说白了,就是不再每次把整本账本搬进会议室,只抽相关的几页。


他把这三条建议在屏幕上放了一会儿。

Codex 最后那句话是关键,但他知道这条路是对的。再过两年,几乎所有做代码注释的平台都会往检索增强那个方向走,这不是新问题,只是云帆碰早了。

完整的 RAG 架构搭起来要几个月。但三天,可以先搭一个过渡版:把 7 个主模块的核心注释结构压缩存下来,调用时拿摘要而不是原文,算力消耗能先减半。撑到正式方案落地,够了。

给麦景行发了一条:「第三页那个主模块分析,对的。解决方向是向量缓存层,你不用碰架构。三天内给我两样东西:主模块调用规模和增长斜率估算。方案我来定。」

麦景行回:「好,我知道了。」

插图

合上电脑,他靠在椅背上,把这件事在脑子里过了一遍。

星汇云二期合同签了,每月服务费已经在进账。但如果主模块的算力问题在四个月内解决不了,项目后半段的利润会被吃掉。这是一个他签合同时没有精确测算的结构性成本,当时没有预见到。

他让豆包和 Claude 帮他拆解算力问题的时候,假设的是可以靠分级调度解决大部分,主模块这个情况没有进初始测算。

招人的话,找一个有检索架构经验的工程师,3 到 6 个月落地,成本先出,收益后来。外包的话,进度不可控,还要开权限,麻烦。

有一个第三种可能:找一个合适的现成工具,接进来改造。但合适的工具意味着要评估,评估要时间。

三件事里面没有一件是快的。


给麦景行发了第二条:「顺手把市面上做向量数据库的产品列几个,不用评估,只列名字。」

插图

「好。」

窗外下午的光已经开始偏斜。二期进行到第三周,这个问题最晚要在第六周之前有方案,再往后,主模块的上下文长度就会超过大模型的处理窗口上限,那时候贵不贵已经不重要了,跑不动才是真正的问题。

他把文件夹关上,给乔木发了一条:「账单和合同收入对一下,下周发我利润预测,区分主模块已解决和未解决两个情景。」

「明白。」

乔木隔了几秒,又发来一条:「顺便,下个月账单如果斜率不变,是这个月的两点三倍。我把这个数拍在估算里了。」

他看了一眼这个数字,把手机锁屏。