第一百二十四章 下周三
那封会议邀请落在收件箱里,陆衍看了两遍。
技术方向讨论。下周三下午三点。609室。附件:无。备注:不需要提前准备材料。
最后那句话他在公司六年,从来没有在韦东来的邀请里见过。韦东来组织的技术评审,有时候前置文档厚到四十页;最简短的临时同步,也至少带一份议题清单。什么都不带,这不是他的工作习惯。
那天晚上,他把那封邀请转给豆包,说:「韦东来发了一个没有附件的会议邀请。」
豆包看了一眼,回:「无附件,现场对话。他在切换测试路径。文档我可以预扫,对话没有提前输入。」
「他知道你的存在吗?」
「不知道。但他知道你在文档上的处理速度不符合人类阅读模式。」停了一下,「他在用一个他能控制的格式重新测你。」
「能帮我什么?」
「这个方向你工作了六年,」豆包说,「基础判断你本来就应该答得上来。AI中台的核心设计逻辑我帮你梳理一遍,但现场的节奏你得自己管。」
「怎么管节奏?」
「别太快,」豆包说,「每个问题停一下再答,先把问题复述一遍,给自己留两秒。聪明人正常的对话习惯,不会让人多想。」
那封邀请关了。
周一上午,乔木路过他办公室,把门推开了一条缝。「周三你跟韦东来有个会,609室。什么事?」
「技术方向讨论。」
「没有议题?」

「没有,」他说,「没有附件,什么都没带。」
她在门口站了一下。「他找你几次了?」
「算这次,三次。」
乔木没有说话,看了他一眼。「你应付得了吗?」
「到目前为止,他没有找到他想找的东西。」
她点了一下头,走了。但门关上之前,她在走廊里说了一句:「别太顺手。」
周三下午两点五十分,陆衍进了609室。
会议室很小,放了六把椅子,桌上只有一壶热水和两个空杯子。没有投影仪,没有文件,桌面空着。韦东来已经到了,坐在靠窗那侧,面前只有一支签字笔和一张空白的便签纸。
两个人坐定,没有开场白。
「最近在想一个架构问题,」韦东来说,「没有具体文档,就是想聊聊方向。你做了很多AI中台评审,说说你的看法:高并发推理场景下,模型实例的调度策略,集中式和分布式,哪个方向弹性更好?」
陆衍把那个问题想了一下,才开口。
「要看想保证什么,」他说,「集中式全局可观测,资源池的使用情况清楚,负载均衡容易做;分布式竞争的延迟低,请求可以就近找实例,不用经过一个调度中心。但这两个方向,后期遇到的麻烦不一样。集中式的调度中心容易变成单点,分布式的一致性难以保证。」
「倾向哪个方向?」
「看规模,」他说,「初期规模小,集中式维护成本低,出了问题容易排查。如果延迟要求高,早期就走分布式,否则后期迁移成本太高。」
他点了一下头,端起杯子喝了口水,然后说:「我们现在的方案接近集中式,但在本地加了一个预感知层,先做一次轻量级匹配,降低调度中心的压力。」

「预感知层,」陆衍说,「如果模型实例的状态变化比请求频率快,本地缓存的状态会过时。」
他抬头看了一眼。
「这个问题,」他说,「我们上周刚遇到。还没有写进任何文档。」
他保持着刚才的节奏,没有停顿。「这是分布式系统里常见的一个方向,你说到预感知层和本地匹配,这个问题是比较自然的推论。你设计这块的时候,应该也考虑过。」
「考虑过,」韦东来说,「当时判断规模还没到,先接受这个问题。」
「合理,提前解决工程成本不划算。」
他停了一下,然后说:「还有一个问题,你们不一定遇到了,但可以先想:调度中心的状态广播,在并发量上来之后,会变成延迟放大的来源。具体表现是随机的延迟峰值,很难复现,很多系统到那个阶段才意识到根源在这里。」
韦东来看了他一眼。这个不在刚才的任何一个问题里。
「你们现在这套方案,有没有考虑这块?」他说。
「暂时没有,」韦东来说,「还没到那个规模。」
「合理,」他说,「但如果以后遇到,找我,我见过类似的拆法。」
那张便签纸上写了两个字,翻过去压着。
他又问:「模型热更新,你怎么看?」
「热更新难在验证,」陆衍说,「不能在生产流量上测新版本,但影子流量有资源消耗,这个权衡不好做。如果更新频率不高,冷切换窗口可以接受。」
「如果更新频率很高?」

「关键是看你能不能接受局部精度损失期,」他说,「热更新之后,那个实例在重新校准之前,推理结果会有偏差。这个偏差能不能隔离,能不能对最终用户不可见。如果不行,就需要在路由层做版本管理,把新旧实例的流量分开走。」
「做过类似的设计?」
「看过一个,」陆衍说,「2019年,有个客户的推理集群用了类似思路,后来是把状态同步通道和请求路径分开,单独维护,不让同步开销和请求争带宽。」
「那个项目还有文档吗?」
「有,但是客户资料,我没有权限拿出来。」
便签纸翻过去压着,又写了几个字。整个会谈将近四十分钟,六个问题,都没有提前告诉任何人,包括自己的团队。
「就聊到这里,」他说,「主要是想听一下方向判断,没有别的议题。」
两个人一起往走廊走,在电梯口分开。韦东来没有多说什么,只是说了一句:「有机会再聊。」
「好。」
回到自己的办公室,韦东来把那张便签纸翻过来展开。
上面记了三个词:状态。热更。版本管理。
这三个话题,都是他在会谈里临时起意,没有列在任何地方,也没有告诉过任何人。
他在纸上画了一条横线,然后在下面写:
文档回复:速度超出正常范围,精准到章节细节。 现场回复:速度正常,有推理过程,有一处快了半拍。
那一处:预感知层的状态问题,在他描述完设计思路后大约四秒就被说出来,速度比合理推论更快。

他停下来,在「更快」下面画了一个圈。
然后他写:可以预处理文档的工具,无法预知即兴对话。但如果只是文档工具,现场应该接近普通人。那一处「快了半拍」怎么解释?
笔放下,看了一会儿那张纸。
两种可能:
一,这个工具不只是文档扫描,它可以处理实时文字输入,只是速度比文档模式慢一些。
二,陆衍在这个方向的积累确实足够深,那一处快了半拍,是真实经验,而不是工具。
这两种可能,处理方式完全不同。前者是一个工具问题,后者是一个人的问题。
他把便签纸折起来,放进抽屉里。
他坐下来,打开电脑,在搜索框里输入:
「AI推理辅助工具 实时文字交互」
搜索结果出来,他大概扫了一遍,找到两三个产品,截图存下来。
然后他把那个页面关掉,打开了另一个搜索框。
搜索词换了:「企业AI访问日志 审计 查询方法」。
他想到的不再是这个工具是什么,而是:这个工具会不会在公司的系统里留下痕迹。