如果你现在观察一个顶尖的人工智能团队,你会发现他们大部分时间并不在训练基础模型。他们真正在做的是一些看起来有点“笨拙”的工作。
他们在设计越来越复杂的提示词,像是在哄一个喜怒无常的天才。他们搭建多智能体系统,让几个模型互相争论,希望真理越辩越明。他们在构建精巧的上下文检索系统(RAG),像是在给一个记性不好但极为聪明的学生当图书管理员,随时准备递上正确的参考资料。他们还花大力气去压缩上下文,好让这个学生能在考试规定的时间内读完所有材料。
这些工作感觉如何?它们感觉像是……脚手架。是在一座宏伟建筑尚未完工时,工人们为了能够到更高的地方而临时搭建的金属架子。它们很有用,甚至是必不可少的。但它们终究不是建筑本身的一部分。
我们之所以要搭建这些脚手架,是因为我们面对的模型还不够完善。它们很强大,但也很笨拙,像一个拥有无穷力量但四肢不太协调的巨人。它能举起一栋房子,但你得先用精确的语言告诉它怎么发力,从哪里抬起,以及步子要迈多大。这些指令就是我们的提示词、上下文和多智能体框架。
每当你看到一种需要大量人工干预才能让一个强大的技术运转起来的模式时,你就应该警觉起来。这通常是一个信号,表明一项重要的自动化即将发生。想想早期的计算机编程。程序员需要手动管理内存分配和释放,然后我们发明了垃圾回收机制。我们今天对大模型所做的一切,就是一种高层次的手动内存管理。
这就是我所说的“大模型的自举”(Large Model Bootstrapping)。
它意味着,模型将不仅仅在它被训练的任务上表现得更好,它还将在“如何更好地执行任务”这个元任务(meta-task)上表现得更好。我们今天煞费苦心搭建的脚手架,将变成模型内置的、自动伸缩的梯子。
而这,才是真正令人敬畏的地方。一旦模型掌握了自我完善的方法,它的进化速度将彻底脱离我们熟悉的线性轨道。我们目前的AI进展,本质上还是以“人类时间”为尺度的。但当“自举”发生时,驱动进化的引擎就从人类大脑换成了模型本身。其结果将是一种我们从未见过的、堪称恐怖的复合式增长。我们今天津津乐道于AI一年能取得的进展,也许在那个阶段,只需要一天。进展不再是一日千里,而可能是一秒千里。
那么,当这种超级智能成为现实,我们与它的互动方式会变成什么样?你可能会以为,我们会用无数个经过专门优化的、小而美的模型来处理特定任务。但我怀疑,事实恰恰相反。我们将越来越多地使用同一个、极其聪明的通用模型,来为我们处理那些看起来微不足道的小事。
因为当一个模型真正实现了自举,它就拥有了我们梦寐以求的终极能力:强大的常识和真正的理解力。
到那时,你不再需要一个专门用来“识别用户意图”的模型。因为那个超级模型在与你对话的第一个瞬间,就已经像一个经验丰富的人类助理一样,领会了你的意图。
想象一下这个场景:你对你的设备说,“下周我想去趟海边,帮我安排一下”。
今天的做法是什么?一个僵硬的“意图识别”模块会把你的话解析成“旅游规划”的标签,然后触发一个预设好的、充满表单的流程,让你去点击出发地、目的地、日期、预算……这个过程的每一步,都是我们事先定义好的脚手架。
而一个自举后的模型会怎么做?它会直接开始一场自然的对话。
“好的,听起来很棒!您是想在国内还是国外?喜欢热闹的海滩还是安静一点的?大概几天的行程?”
你回答:“就国内吧,找个清净点的地方,三四天就行。”
模型会继续:“明白了。根据您的位置和偏好,我推荐A、B、C三个地方。A地更原始自然,但交通稍有不便;B地设施完善,非常舒适;C地景色最美,但消费也最高。您对哪个更感兴趣?”
在这段对话中,模型在做什么?它在主动管理上下文,它在自我生成提示(向你提问),它在动态检索和筛选信息,它在进行多轮澄清。它一个人,就把我们今天需要用一整套“多智能体+RAG+提示工程”系统才能勉强实现的工作,以一种极其优雅、自然的方式完成了。
执行任务的过程,变成了一场与一个超级聪明的实习生的对话。我们不再是那个费力搭建脚手架的工程师,而只是那个提出最初想法的人。模型会自己处理所有中间的模糊地带,自己搞清楚如何从一个模糊的意图,走向一个具体的结果。
这才是真正的范式转移。我们今天投入巨大精力去做的那些“补丁”工作——意图识别、上下文填充、对话管理——最终都会被一个足够聪明的模型,在与你对话的瞬间,悄无声息地完成。
这并不意味着我们会无事可做。它只是把我们从繁琐的“如何做”中解放出来,让我们能专注于更重要的“做什么”。我们的角色将从一个啰嗦的微观管理者,变成一个只提出高层愿景的CEO。
我们正处在一个迷人而短暂的过渡期。我们建造的脚手架越高,就越能证明那座我们正在建造的大厦有多么宏伟。而当大厦最终封顶,并开始自我进化时,它会自己长出翅膀。我们今天所有的努力,都是在为那一刻的“自举”做准备。而我们必须明白,我们正在点的,是一条极速引信的导火索。