概览
- 1940s-1980s 的奠基性工作为神经网络奠定基础:感知机开创连接主义、反向传播解决多层训练、CNN 提出局部连接、Hopfield 网络融合物理学思想
- 大语言模型发展经历了从统计模型到神经网络的演变,最终在 2017 年 Transformer 架构诞生后迎来爆发
- GPT 系列模型的迭代史展现了语言模型从理解到生成的能力跃迁
- 2023-2024 年是多模态与智能体爆发期,Claude、GPT-4 等模型展现了强大推理能力
- 2025-2026 年,Vibe Coding、Agent Skills、Claude Cowork 等新范式正在重塑人机协作模式
- MCP(Model Context Protocol)等标准化协议让 AI 能够调用可组合、可复用的技能包,真正融入工作流
- 从 Scaling Laws、通用逼近定理等理论基础出发,论述了大模型技术路线的合理性
- 对比了人类学习模式与大模型的相似之处(经验积累、顿悟、举一反三)与关键区别(学习效率、具身经验、持续学习)
- 文末整理了《一个苦涩的教训》等经典著作与论文推荐,适合想深入了解的读者
前言
大语言模型(Large Language Model,LLM)这几年火得不行,GPT-3 横空出世让大家惊呼”卧槽这 AI 有点东西”,ChatGPT 直接出圈,再到后面 Claude、Gemini 各种神仙打架,新模型新功能层出不穷。不过这些技术到底是怎么一步步发展过来的?从最早期的 RNN、LSTM,到 Transformer 的横空出世,再到 GPT 系列的一路狂奔,中间其实有不少关键的转折点。这也是我计划开启的AI 入门系列教程的第一篇——先帮大家大致梳理 LLM 发展史上的那些真正重要的里程碑事件,让你能建立起一个相对完整的认知框架,而不会被各种技术术语和版本号搞得头晕眼花。哈哈,了解历史才能更好地理解现在嘛 (~ ̄▽ ̄)~
LLM的发展历史
奠基性工作:神经网络的前夜(1940s-1980s)
在大语言模型成为热点之前,神经网络的研究经历了一段漫长而曲折的探索历程。这段时期的工作,虽然在当时看来更像是”科学家的玩具”,但为后来的深度学习革命奠定了不可或缺的基础。
感知机时代:连接主义的起源
1943 年,Warren McCulloch 和 Walter Pitts 发表了《A Logical Calculus of Ideas Immanent in Nervous Activity》,首次提出了人工神经元的数学模型22。这篇论文用数学公式描述了生物神经元的工作方式,开创了”连接主义”人工智能的研究方向——即通过模拟神经元之间的连接来实现智能。
1957 年,Frank Rosenblatt 在康奈尔航空实验室发明了感知机(Perceptron)算法,并在 IBM 704 计算机上进行了首次模拟22。感知机是第一个可以从数据中学习的神经网络算法,它通过调整连接权重来学习分类任务。1960 年,美国海军资助建造了 Mark I 感知机——这是一台专门用于图像识别的硬件计算机,采用三层结构(400 个光敏电池作为感觉单元、512 个感知机作为联想单元、8 个输出感知机),后被美国国家图像解释中心用于军事目标识别22。当时的媒体对感知机寄予厚望,认为它可能是通向真正人工智能的突破口。
但好景不长。1969 年,Marvin Minsky 和 Seymour Papert 在《Perceptrons》一书中严格证明了单层感知机无法解决 XOR 等非线性可分问题22。这个发现对当时的研究热情是毁灭性打击——既然连最简单的异或(XOR)逻辑都学不会,感知机还能干什么?这本书直接导致了神经网络研究进入长达十年的”AI寒冬”,研究资金被削减,学者们纷纷转行。有趣的是,Minsky 后来承认,他在书中已经提出了”多层感知机”可能解决这个问题的设想,但受限于当时的计算能力,这个方向没有得到足够重视。
反向传播:多层网络的训练突破
感知机的局限性在于它只能训练单层网络,而解决复杂问题需要多层网络。但多层网络的训练面临一个核心难题:如何将输出层的误差”反向”传递到隐藏层,并调整每一层的权重? 这个问题困扰了研究者近二十年。
其实,反向传播的数学思想早在 1960 年代就已经出现雏形。1960 年,Henry J. Kelley 在最优控制理论中提出了类似的梯度计算方法;1970 年,Seppo Linnainmaa 发表了”自动微分的反向模式”,为现代反向传播奠定了数学基础23。但这些工作当时并没有与神经网络研究结合起来。
1974 年,Paul Werbos 在其博士论文中首次将反向传播应用于神经网络,但他的论文遭遇了发表困难——当时正值 AI寒冬,期刊编辑们对神经网络研究普遍不感兴趣23。直到 1982 年,Werbos 才成功发表应用,将反向传播标准化为现代形式。
真正让反向传播广为人知的,是 1986 年 David Rumelhart、Geoffrey Hinton 和 Ronald Williams 在 Nature 上发表的论文《Learning representations by back-propagating errors》23。这篇论文清晰地展示了如何将链式法则高效应用于多层网络,从输出层向输入层反向计算梯度。这就像在神经网络中安装了”误差回传”机制,让多层网络能够端到端地训练。Hinton 后来回忆说,当时很多人对反向传播持怀疑态度,认为它太简单了,不可能真的有效——但历史证明,简单往往是强大的开始。
反向传播的出现彻底解决了多层网络的训练难题,使深度学习成为可能。没有反向传播,就没有后来的 GPT、BERT、Transformer——可以说,它是现代深度学习的”引擎”。有意思的是,Hinton 在 2018 年获得图灵奖时,特别提到了这篇 1986 年的论文是他在神经网络领域”最有影响力”的工作。
卷积神经网络的萌芽
在反向传播解决多层网络训练问题的同时,另一个重要的发展方向是卷积神经网络(CNN)——它专门用于处理具有网格结构的数据,比如图像。
1959 年,神经科学家 David Hubel 和 Torsten Wiesel 发现猫的视觉皮层神经元具有”感受野”特性——每个神经元只对视野的小区域响应24。这个发现揭示了生物视觉系统的层级处理机制,后来两人因此获得诺贝尔生理学或医学奖。
1969 年,日本计算机科学家 Kunihiko Fukushima 受此启发提出了 Neocognitron,引入了卷积层和下采样层的概念24。这是 CNN 的雏形,但它当时没有使用反向传播训练,权重是手工设计的。1980 年,Fukushima 完善了 Neocognitron 的架构,但受限于当时的计算能力,这个开创性工作没有引起足够关注。
真正的突破发生在 1989 年。Yann LeCun 等人在贝尔实验室首次将反向传播应用于 CNN,提出了 LeNet-1 原型,用于识别美国邮政的手写邮政编码24。1990 年,LeCun 展示了减少自由参数数量(通过卷积的局部连接和权重共享)可以增强网络的泛化能力——这个思想至今仍是 CNN 设计的核心原则。
1998 年,LeNet-5 成熟,被 AT&T 用于识别银行支票上的手写数字24。它的架构已经非常”现代”:输入层(32×32 像素)→ 卷积层(6 个 5×5 特征图)→ 下采样层(2×2 平均池化)→ 卷积层(16 个 5×5 特征图)→ 下采样层 → 全连接层(84 个单元)→ 输出层(10 个类别)。LeNet-5 在 MNIST 数据集上的错误率仅 1% 左右,接近人类水平。但遗憾的是,当时 SVM 等传统机器学习方法在性能上更优,而且计算资源有限,CNN 没有成为主流。直到 2012 年 AlexNet 的出现,CNN 才迎来爆发——当然,那是另一个故事了。
值得一提的是,LeCun、Hinton 和 Yoshua Bengio 三人因在深度学习领域的奠基性贡献,共同获得了 2018 年图灵奖。他们被称为”深度学习教父”,但站在 2025 年的视角回望,他们的很多开创性工作其实可以追溯到 1980s 甚至更早。
Hopfield网络与Boltzmann机器
在感知机和反向传播之外,1980 年代还出现了另一条重要的研究方向:基于物理学的神经网络模型。
1982 年,物理学家 John Hopfield 发表了《Neural networks and physical systems with emergent collective computational abilities》25。他提出了 Hopfield 网络,这是一种递归神经网络,其理论基础来自统计物理学中的 Ising 模型和自旋玻璃理论。Hopfield 的核心创新是引入了能量函数的概念——每个网络状态都有一个对应的”能量”,网络在演化过程中会自动收敛到能量的局部最小值。这个特性让 Hopfield 网络可以用于内容寻址记忆:给你一个残缺的”记忆”,网络能自动”补全”它。想象一下,你看到一个人脸的局部特征,大脑能自动联想到完整的人脸——这就是 Hopfield 网络想模拟的功能。
1985 年,Geoffrey Hinton、Terry Sejnowski 和 David Ackley 发明了 Boltzmann 机器26。这是一种随机神经网络,每个神经元的状态由概率决定(遵循 Boltzmann 分布),以物理学家 Ludwig Boltzmann 命名。Boltzmann 机器的关键创新是使用对比散度学习算法,理论上可以学习任意复杂的概率分布。但它的训练非常耗时,因为需要大量的”采样”步骤。
后来,Hinton 提出了受限 Boltzmann 机(RBM)——限制层内连接,只允许可见层和隐藏层之间的连接26。这个改进使训练变得高效,而且可以堆叠多层,形成深度信念网络(DBN)。2006 年,Hinton 等人在 Science 上发表论文,展示了如何用 RBM 逐层预训练深度网络,这被认为是”深度学习突破”的开端27。虽然后来反向传播 + 随机初始化成为主流,但 RBM 的逐层预训练策略启发了现代的”预训练-微调”范式——而这也正是 GPT、BERT 等大模型的核心训练策略。
2024年诺贝尔物理学奖:对神经网络基础工作的认可
2024 年 10 月,诺贝尔物理学奖授予了 John Hopfield 和 Geoffrey Hinton,以表彰他们”在人工神经网络机器学习的基础发现和发明”28。这是诺贝尔物理学奖首次颁给 AI/机器学习领域,具有标志性意义。
Hopfield 的获奖理由是 Hopfield 网络——它展示了神经网络如何存储和重现信息,为理解记忆的物理机制提供了新框架。Hinton 的获奖理由是 Boltzmann 机器——它展示了神经网络如何学习并表征复杂模式,为现代深度学习奠定了基础。
这个奖项传达了一个重要信息:人工智能的研究已经深刻影响了多个学科,包括物理学。Hopfield 和 Hinton 的工作都深受物理学启发(Hopfield 网络来自统计物理,Boltzmann 机器来自热力学),而反过来,他们的工作又为物理学提供了新的研究工具——比如用神经网络模拟复杂系统、预测材料性质等。
站在 2025 年的视角回望,1940s-1980s 的这些奠基性工作,虽然在当时看来更像是”基础研究”而非”实用技术”,但它们为后来的深度学习革命提供了理论准备。感知机告诉我们”神经元可以学习”,反向传播告诉我们”多层网络可以训练”,CNN 告诉我们”局部连接很有效”,Hopfield 网络和Boltzmann机器告诉我们”物理学和 AI 可以融合”。没有这些”前夜”的探索,就不会有后来的”黎明”。
早期探索:从统计模型到神经网络
在大语言模型成为热点之前,深度学习在自然语言处理(NLP)领域就已经有了不少探索。2010 年代初期,循环神经网络(RNN) 和其改进版本 长短期记忆网络(LSTM) 是处理序列数据的主流选择1。LSTM 的发明者 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年就提出了这一架构,通过引入”门控机制”来解决 RNN 的梯度消失问题——你可以把它想象成给神经网络装上了”记忆阀门”,让它能自主决定记住什么、遗忘什么。它们通过”记住”之前的信息来理解上下文,比如预测句子中的下一个词。但 RNN 有个致命弱点:长距离依赖问题,当句子变长时,模型会”忘记”早期的信息——想象一下让你读一本超长的书,然后问你第一章的某个细节,你可能也记不清了,这就是 RNN 面临的困境。与此同时,2013 年 Tomas Mikolov 在 Google 领导团队发布的 Word2Vec 为这一困境带来了转机,这种将词语转换为向量的技术2核心思想在于语义相似的词在向量空间中距离更近,比如”国王”减去”男人”加上”女人”会得到”女王”,这种词嵌入(Word Embedding) 技术为后续的深度学习模型奠定了基础,让机器能真正”理解”词语之间的语义关系。
转折点:Transformer 的诞生
2017 年,Ashish Vaswani 等八位作者在 Google Brain 合作完成的论文《Attention Is All You Need》中提出了 Transformer 架构3,这可能是 NLP 领域最重要的论文之一。这篇论文有个有趣的背景:八位作者来自不同研究背景,共同的目标是打破 RNN 和 CNN 在序列建模上的垄断。Transformer 的核心创新是自注意力机制(Self-Attention),让模型在处理每个词时都能同时关注句子中的所有其他词,从而更精准地捕捉上下文关系;更重要的是,它抛弃了 RNN 的循环结构,可以并行处理整个序列,大大提升了训练效率,为后来超大模型的训练提供了技术可行性。Transformer 出现后很快就衍生出了两个主要方向:2018 年,Jacob Devlin 领导的 Google 团队发布了 BERT,一个双向编码器,擅长理解任务(如分类、问答)4;同年,Alec Radford 带领的 OpenAI 团队发布了 GPT,一个单向解码器,擅长生成任务(如写作、对话)5。你可以把 BERT 想象成一个”阅读理解高手”,而 GPT 则更像一个”创意写手”,这个分道扬镳的选择也为后来 GPT 系列的崛起埋下了伏笔。
GPT 时代:从理解到生成的跨越
GPT 系列的演进在 2019 年迎来了重要节点:OpenAI 发布了拥有 15 亿参数的 GPT-26,其生成能力之强让 OpenAI 最初拒绝发布完整版本,担心被用于生成虚假新闻或垃圾内容——这个决定当时引发了不小的争议,后来事实证明这种担忧可能有点过度了,但也反映了当时业界对 AI 生成能力的敬畏。仅仅一年后的 2020 年,GPT-3 横空出世,参数量飙升至 1750 亿19。与此同时,Jared Kaplan 等人在《Scaling Laws for Neural Language Models》中系统性总结了 Scaling Laws(规模定律):当模型规模、数据规模与计算规模协同增长时,模型性能会呈现可预测的提升趋势7。GPT-3 的出现把这条路线推到了大众视野:随着规模扩大,模型在多任务、少样本(few-shot)等设置下的表现显著增强19。当然,关于“能力涌现”与“推理能力”的边界,学术界一直有争论,但可以确定的是:从 GPT-3 开始,大家第一次在“通用文本模型”身上看到了某种跨任务迁移的味道。
ChatGPT 时刻:AI 走进大众视野
2022 年 11 月 30 日,OpenAI 发布基于 GPT-3.5 架构的 ChatGPT8,它的发布可以称得上是 AI 发展史的”iPhone 时刻”——突然之间,AI 不再是实验室里的玩具,而是每个人都能使用的工具。ChatGPT 的成功,除了模型本身的能力外,还离不开 InstructGPT 工作中系统化推广的 RLHF(基于人类反馈的强化学习) 对齐路线9——通过人类偏好数据来约束与引导输出,让它更”听话”;以及对话式交互的产品形态,让用户能自然地与 AI 交流,而不是写代码调用 API。仅仅几个月后的 2023 年 3 月,OpenAI 发布了 GPT-4 技术报告,并展示了更强的通用能力,以及在 GPT 系列中引入图像输入能力的尝试10。GPT-4 在一些专业考试类基准上表现突出,也推动了“通用助手”这一产品形态加速落地。
百家争鸣:Claude、Gemini 与开源浪潮
2023 年,由前 OpenAI 员工 Dario Amodei 和 Daniela Amodei 兄妹创办的 Anthropic 发布了 Claude 系列11。这对兄妹曾是 OpenAI 的核心成员,因为对 AI 安全和发展理念的分歧选择离开,创立了以”宪法式 AI”为核心理念的新公司。与 OpenAI 的”黑盒”路线不同,Claude 采用了宪法式 AI(Constitutional AI) 的方法,通过预设原则来引导模型行为,强调安全性和可控性。Claude 以其长上下文窗口(从 100K 发展到 200K token)和更自然的对话风格赢得了大量用户,2024 年发布的 Claude 3 系列在 Anthropic 给出的多项评测中与当时的顶级模型旗鼓相当,甚至在部分指标上超过12。与此同时,Google 在 2023 年底发布了 Gemini 系列,并将其定位为原生多模态模型——从一开始就是为理解文本、图像、音频、视频等多种模态而设计的13。与“先做纯文本、再加多模态能力”的路线相比,Gemini 从底层架构就强调多模态信息的融合,这让它处理复杂任务时更加游刃有余(至少从官方叙事上是这样)。
GPT-4 发布后,OpenAI 选择了完全闭源的路线,但这反而激发了开源社区的活力。在 Meta,Yann LeCun 作为“开放研究”路线的长期支持者之一,推动了 Llama 系列的开放。从 Llama 1 到 Llama 3,开源模型的能力越来越强,Llama 3-70B 在多个公开评测中进入开源第一梯队14。在欧洲,Mistral AI 由前 DeepMind 和 Meta 研究员 Arthur Mensch 等人创立,他们的 Mistral 系列以高效架构著称,Mistral 7B 以小参数量达到了惊艳效果15。中国力量也不容小觑:文心一言、通义千问、GLM、DeepSeek 等模型体系都在快速追赶。2024 年前后,开源模型与闭源模型的差距在不少任务上持续缩小,这为 AI 的“民主化”带来了希望。
智能体时代:从对话到行动
2023-2024 年,AI 的进化还在继续,但焦点已经从”聊天”转向了”做事”——AI Agent(智能体) 的概念兴起,模型不仅能理解和生成,还能规划任务、使用工具、与环境交互。AutoGPT、BabyAGI 等项目尝试让 AI 自主完成复杂任务,虽然早期的 Agent 项目大多还停留在实验阶段,但这个方向被认为是通向 AGI 的关键路径之一。
时间来到 2025-2026 年,AI 与编程的融合正在进入一个全新的阶段。Vibe Coding 是一种新兴的编程范式,核心思想是:程序员不再直接编写每一行代码,而是通过与 AI 的对话来描述需求,由 AI 生成和修改代码16。这个概念的兴起,得益于几个因素:GPT-4、Claude 3.5 等模型的代码生成能力成熟化,已经能够生成高质量、可运行的代码;上下文窗口大幅扩展,模型能理解整个项目的代码库,而不是单个文件;以及工具链完善,Cursor、Windsurf 等 AI 原生编辑器的出现,让 Vibe Coding 有了最佳载体。在 Vibe Coding 模式下,程序员的角色从”代码编写者”转变为”需求描述者”和”代码审查者”,这听起来有点像是在”管理 AI 员工”,哈哈。
更重要的是,Agent Skills(智能体技能)系统的成熟为 AI 实际落地提供了关键支撑。通过 MCP(Model Context Protocol,模型上下文协议) 等标准化协议,AI 可以调用可组合、可复用的技能包——从文档处理、图片格式转换到代码审查、文献综述,每个 Skill 都是一个完整的能力单元21。这种”插件式”的架构,让 AI 不再局限于聊天框里,而是能够真正融入工作流、执行具体任务。与此同时,多代理协作(Multi-Agent Orchestration)模式也日趋成熟:不同的 AI Agent 可以并行工作、各司其职——有的负责规划任务分解,有的负责代码实现,有的负责测试验证。这种”分工协作”的模式,比单一 Agent 更接近真实团队的工作方式,也让复杂任务的自动化成为可能。
与此同时,Claude Cowork 作为 Claude 官方产品线中的一个方向,让 Claude 能够更深入地参与到”实际工作流”里17。与传统 AI 助手只停留在”对话回答”不同,这类产品更强调持续协作:更好地理解上下文、在多个步骤里保持一致性、以及把建议落实到具体操作上。这种”伙伴式”的协作模式,让 AI 不再只是工具,而更像是一个有经验的同事。Vibe Coding、Agent Skills 和 Claude Cowork 代表了一个更大的趋势:编程正在从”人指挥机器”转向”人机协作”——这不是要取代程序员,而是改变程序员的工作方式。未来的程序员可能需要更强的需求分析和沟通能力、更好的代码审查和品味判断、更深的系统设计和架构能力,而那些重复性、模式化的编码工作,则可以放心地交给 AI。
为什么大模型这条路可能是对的?
聊完发展史,我想你可能会有个疑问:大模型这个技术路线,真的就是通向 AGI 的正确道路吗?毕竟看起来它只是”疯狂堆参数、堆数据”,有点简单粗暴的味道。
哈哈,这个问题问得好。让我尝试从理论基础和人类学习模式两个角度来聊聊这个话题。
理论基础:为什么”大力”能”出奇迹”?
2020 年,Jared Kaplan 等人在《Scaling Laws for Neural Language Models》中系统性地总结了 Scaling Laws7,简单来说,他们发现:当模型的参数量、数据量、计算量协同增长时,模型的性能会呈现出可预测的提升趋势。更重要的是,很多能力并不是“线性变强”,而可能在某个规模区间出现明显跃迁——学术上常用”能力涌现”(Emergence)来描述这种现象,但“涌现”到底是什么、如何定义、是否只是评测与度量方式造成的错觉,至今仍有争论。这种讨论背后的直觉是:语言本身就蕴含着世界的压缩表示,当你读的书够多、见的世面够广,你自然会对”因果关系”、”逻辑推理”、”社会常识”等概念形成某种”隐性理解”,大模型通过海量文本训练,某种程度上也是在”学习世界的压缩表示”。
从神经网络的理论基础来看,早在 1989 年就被证明的通用逼近定理告诉我们:一个足够大的前馈神经网络可以以任意精度逼近任何连续函数。这个定理给了一个重要的理论保证:只要模型够大、数据够多,神经网络原则上可以学习任何复杂的映射关系。大模型可以看作是这个定理在自然语言处理领域的”大规模实践验证”——它证明了通过扩大规模,神经网络确实能学到超乎想象的复杂能力。
Ilya Sutskever(OpenAI 联合创始人)曾提出过一个观点:压缩即智能,这个想法的直觉是:如果你能完美地预测下一个 token,那你一定”理解”了数据背后的生成机制。举个例子,为什么人类能理解”国王 – 男人 + 女人 = 女王”?因为我们在大脑中对”国王”、”女王”、”男人”、”女人”这些概念建立了某种”语义向量空间”的表示。而 Word2Vec、GPT 等模型通过大规模文本训练,也自发地学到了类似的表示——这并非人工设计,而是”压缩”海量信息后的自然涌现。
与人类学习的相似之处
人类学习最重要的方式之一就是从经验中积累——读万卷书、行万里路,大模型的预训练过程某种程度上就是在”读万卷书”,它阅读了互联网上几乎所有的公开文本,学习了人类知识的一个”相当完整的子集”。这种学习方式和人类的”广泛阅读”非常相似,一个博学的人往往读过很多书,接触过不同领域的知识,因此能举一反三、融会贯通,大模型通过海量文本训练,也展现出类似的”跨领域迁移能力”。人类学习中还有一种”顿悟”现象:你学了很多东西,一开始感觉杂乱无章,但某个时刻突然”豁然开朗”,所有知识点串联起来了。大模型的”能力涌现”与此类似——当模型规模达到某个临界值时,它会突然展现出推理、代码生成等能力。这种现象暗示:智能可能不是”渐进式”的,而是”累积后突然跃迁”的,这为”继续扩大规模”提供了某种信心——也许下一个临界点,就会出现更接近人类智能的跃迁。
GPT-3 展现的”少样本学习”(Few-shot Learning)能力,和人类的”举一反三”非常相似,给你几个例子,你就能理解新任务;给 GPT-3 几个示例,它也能快速适应。这种”从少量例子中快速学习”的能力,被认为是通用智能的重要标志之一。大模型能做到这一点,说明它学到的不是”死记硬背”的模式匹配,而是某种更深层的”抽象能力”。
与人类学习的关键区别
人类学习非常高效,一个小孩看几次猫就能认出所有猫,读几本名著就能写出不错的作文,但 GPT-3 需要阅读几千亿个 token 才能达到类似的效果——这种效率差距是巨大的。这说明:人类大脑的”学习算法”比当前的神经网络要高效得多,也许我们还没有找到正确的架构设计,或者人脑有某种”先验知识”(比如进化带来的结构偏好),让学习效率大大提升。人类学习还是”具身”(embodied)的——我们通过看、听、触摸、运动等感官与世界交互,建立对物理世界的认知。但大模型的学习是”纯符号”的,它只见过文本,从未真正”体验”过世界。这导致大模型在某些需要物理常识的任务上表现不佳,比如”左手能摸到右手吗?”这种对人类来说显而易见的问题,大模型可能会出错。这说明:也许真正的智能需要”接地气”,需要与物理世界的交互经验。此外,人类可以持续学习——今天学到的东西,明天就能用上;终身都在不断更新认知。但当前的大模型是”一次性训练”的——训练完成后,模型参数就固定了,无法从新经验中学习(除非重新训练)。这种差异让大模型在面对”时间敏感”的信息时显得笨拙(比如它不知道今天发生的新闻),不过,这个问题可能通过 RAG(检索增强生成)等方法部分解决。
一个平衡的视角
聊到这里,我想表达的是:大模型这条路可能是对的,但未必是唯一或终极的答案。从理论基础来看,Scaling Laws、通用逼近定理、压缩即智能等观点,都为”扩大规模”提供了某种理论支撑;从与人类学习的相似性来看,大模型确实展现出了某种”通用学习能力”——这让人看到了 AGI 的曙光。但同时,人类学习的高效性、具身性、持续学习能力,也指出了当前大模型的局限性。也许未来的突破方向会包括:更高效的架构设计以减少对数据量的依赖、多模态融合让模型”看”到世界而不只是”读”到世界、以及持续学习机制让模型能从新经验中不断进化。哈哈,写到这里,我突然想到 Rich Sutton 在《一个苦涩的教训》里的话:“从长远来看,利用通用计算能力的方法,总是能战胜那些利用人类领域知识的方法”。也许大模型就是那个”通用计算能力”的当前最佳实践,而它的局限,正等待下一个突破来超越。
延伸阅读:经典著作与论文推荐
如果你想更深入地了解 AI 发展的历史脉络和核心思想,下面这些资源值得一看。哈哈,有些可能有点”年代久远”,但经典的魅力就在于历久弥新嘛。
《一个苦涩的教训》(The Bitter Lesson)- Rich Sutton (2019)
这篇文章可以说是 AI 领域的”必读经典”之一18。Sutton 是强化学习的大佬,他在文章中提出了一个看似反直觉但又被反复验证的观点:从长远来看,利用通用计算能力(如大规模搜索和学习)的方法,总是能战胜那些利用人类领域知识的方法。说人话就是:别试图把人类对问题的理解”硬编码”进 AI 里,让模型自己去学往往效果更好。这个观点完美解释了为什么 GPT-3 这样的”大力出奇迹”模型能如此成功——它没被预设太多语言学知识,纯粹靠海量数据学出来的。文章标题叫”苦涩的教训”,是因为这个规律对研究者来说有点打击人:我们精心设计的各种先验知识,最后都被规模更大的通用模型给超越掉了。哈哈,但承认现实总是进步的第一步嘛。
《Attention Is All You Need》- Vaswani et al. (2017)
这篇论文不用多说了,Transformer 的开山之作3。虽然现在看来可能觉得”不就是个注意力机制嘛”,但在 2017 年这篇论文出来的时候,”完全抛弃 RNN 和 CNN,只用注意力”的想法是非常大胆的。如果你想理解现代大语言模型的根基,这篇论文值得精读,尤其是对自注意力机制的数学推导,看懂了之后对理解后续各种改进(比如 GPT 的因果掩码、BERT 的双向掩码)会很有帮助。
《Language Models are Few-Shot Learners》- Brown et al. (2020)
这就是 GPT-3 的论文了19。这篇论文最重要的贡献之一不是“列功能清单”,而是系统性展示了 GPT-3 在 few-shot(乃至 zero-shot)设置下的能力,并把 in-context learning 这条线带进了大众视野。至于 scaling laws,它更像是对 Kaplan 等人工作7在更大规模上的一次“工程级演示”:你能看到随着规模提升,很多任务的表现持续改善,同时也能看到模型在某些任务上的局限。到今天,这种“不给明确指令,只给几个例子就能做事”的能力,依然是大模型研究的热点。
《Training language models to follow instructions with human feedback》- Ouyang et al. (2022)
这篇是 InstructGPT(ChatGPT 的前身)的论文9。它详细介绍了 RLHF(基于人类反馈的强化学习)是如何让一个”啥都敢说”的基础模型,变成一个”相对听话”的对话助手的。如果你想理解为什么 ChatGPT 能”懂你想要什么”,这篇论文是关键。它展示了三个阶段的训练流程:有监督微调 → 奖励模型训练 → PPO 强化学习,这套流程现在基本上成了对齐大模型的”标准操作”。
《Constitutional AI: Harmlessness from AI Feedback》- Anthropic (2022)
这篇论文介绍了 Claude 系列背后的”宪法式 AI”方法20。跟 OpenAI 的 RLHF 不同,Anthropic 尝试让模型根据一套”宪法”(原则列表)来自我改进,而不是完全依赖人类反馈。这种方法的优势在于可扩展性和可解释性——你可以明确告诉模型”什么是好的,什么是坏的”,而不是通过大量人工标注来隐式地传达这些信息。对于关注 AI 安全的朋友来说,这篇论文值得一看。
小结
回顾大语言模型的发展史,有几个关键节点值得记住:1940s-1980s 奠基性工作为神经网络奠定基础(感知机、反向传播、CNN、Hopfield 网络)、1990s-2010s LSTM 和 Word2Vec 等技术为 NLP 领域积累经验、2017 年 Transformer 架构诞生为大规模预训练奠定基础、2020 年 GPT-3 的发布把”规模化预训练 + few-shot/in-context learning”推到大众视野、2022 年 ChatGPT 发布让 AI 走进大众视野、2023-2024 年多模态爆发与开源崛起带来百家争鸣时代、2025-2026 年 Vibe Coding、Claude Cowork 等新范式开始重塑人机协作模式。
站在 2025-2026 年的视角回望,大模型的发展路径已经初步证明了”大力出奇迹”的可行性,但也暴露出明显的局限——学习效率低下、缺乏具身经验、无法持续学习。未来的突破可能不会来自简单的规模扩张,而需要架构层面的革新。多模态融合正在让 AI 从”读世界”进化到”看世界”,具身智能的探索可能会赋予 AI 物理世界的交互经验,而持续学习机制的突破则有望解决模型僵化的问题。
技术发展的速度似乎还在加快,我们正处在一个激动人心的时代。作为普通人,最好的策略可能是:保持好奇心,主动学习,与 AI 共舞,而不是被它淘汰。AI 不会取代人类,但”会用 AI 的人”可能会取代”不会用 AI 的人”。未来的核心竞争力不再是知识的存储量,而是提出好问题的能力、判断信息真伪的能力、以及整合 AI 工具解决复杂问题的创造力。
哈哈,写到这里,我突然想到:几年后回看这篇文章,可能又会觉得”那个时候的 AI 真是原始”。但那正是技术进步的魅力所在——今天的”先进”,就是明天的”基础”。而在通往 AGI 的路上,我们每个人既是见证者,也是参与者。
参考文献
- Wikipedia – Long short-term memory. https://en.wikipedia.org/wiki/Long_short-term_memory
- Wikipedia – Perceptron. https://en.wikipedia.org/wiki/Perceptron
- Wikipedia – Backpropagation. https://en.wikipedia.org/wiki/Backpropagation
- Wikipedia – Convolutional neural network. https://en.wikipedia.org/wiki/Convolutional_neural_network
- Wikipedia – Hopfield network. https://en.wikipedia.org/wiki/Hopfield_network
- Wikipedia – Boltzmann machine. https://en.wikipedia.org/wiki/Boltzmann_machine
- Hinton et al. – A Fast Learning Algorithm for Deep Belief Nets. Science, 2006. PDF 原文
- Nobel Prize – The Nobel Prize in Physics 2024. https://www.nobelprize.org/prizes/physics/2024/summary/
- Google Code – word2vec: Tool for computing distributed representations of words. https://code.google.com/archive/p/word2vec/
- Vaswani et al. – Attention Is All You Need. arXiv:1706.03762. https://arxiv.org/abs/1706.03762
- Google AI Blog – Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
- Radford et al. – Improving Language Understanding by Generative Pre-Training. PDF 原文
- OpenAI – Language Models are Unsupervised Multitask Learners (GPT-2 Report). PDF 原文
- Kaplan et al. – Scaling Laws for Neural Language Models. arXiv:2001.08361. https://arxiv.org/abs/2001.08361
- Wikipedia – ChatGPT. https://en.wikipedia.org/wiki/ChatGPT
- Ouyang et al. – Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155
- OpenAI – GPT-4 Technical Report. arXiv:2303.08774. https://arxiv.org/abs/2303.08774
- Anthropic – Introducing Claude. https://www.anthropic.com/news/introducing-claude
- Anthropic – Claude 3 Model Family. https://www.anthropic.com/index/claude-3-family
- Google – Introducing Gemini: our largest and most capable AI model. https://blog.google/technology/ai/google-gemini-ai/
- Meta AI – Llama 3 Model Card. https://llama.meta.com/llama3/
- Mistral AI – Mistral 7B. https://mistral.ai/news/announcing-mistral-7b/
- 本站文章 – Claude Code 和 Claude Skills 的工程设计. https://blognas.hwb0307.com/skill/6689
- Claude – Cowork. https://claude.com/product/cowork
- Rich Sutton – The Bitter Lesson. http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Brown et al. – Language Models are Few-Shot Learners. arXiv:2005.14165. https://arxiv.org/abs/2005.14165
- Anthropic – Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073
- Model Context Protocol – MCP Specification. https://modelcontextprotocol.io/introduction
---------------
完结,撒花!如果您点一下广告,可以养活苯苯😍😍😍