本文最后更新于 27 天前，如有失效请评论区留言。

本博客由AI模型商OhMyGPT强力驱动！如何更快地访问本站？有需要可加电报群获得更多帮助。本博客用什么VPS？创作不易，请支持苯苯！推荐购买本博客的VIP喔，10元/年即可畅享所有VIP专属内容！

概览

1940s-1980s 的奠基性工作为神经网络奠定基础：感知机开创连接主义、反向传播解决多层训练、CNN 提出局部连接、Hopfield 网络融合物理学思想
大语言模型发展经历了从统计模型到神经网络的演变，最终在 2017 年 Transformer 架构诞生后迎来爆发
GPT 系列模型的迭代史展现了语言模型从理解到生成的能力跃迁
2023-2024 年是多模态与智能体爆发期，Claude、GPT-4 等模型展现了强大推理能力
2025-2026 年，Vibe Coding、Agent Skills、Claude Cowork 等新范式正在重塑人机协作模式
MCP（Model Context Protocol）等标准化协议让 AI 能够调用可组合、可复用的技能包，真正融入工作流
从 Scaling Laws、通用逼近定理等理论基础出发，论述了大模型技术路线的合理性
对比了人类学习模式与大模型的相似之处（经验积累、顿悟、举一反三）与关键区别（学习效率、具身经验、持续学习）
文末整理了《一个苦涩的教训》等经典著作与论文推荐，适合想深入了解的读者

前言

大语言模型（Large Language Model，LLM）这几年火得不行，GPT-3 横空出世让大家惊呼”卧槽这 AI 有点东西”，ChatGPT 直接出圈，再到后面 Claude、Gemini 各种神仙打架，新模型新功能层出不穷。不过这些技术到底是怎么一步步发展过来的？从最早期的 RNN、LSTM，到 Transformer 的横空出世，再到 GPT 系列的一路狂奔，中间其实有不少关键的转折点。这也是我计划开启的AI 入门系列教程的第一篇——先帮大家大致梳理 LLM 发展史上的那些真正重要的里程碑事件，让你能建立起一个相对完整的认知框架，而不会被各种技术术语和版本号搞得头晕眼花。哈哈，了解历史才能更好地理解现在嘛 (～￣▽￣)～

B站教学视频：

LLM的发展历史

奠基性工作：神经网络的前夜（1940s-1980s）

在大语言模型成为热点之前，神经网络的研究经历了一段漫长而曲折的探索历程。这段时期的工作，虽然在当时看来更像是”科学家的玩具”，但为后来的深度学习革命奠定了不可或缺的基础。

感知机时代：连接主义的起源

1943 年，Warren McCulloch 和 Walter Pitts 发表了《A Logical Calculus of Ideas Immanent in Nervous Activity》，首次提出了人工神经元的数学模型²²。这篇论文用数学公式描述了生物神经元的工作方式，开创了”连接主义”人工智能的研究方向——即通过模拟神经元之间的连接来实现智能。

1957 年，Frank Rosenblatt 在康奈尔航空实验室发明了感知机（Perceptron）算法，并在 IBM 704 计算机上进行了首次模拟²²。感知机是第一个可以从数据中学习的神经网络算法，它通过调整连接权重来学习分类任务。1960 年，美国海军资助建造了 Mark I 感知机——这是一台专门用于图像识别的硬件计算机，采用三层结构（400 个光敏电池作为感觉单元、512 个感知机作为联想单元、8 个输出感知机），后被美国国家图像解释中心用于军事目标识别²²。当时的媒体对感知机寄予厚望，认为它可能是通向真正人工智能的突破口。

但好景不长。1969 年，Marvin Minsky 和 Seymour Papert 在《Perceptrons》一书中严格证明了单层感知机无法解决 XOR 等非线性可分问题²²。这个发现对当时的研究热情是毁灭性打击——既然连最简单的异或（XOR）逻辑都学不会，感知机还能干什么？这本书直接导致了神经网络研究进入长达十年的”AI寒冬”，研究资金被削减，学者们纷纷转行。有趣的是，Minsky 后来承认，他在书中已经提出了”多层感知机”可能解决这个问题的设想，但受限于当时的计算能力，这个方向没有得到足够重视。

反向传播：多层网络的训练突破

感知机的局限性在于它只能训练单层网络，而解决复杂问题需要多层网络。但多层网络的训练面临一个核心难题：如何将输出层的误差”反向”传递到隐藏层，并调整每一层的权重？ 这个问题困扰了研究者近二十年。

其实，反向传播的数学思想早在 1960 年代就已经出现雏形。1960 年，Henry J. Kelley 在最优控制理论中提出了类似的梯度计算方法；1970 年，Seppo Linnainmaa 发表了”自动微分的反向模式”，为现代反向传播奠定了数学基础²³。但这些工作当时并没有与神经网络研究结合起来。

1974 年，Paul Werbos 在其博士论文中首次将反向传播应用于神经网络，但他的论文遭遇了发表困难——当时正值 AI寒冬，期刊编辑们对神经网络研究普遍不感兴趣²³。直到 1982 年，Werbos 才成功发表应用，将反向传播标准化为现代形式。

真正让反向传播广为人知的，是 1986 年 David Rumelhart、Geoffrey Hinton 和 Ronald Williams 在 Nature 上发表的论文《Learning representations by back-propagating errors》²³。这篇论文清晰地展示了如何将链式法则高效应用于多层网络，从输出层向输入层反向计算梯度。这就像在神经网络中安装了”误差回传”机制，让多层网络能够端到端地训练。Hinton 后来回忆说，当时很多人对反向传播持怀疑态度，认为它太简单了，不可能真的有效——但历史证明，简单往往是强大的开始。

反向传播的出现彻底解决了多层网络的训练难题，使深度学习成为可能。没有反向传播，就没有后来的 GPT、BERT、Transformer——可以说，它是现代深度学习的”引擎”。有意思的是，Hinton 在 2018 年获得图灵奖时，特别提到了这篇 1986 年的论文是他在神经网络领域”最有影响力”的工作。

卷积神经网络的萌芽

在反向传播解决多层网络训练问题的同时，另一个重要的发展方向是卷积神经网络（CNN）——它专门用于处理具有网格结构的数据，比如图像。

1959 年，神经科学家 David Hubel 和 Torsten Wiesel 发现猫的视觉皮层神经元具有”感受野”特性——每个神经元只对视野的小区域响应²⁴。这个发现揭示了生物视觉系统的层级处理机制，后来两人因此获得诺贝尔生理学或医学奖。

1969 年，日本计算机科学家 Kunihiko Fukushima 受此启发提出了 Neocognitron，引入了卷积层和下采样层的概念²⁴。这是 CNN 的雏形，但它当时没有使用反向传播训练，权重是手工设计的。1980 年，Fukushima 完善了 Neocognitron 的架构，但受限于当时的计算能力，这个开创性工作没有引起足够关注。

真正的突破发生在 1989 年。Yann LeCun 等人在贝尔实验室首次将反向传播应用于 CNN，提出了 LeNet-1 原型，用于识别美国邮政的手写邮政编码²⁴。1990 年，LeCun 展示了减少自由参数数量（通过卷积的局部连接和权重共享）可以增强网络的泛化能力——这个思想至今仍是 CNN 设计的核心原则。

1998 年，LeNet-5 成熟，被 AT&T 用于识别银行支票上的手写数字²⁴。它的架构已经非常”现代”：输入层（32×32 像素）→ 卷积层（6 个 5×5 特征图）→ 下采样层（2×2 平均池化）→ 卷积层（16 个 5×5 特征图）→ 下采样层 → 全连接层（84 个单元）→ 输出层（10 个类别）。LeNet-5 在 MNIST 数据集上的错误率仅 1% 左右，接近人类水平。但遗憾的是，当时 SVM 等传统机器学习方法在性能上更优，而且计算资源有限，CNN 没有成为主流。直到 2012 年 AlexNet 的出现，CNN 才迎来爆发——当然，那是另一个故事了。

值得一提的是，LeCun、Hinton 和 Yoshua Bengio 三人因在深度学习领域的奠基性贡献，共同获得了 2018 年图灵奖。他们被称为”深度学习教父”，但站在 2025 年的视角回望，他们的很多开创性工作其实可以追溯到 1980s 甚至更早。

Hopfield网络与Boltzmann机器

在感知机和反向传播之外，1980 年代还出现了另一条重要的研究方向：基于物理学的神经网络模型。

1982 年，物理学家 John Hopfield 发表了《Neural networks and physical systems with emergent collective computational abilities》²⁵。他提出了 Hopfield 网络，这是一种递归神经网络，其理论基础来自统计物理学中的 Ising 模型和自旋玻璃理论。Hopfield 的核心创新是引入了能量函数的概念——每个网络状态都有一个对应的”能量”，网络在演化过程中会自动收敛到能量的局部最小值。这个特性让 Hopfield 网络可以用于内容寻址记忆：给你一个残缺的”记忆”，网络能自动”补全”它。想象一下，你看到一个人脸的局部特征，大脑能自动联想到完整的人脸——这就是 Hopfield 网络想模拟的功能。

1985 年，Geoffrey Hinton、Terry Sejnowski 和 David Ackley 发明了 Boltzmann 机器²⁶。这是一种随机神经网络，每个神经元的状态由概率决定（遵循 Boltzmann 分布），以物理学家 Ludwig Boltzmann 命名。Boltzmann 机器的关键创新是使用对比散度学习算法，理论上可以学习任意复杂的概率分布。但它的训练非常耗时，因为需要大量的”采样”步骤。

后来，Hinton 提出了受限 Boltzmann 机（RBM）——限制层内连接，只允许可见层和隐藏层之间的连接²⁶。这个改进使训练变得高效，而且可以堆叠多层，形成深度信念网络（DBN）。2006 年，Hinton 等人在 Science 上发表论文，展示了如何用 RBM 逐层预训练深度网络，这被认为是”深度学习突破”的开端²⁷。虽然后来反向传播 + 随机初始化成为主流，但 RBM 的逐层预训练策略启发了现代的”预训练-微调”范式——而这也正是 GPT、BERT 等大模型的核心训练策略。

2024年诺贝尔物理学奖：对神经网络基础工作的认可

2024 年 10 月，诺贝尔物理学奖授予了 John Hopfield 和 Geoffrey Hinton，以表彰他们”在人工神经网络机器学习的基础发现和发明”²⁸。这是诺贝尔物理学奖首次颁给 AI/机器学习领域，具有标志性意义。

Hopfield 的获奖理由是 Hopfield 网络——它展示了神经网络如何存储和重现信息，为理解记忆的物理机制提供了新框架。Hinton 的获奖理由是 Boltzmann 机器——它展示了神经网络如何学习并表征复杂模式，为现代深度学习奠定了基础。

这个奖项传达了一个重要信息：人工智能的研究已经深刻影响了多个学科，包括物理学。Hopfield 和 Hinton 的工作都深受物理学启发（Hopfield 网络来自统计物理，Boltzmann 机器来自热力学），而反过来，他们的工作又为物理学提供了新的研究工具——比如用神经网络模拟复杂系统、预测材料性质等。

站在 2025 年的视角回望，1940s-1980s 的这些奠基性工作，虽然在当时看来更像是”基础研究”而非”实用技术”，但它们为后来的深度学习革命提供了理论准备。感知机告诉我们”神经元可以学习”，反向传播告诉我们”多层网络可以训练”，CNN 告诉我们”局部连接很有效”，Hopfield 网络和Boltzmann机器告诉我们”物理学和 AI 可以融合”。没有这些”前夜”的探索，就不会有后来的”黎明”。

早期探索：从统计模型到神经网络

在大语言模型成为热点之前，深度学习在自然语言处理（NLP）领域就已经有了不少探索。2010 年代初期，循环神经网络（RNN） 和其改进版本 长短期记忆网络（LSTM） 是处理序列数据的主流选择¹。LSTM 的发明者 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年就提出了这一架构，通过引入”门控机制”来解决 RNN 的梯度消失问题——你可以把它想象成给神经网络装上了”记忆阀门”，让它能自主决定记住什么、遗忘什么。它们通过”记住”之前的信息来理解上下文，比如预测句子中的下一个词。但 RNN 有个致命弱点：长距离依赖问题，当句子变长时，模型会”忘记”早期的信息——想象一下让你读一本超长的书，然后问你第一章的某个细节，你可能也记不清了，这就是 RNN 面临的困境。与此同时，2013 年 Tomas Mikolov 在 Google 领导团队发布的 Word2Vec 为这一困境带来了转机，这种将词语转换为向量的技术²核心思想在于语义相似的词在向量空间中距离更近，比如”国王”减去”男人”加上”女人”会得到”女王”，这种词嵌入（Word Embedding） 技术为后续的深度学习模型奠定了基础，让机器能真正”理解”词语之间的语义关系。

转折点：Transformer 的诞生

2017 年，Ashish Vaswani 等八位作者在 Google Brain 合作完成的论文《Attention Is All You Need》中提出了 Transformer 架构³，这可能是 NLP 领域最重要的论文之一。这篇论文有个有趣的背景：八位作者来自不同研究背景，共同的目标是打破 RNN 和 CNN 在序列建模上的垄断。Transformer 的核心创新是自注意力机制（Self-Attention），让模型在处理每个词时都能同时关注句子中的所有其他词，从而更精准地捕捉上下文关系；更重要的是，它抛弃了 RNN 的循环结构，可以并行处理整个序列，大大提升了训练效率，为后来超大模型的训练提供了技术可行性。Transformer 出现后很快就衍生出了两个主要方向：2018 年，Jacob Devlin 领导的 Google 团队发布了 BERT，一个双向编码器，擅长理解任务（如分类、问答）⁴；同年，Alec Radford 带领的 OpenAI 团队发布了 GPT，一个单向解码器，擅长生成任务（如写作、对话）⁵。你可以把 BERT 想象成一个”阅读理解高手”，而 GPT 则更像一个”创意写手”，这个分道扬镳的选择也为后来 GPT 系列的崛起埋下了伏笔。

GPT 时代：从理解到生成的跨越

GPT 系列的演进在 2019 年迎来了重要节点：OpenAI 发布了拥有 15 亿参数的 GPT-2⁶，其生成能力之强让 OpenAI 最初拒绝发布完整版本，担心被用于生成虚假新闻或垃圾内容——这个决定当时引发了不小的争议，后来事实证明这种担忧可能有点过度了，但也反映了当时业界对 AI 生成能力的敬畏。仅仅一年后的 2020 年，GPT-3 横空出世，参数量飙升至 1750 亿¹⁹。与此同时，Jared Kaplan 等人在《Scaling Laws for Neural Language Models》中系统性总结了 Scaling Laws（规模定律）：当模型规模、数据规模与计算规模协同增长时，模型性能会呈现可预测的提升趋势⁷。GPT-3 的出现把这条路线推到了大众视野：随着规模扩大，模型在多任务、少样本（few-shot）等设置下的表现显著增强¹⁹。当然，关于“能力涌现”与“推理能力”的边界，学术界一直有争论，但可以确定的是：从 GPT-3 开始，大家第一次在“通用文本模型”身上看到了某种跨任务迁移的味道。

ChatGPT 时刻：AI 走进大众视野

2022 年 11 月 30 日，OpenAI 发布基于 GPT-3.5 架构的 ChatGPT⁸，它的发布可以称得上是 AI 发展史的”iPhone 时刻”——突然之间，AI 不再是实验室里的玩具，而是每个人都能使用的工具。ChatGPT 的成功，除了模型本身的能力外，还离不开 InstructGPT 工作中系统化推广的 RLHF（基于人类反馈的强化学习） 对齐路线⁹——通过人类偏好数据来约束与引导输出，让它更”听话”；以及对话式交互的产品形态，让用户能自然地与 AI 交流，而不是写代码调用 API。仅仅几个月后的 2023 年 3 月，OpenAI 发布了 GPT-4 技术报告，并展示了更强的通用能力，以及在 GPT 系列中引入图像输入能力的尝试¹⁰。GPT-4 在一些专业考试类基准上表现突出，也推动了“通用助手”这一产品形态加速落地。

百家争鸣：Claude、Gemini 与开源浪潮

2023 年，由前 OpenAI 员工 Dario Amodei 和 Daniela Amodei 兄妹创办的 Anthropic 发布了 Claude 系列¹¹。这对兄妹曾是 OpenAI 的核心成员，因为对 AI 安全和发展理念的分歧选择离开，创立了以”宪法式 AI”为核心理念的新公司。与 OpenAI 的”黑盒”路线不同，Claude 采用了宪法式 AI（Constitutional AI） 的方法，通过预设原则来引导模型行为，强调安全性和可控性。Claude 以其长上下文窗口（从 100K 发展到 200K token）和更自然的对话风格赢得了大量用户，2024 年发布的 Claude 3 系列在 Anthropic 给出的多项评测中与当时的顶级模型旗鼓相当，甚至在部分指标上超过¹²。与此同时，Google 在 2023 年底发布了 Gemini 系列，并将其定位为原生多模态模型——从一开始就是为理解文本、图像、音频、视频等多种模态而设计的¹³。与“先做纯文本、再加多模态能力”的路线相比，Gemini 从底层架构就强调多模态信息的融合，这让它处理复杂任务时更加游刃有余（至少从官方叙事上是这样）。

GPT-4 发布后，OpenAI 选择了完全闭源的路线，但这反而激发了开源社区的活力。在 Meta，Yann LeCun 作为“开放研究”路线的长期支持者之一，推动了 Llama 系列的开放。从 Llama 1 到 Llama 3，开源模型的能力越来越强，Llama 3-70B 在多个公开评测中进入开源第一梯队¹⁴。在欧洲，Mistral AI 由前 DeepMind 和 Meta 研究员 Arthur Mensch 等人创立，他们的 Mistral 系列以高效架构著称，Mistral 7B 以小参数量达到了惊艳效果¹⁵。中国力量也不容小觑：文心一言、通义千问、GLM、DeepSeek 等模型体系都在快速追赶。2024 年前后，开源模型与闭源模型的差距在不少任务上持续缩小，这为 AI 的“民主化”带来了希望。

智能体时代：从对话到行动

2023-2024 年，AI 的进化还在继续，但焦点已经从”聊天”转向了”做事”——AI Agent（智能体） 的概念兴起，模型不仅能理解和生成，还能规划任务、使用工具、与环境交互。AutoGPT、BabyAGI 等项目尝试让 AI 自主完成复杂任务，虽然早期的 Agent 项目大多还停留在实验阶段，但这个方向被认为是通向 AGI 的关键路径之一。

时间来到 2025-2026 年，AI 与编程的融合正在进入一个全新的阶段。Vibe Coding 是一种新兴的编程范式，核心思想是：程序员不再直接编写每一行代码，而是通过与 AI 的对话来描述需求，由 AI 生成和修改代码¹⁶。这个概念的兴起，得益于几个因素：GPT-4、Claude 3.5 等模型的代码生成能力成熟化，已经能够生成高质量、可运行的代码；上下文窗口大幅扩展，模型能理解整个项目的代码库，而不是单个文件；以及工具链完善，Cursor、Windsurf 等 AI 原生编辑器的出现，让 Vibe Coding 有了最佳载体。在 Vibe Coding 模式下，程序员的角色从”代码编写者”转变为”需求描述者”和”代码审查者”，这听起来有点像是在”管理 AI 员工”，哈哈。

更重要的是，Agent Skills（智能体技能）系统的成熟为 AI 实际落地提供了关键支撑。通过 MCP（Model Context Protocol，模型上下文协议） 等标准化协议，AI 可以调用可组合、可复用的技能包——从文档处理、图片格式转换到代码审查、文献综述，每个 Skill 都是一个完整的能力单元²¹。这种”插件式”的架构，让 AI 不再局限于聊天框里，而是能够真正融入工作流、执行具体任务。与此同时，多代理协作（Multi-Agent Orchestration）模式也日趋成熟：不同的 AI Agent 可以并行工作、各司其职——有的负责规划任务分解，有的负责代码实现，有的负责测试验证。这种”分工协作”的模式，比单一 Agent 更接近真实团队的工作方式，也让复杂任务的自动化成为可能。

与此同时，Claude Cowork 作为 Claude 官方产品线中的一个方向，让 Claude 能够更深入地参与到”实际工作流”里¹⁷。与传统 AI 助手只停留在”对话回答”不同，这类产品更强调持续协作：更好地理解上下文、在多个步骤里保持一致性、以及把建议落实到具体操作上。这种”伙伴式”的协作模式，让 AI 不再只是工具，而更像是一个有经验的同事。Vibe Coding、Agent Skills 和 Claude Cowork 代表了一个更大的趋势：编程正在从”人指挥机器”转向”人机协作”——这不是要取代程序员，而是改变程序员的工作方式。未来的程序员可能需要更强的需求分析和沟通能力、更好的代码审查和品味判断、更深的系统设计和架构能力，而那些重复性、模式化的编码工作，则可以放心地交给 AI。

为什么大模型这条路可能是对的？

聊完发展史，我想你可能会有个疑问：大模型这个技术路线，真的就是通向 AGI 的正确道路吗？毕竟看起来它只是”疯狂堆参数、堆数据”，有点简单粗暴的味道。

哈哈，这个问题问得好。让我尝试从理论基础和人类学习模式两个角度来聊聊这个话题。

理论基础：为什么”大力”能”出奇迹”？

2020 年，Jared Kaplan 等人在《Scaling Laws for Neural Language Models》中系统性地总结了 Scaling Laws⁷，简单来说，他们发现：当模型的参数量、数据量、计算量协同增长时，模型的性能会呈现出可预测的提升趋势。更重要的是，很多能力并不是“线性变强”，而可能在某个规模区间出现明显跃迁——学术上常用”能力涌现”（Emergence）来描述这种现象，但“涌现”到底是什么、如何定义、是否只是评测与度量方式造成的错觉，至今仍有争论。这种讨论背后的直觉是：语言本身就蕴含着世界的压缩表示，当你读的书够多、见的世面够广，你自然会对”因果关系”、”逻辑推理”、”社会常识”等概念形成某种”隐性理解”，大模型通过海量文本训练，某种程度上也是在”学习世界的压缩表示”。

从神经网络的理论基础来看，早在 1989 年就被证明的通用逼近定理告诉我们：一个足够大的前馈神经网络可以以任意精度逼近任何连续函数。这个定理给了一个重要的理论保证：只要模型够大、数据够多，神经网络原则上可以学习任何复杂的映射关系。大模型可以看作是这个定理在自然语言处理领域的”大规模实践验证”——它证明了通过扩大规模，神经网络确实能学到超乎想象的复杂能力。

Ilya Sutskever（OpenAI 联合创始人）曾提出过一个观点：压缩即智能，这个想法的直觉是：如果你能完美地预测下一个 token，那你一定”理解”了数据背后的生成机制。举个例子，为什么人类能理解”国王 – 男人 + 女人 = 女王”？因为我们在大脑中对”国王”、”女王”、”男人”、”女人”这些概念建立了某种”语义向量空间”的表示。而 Word2Vec、GPT 等模型通过大规模文本训练，也自发地学到了类似的表示——这并非人工设计，而是”压缩”海量信息后的自然涌现。

与人类学习的相似之处

人类学习最重要的方式之一就是从经验中积累——读万卷书、行万里路，大模型的预训练过程某种程度上就是在”读万卷书”，它阅读了互联网上几乎所有的公开文本，学习了人类知识的一个”相当完整的子集”。这种学习方式和人类的”广泛阅读”非常相似，一个博学的人往往读过很多书，接触过不同领域的知识，因此能举一反三、融会贯通，大模型通过海量文本训练，也展现出类似的”跨领域迁移能力”。人类学习中还有一种”顿悟”现象：你学了很多东西，一开始感觉杂乱无章，但某个时刻突然”豁然开朗”，所有知识点串联起来了。大模型的”能力涌现”与此类似——当模型规模达到某个临界值时，它会突然展现出推理、代码生成等能力。这种现象暗示：智能可能不是”渐进式”的，而是”累积后突然跃迁”的，这为”继续扩大规模”提供了某种信心——也许下一个临界点，就会出现更接近人类智能的跃迁。

GPT-3 展现的”少样本学习”（Few-shot Learning）能力，和人类的”举一反三”非常相似，给你几个例子，你就能理解新任务；给 GPT-3 几个示例，它也能快速适应。这种”从少量例子中快速学习”的能力，被认为是通用智能的重要标志之一。大模型能做到这一点，说明它学到的不是”死记硬背”的模式匹配，而是某种更深层的”抽象能力”。

与人类学习的关键区别

人类学习非常高效，一个小孩看几次猫就能认出所有猫，读几本名著就能写出不错的作文，但 GPT-3 需要阅读几千亿个 token 才能达到类似的效果——这种效率差距是巨大的。这说明：人类大脑的”学习算法”比当前的神经网络要高效得多，也许我们还没有找到正确的架构设计，或者人脑有某种”先验知识”（比如进化带来的结构偏好），让学习效率大大提升。人类学习还是”具身”（embodied）的——我们通过看、听、触摸、运动等感官与世界交互，建立对物理世界的认知。但大模型的学习是”纯符号”的，它只见过文本，从未真正”体验”过世界。这导致大模型在某些需要物理常识的任务上表现不佳，比如”左手能摸到右手吗？”这种对人类来说显而易见的问题，大模型可能会出错。这说明：也许真正的智能需要”接地气”，需要与物理世界的交互经验。此外，人类可以持续学习——今天学到的东西，明天就能用上；终身都在不断更新认知。但当前的大模型是”一次性训练”的——训练完成后，模型参数就固定了，无法从新经验中学习（除非重新训练）。这种差异让大模型在面对”时间敏感”的信息时显得笨拙（比如它不知道今天发生的新闻），不过，这个问题可能通过 RAG（检索增强生成）等方法部分解决。

一个平衡的视角

聊到这里，我想表达的是：大模型这条路可能是对的，但未必是唯一或终极的答案。从理论基础来看，Scaling Laws、通用逼近定理、压缩即智能等观点，都为”扩大规模”提供了某种理论支撑；从与人类学习的相似性来看，大模型确实展现出了某种”通用学习能力”——这让人看到了 AGI 的曙光。但同时，人类学习的高效性、具身性、持续学习能力，也指出了当前大模型的局限性。也许未来的突破方向会包括：更高效的架构设计以减少对数据量的依赖、多模态融合让模型”看”到世界而不只是”读”到世界、以及持续学习机制让模型能从新经验中不断进化。哈哈，写到这里，我突然想到 Rich Sutton 在《一个苦涩的教训》里的话：“从长远来看，利用通用计算能力的方法，总是能战胜那些利用人类领域知识的方法”。也许大模型就是那个”通用计算能力”的当前最佳实践，而它的局限，正等待下一个突破来超越。

延伸阅读：经典著作与论文推荐

如果你想更深入地了解 AI 发展的历史脉络和核心思想，下面这些资源值得一看。哈哈，有些可能有点”年代久远”，但经典的魅力就在于历久弥新嘛。

《一个苦涩的教训》（The Bitter Lesson）- Rich Sutton (2019)

这篇文章可以说是 AI 领域的”必读经典”之一¹⁸。Sutton 是强化学习的大佬，他在文章中提出了一个看似反直觉但又被反复验证的观点：从长远来看，利用通用计算能力（如大规模搜索和学习）的方法，总是能战胜那些利用人类领域知识的方法。说人话就是：别试图把人类对问题的理解”硬编码”进 AI 里，让模型自己去学往往效果更好。这个观点完美解释了为什么 GPT-3 这样的”大力出奇迹”模型能如此成功——它没被预设太多语言学知识，纯粹靠海量数据学出来的。文章标题叫”苦涩的教训”，是因为这个规律对研究者来说有点打击人：我们精心设计的各种先验知识，最后都被规模更大的通用模型给超越掉了。哈哈，但承认现实总是进步的第一步嘛。

《Attention Is All You Need》- Vaswani et al. (2017)

这篇论文不用多说了，Transformer 的开山之作³。虽然现在看来可能觉得”不就是个注意力机制嘛”，但在 2017 年这篇论文出来的时候，”完全抛弃 RNN 和 CNN，只用注意力”的想法是非常大胆的。如果你想理解现代大语言模型的根基，这篇论文值得精读，尤其是对自注意力机制的数学推导，看懂了之后对理解后续各种改进（比如 GPT 的因果掩码、BERT 的双向掩码）会很有帮助。

《Language Models are Few-Shot Learners》- Brown et al. (2020)

这就是 GPT-3 的论文了¹⁹。这篇论文最重要的贡献之一不是“列功能清单”，而是系统性展示了 GPT-3 在 few-shot（乃至 zero-shot）设置下的能力，并把 in-context learning 这条线带进了大众视野。至于 scaling laws，它更像是对 Kaplan 等人工作⁷在更大规模上的一次“工程级演示”：你能看到随着规模提升，很多任务的表现持续改善，同时也能看到模型在某些任务上的局限。到今天，这种“不给明确指令，只给几个例子就能做事”的能力，依然是大模型研究的热点。

《Training language models to follow instructions with human feedback》- Ouyang et al. (2022)

这篇是 InstructGPT（ChatGPT 的前身）的论文⁹。它详细介绍了 RLHF（基于人类反馈的强化学习）是如何让一个”啥都敢说”的基础模型，变成一个”相对听话”的对话助手的。如果你想理解为什么 ChatGPT 能”懂你想要什么”，这篇论文是关键。它展示了三个阶段的训练流程：有监督微调 → 奖励模型训练 → PPO 强化学习，这套流程现在基本上成了对齐大模型的”标准操作”。

《Constitutional AI: Harmlessness from AI Feedback》- Anthropic (2022)

这篇论文介绍了 Claude 系列背后的”宪法式 AI”方法²⁰。跟 OpenAI 的 RLHF 不同，Anthropic 尝试让模型根据一套”宪法”（原则列表）来自我改进，而不是完全依赖人类反馈。这种方法的优势在于可扩展性和可解释性——你可以明确告诉模型”什么是好的，什么是坏的”，而不是通过大量人工标注来隐式地传达这些信息。对于关注 AI 安全的朋友来说，这篇论文值得一看。

小结

回顾大语言模型的发展史，有几个关键节点值得记住：1940s-1980s 奠基性工作为神经网络奠定基础（感知机、反向传播、CNN、Hopfield 网络）、1990s-2010s LSTM 和 Word2Vec 等技术为 NLP 领域积累经验、2017 年 Transformer 架构诞生为大规模预训练奠定基础、2020 年 GPT-3 的发布把”规模化预训练 + few-shot/in-context learning”推到大众视野、2022 年 ChatGPT 发布让 AI 走进大众视野、2023-2024 年多模态爆发与开源崛起带来百家争鸣时代、2025-2026 年 Vibe Coding、Claude Cowork 等新范式开始重塑人机协作模式。

站在 2025-2026 年的视角回望，大模型的发展路径已经初步证明了”大力出奇迹”的可行性，但也暴露出明显的局限——学习效率低下、缺乏具身经验、无法持续学习。未来的突破可能不会来自简单的规模扩张，而需要架构层面的革新。多模态融合正在让 AI 从”读世界”进化到”看世界”，具身智能的探索可能会赋予 AI 物理世界的交互经验，而持续学习机制的突破则有望解决模型僵化的问题。

技术发展的速度似乎还在加快，我们正处在一个激动人心的时代。作为普通人，最好的策略可能是：保持好奇心，主动学习，与 AI 共舞，而不是被它淘汰。AI 不会取代人类，但”会用 AI 的人”可能会取代”不会用 AI 的人”。未来的核心竞争力不再是知识的存储量，而是提出好问题的能力、判断信息真伪的能力、以及整合 AI 工具解决复杂问题的创造力。

哈哈，写到这里，我突然想到：几年后回看这篇文章，可能又会觉得”那个时候的 AI 真是原始”。但那正是技术进步的魅力所在——今天的”先进”，就是明天的”基础”。而在通往 AGI 的路上，我们每个人既是见证者，也是参与者。

参考文献

Wikipedia – Long short-term memory. https://en.wikipedia.org/wiki/Long_short-term_memory
Wikipedia – Perceptron. https://en.wikipedia.org/wiki/Perceptron
Wikipedia – Backpropagation. https://en.wikipedia.org/wiki/Backpropagation
Wikipedia – Convolutional neural network. https://en.wikipedia.org/wiki/Convolutional_neural_network
Wikipedia – Hopfield network. https://en.wikipedia.org/wiki/Hopfield_network
Wikipedia – Boltzmann machine. https://en.wikipedia.org/wiki/Boltzmann_machine
Hinton et al. – A Fast Learning Algorithm for Deep Belief Nets. Science, 2006. PDF 原文
Nobel Prize – The Nobel Prize in Physics 2024. https://www.nobelprize.org/prizes/physics/2024/summary/
Google Code – word2vec: Tool for computing distributed representations of words. https://code.google.com/archive/p/word2vec/
Vaswani et al. – Attention Is All You Need. arXiv:1706.03762. https://arxiv.org/abs/1706.03762
Google AI Blog – Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
Radford et al. – Improving Language Understanding by Generative Pre-Training. PDF 原文
OpenAI – Language Models are Unsupervised Multitask Learners (GPT-2 Report). PDF 原文
Kaplan et al. – Scaling Laws for Neural Language Models. arXiv:2001.08361. https://arxiv.org/abs/2001.08361
Wikipedia – ChatGPT. https://en.wikipedia.org/wiki/ChatGPT
Ouyang et al. – Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155
OpenAI – GPT-4 Technical Report. arXiv:2303.08774. https://arxiv.org/abs/2303.08774
Anthropic – Introducing Claude. https://www.anthropic.com/news/introducing-claude
Anthropic – Claude 3 Model Family. https://www.anthropic.com/index/claude-3-family
Google – Introducing Gemini: our largest and most capable AI model. https://blog.google/technology/ai/google-gemini-ai/
Meta AI – Llama 3 Model Card. https://llama.meta.com/llama3/
Mistral AI – Mistral 7B. https://mistral.ai/news/announcing-mistral-7b/
本站文章 – Claude Code 和 Claude Skills 的工程设计. https://blognas.hwb0307.com/skill/6689
Claude – Cowork. https://claude.com/product/cowork
Rich Sutton – The Bitter Lesson. http://www.incompleteideas.net/IncIdeas/BitterLesson.html
Brown et al. – Language Models are Few-Shot Learners. arXiv:2005.14165. https://arxiv.org/abs/2005.14165
Anthropic – Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073
Model Context Protocol – MCP Specification. https://modelcontextprotocol.io/introduction

---------------
完结，撒花！如果您点一下广告，可以养活苯苯😍😍😍

概览

前言