AI入门系列 介绍大语言模型

本博客由AI模型商OhMyGPT强力驱动!如何更快地访问本站?有需要可加电报群获得更多帮助。本博客用什么VPS?创作不易,请支持苯苯!推荐购买本博客的VIP喔,10元/年即可畅享所有VIP专属内容!

概览

  • 1940s-1980s 的奠基性工作为神经网络奠定基础:感知机开创连接主义、反向传播解决多层训练、CNN 提出局部连接、Hopfield 网络融合物理学思想
  • 大语言模型发展经历了从统计模型到神经网络的演变,最终在 2017 年 Transformer 架构诞生后迎来爆发
  • GPT 系列模型的迭代史展现了语言模型从理解到生成的能力跃迁
  • 2023-2024 年是多模态与智能体爆发期,Claude、GPT-4 等模型展现了强大推理能力
  • 2025-2026 年,Vibe Coding、Agent Skills、Claude Cowork 等新范式正在重塑人机协作模式
  • MCP(Model Context Protocol)等标准化协议让 AI 能够调用可组合、可复用的技能包,真正融入工作流
  • 从 Scaling Laws、通用逼近定理等理论基础出发,论述了大模型技术路线的合理性
  • 对比了人类学习模式与大模型的相似之处(经验积累、顿悟、举一反三)与关键区别(学习效率、具身经验、持续学习)
  • 文末整理了《一个苦涩的教训》等经典著作与论文推荐,适合想深入了解的读者

前言

大语言模型(Large Language Model,LLM)这几年火得不行,GPT-3 横空出世让大家惊呼”卧槽这 AI 有点东西”,ChatGPT 直接出圈,再到后面 Claude、Gemini 各种神仙打架,新模型新功能层出不穷。不过这些技术到底是怎么一步步发展过来的?从最早期的 RNN、LSTM,到 Transformer 的横空出世,再到 GPT 系列的一路狂奔,中间其实有不少关键的转折点。这也是我计划开启的AI 入门系列教程的第一篇——先帮大家大致梳理 LLM 发展史上的那些真正重要的里程碑事件,让你能建立起一个相对完整的认知框架,而不会被各种技术术语和版本号搞得头晕眼花。哈哈,了解历史才能更好地理解现在嘛 (~ ̄▽ ̄)~

LLM的发展历史

奠基性工作:神经网络的前夜(1940s-1980s)

在大语言模型成为热点之前,神经网络的研究经历了一段漫长而曲折的探索历程。这段时期的工作,虽然在当时看来更像是”科学家的玩具”,但为后来的深度学习革命奠定了不可或缺的基础。

感知机时代:连接主义的起源

1943 年,Warren McCullochWalter Pitts 发表了《A Logical Calculus of Ideas Immanent in Nervous Activity》,首次提出了人工神经元的数学模型22。这篇论文用数学公式描述了生物神经元的工作方式,开创了”连接主义”人工智能的研究方向——即通过模拟神经元之间的连接来实现智能。

1957 年,Frank Rosenblatt 在康奈尔航空实验室发明了感知机(Perceptron)算法,并在 IBM 704 计算机上进行了首次模拟22。感知机是第一个可以从数据中学习的神经网络算法,它通过调整连接权重来学习分类任务。1960 年,美国海军资助建造了 Mark I 感知机——这是一台专门用于图像识别的硬件计算机,采用三层结构(400 个光敏电池作为感觉单元、512 个感知机作为联想单元、8 个输出感知机),后被美国国家图像解释中心用于军事目标识别22。当时的媒体对感知机寄予厚望,认为它可能是通向真正人工智能的突破口。

但好景不长。1969 年,Marvin MinskySeymour Papert 在《Perceptrons》一书中严格证明了单层感知机无法解决 XOR 等非线性可分问题22。这个发现对当时的研究热情是毁灭性打击——既然连最简单的异或(XOR)逻辑都学不会,感知机还能干什么?这本书直接导致了神经网络研究进入长达十年的”AI寒冬”,研究资金被削减,学者们纷纷转行。有趣的是,Minsky 后来承认,他在书中已经提出了”多层感知机”可能解决这个问题的设想,但受限于当时的计算能力,这个方向没有得到足够重视。

反向传播:多层网络的训练突破

感知机的局限性在于它只能训练单层网络,而解决复杂问题需要多层网络。但多层网络的训练面临一个核心难题:如何将输出层的误差”反向”传递到隐藏层,并调整每一层的权重? 这个问题困扰了研究者近二十年。

其实,反向传播的数学思想早在 1960 年代就已经出现雏形。1960 年,Henry J. Kelley 在最优控制理论中提出了类似的梯度计算方法;1970 年,Seppo Linnainmaa 发表了”自动微分的反向模式”,为现代反向传播奠定了数学基础23。但这些工作当时并没有与神经网络研究结合起来。

1974 年,Paul Werbos 在其博士论文中首次将反向传播应用于神经网络,但他的论文遭遇了发表困难——当时正值 AI寒冬,期刊编辑们对神经网络研究普遍不感兴趣23。直到 1982 年,Werbos 才成功发表应用,将反向传播标准化为现代形式。

真正让反向传播广为人知的,是 1986 年 David RumelhartGeoffrey HintonRonald Williams 在 Nature 上发表的论文《Learning representations by back-propagating errors》23。这篇论文清晰地展示了如何将链式法则高效应用于多层网络,从输出层向输入层反向计算梯度。这就像在神经网络中安装了”误差回传”机制,让多层网络能够端到端地训练。Hinton 后来回忆说,当时很多人对反向传播持怀疑态度,认为它太简单了,不可能真的有效——但历史证明,简单往往是强大的开始。

反向传播的出现彻底解决了多层网络的训练难题,使深度学习成为可能。没有反向传播,就没有后来的 GPT、BERT、Transformer——可以说,它是现代深度学习的”引擎”。有意思的是,Hinton 在 2018 年获得图灵奖时,特别提到了这篇 1986 年的论文是他在神经网络领域”最有影响力”的工作。

卷积神经网络的萌芽

在反向传播解决多层网络训练问题的同时,另一个重要的发展方向是卷积神经网络(CNN)——它专门用于处理具有网格结构的数据,比如图像。

1959 年,神经科学家 David HubelTorsten Wiesel 发现猫的视觉皮层神经元具有”感受野”特性——每个神经元只对视野的小区域响应24。这个发现揭示了生物视觉系统的层级处理机制,后来两人因此获得诺贝尔生理学或医学奖。

1969 年,日本计算机科学家 Kunihiko Fukushima 受此启发提出了 Neocognitron,引入了卷积层和下采样层的概念24。这是 CNN 的雏形,但它当时没有使用反向传播训练,权重是手工设计的。1980 年,Fukushima 完善了 Neocognitron 的架构,但受限于当时的计算能力,这个开创性工作没有引起足够关注。

真正的突破发生在 1989 年。Yann LeCun 等人在贝尔实验室首次将反向传播应用于 CNN,提出了 LeNet-1 原型,用于识别美国邮政的手写邮政编码24。1990 年,LeCun 展示了减少自由参数数量(通过卷积的局部连接和权重共享)可以增强网络的泛化能力——这个思想至今仍是 CNN 设计的核心原则。

1998 年,LeNet-5 成熟,被 AT&T 用于识别银行支票上的手写数字24。它的架构已经非常”现代”:输入层(32×32 像素)→ 卷积层(6 个 5×5 特征图)→ 下采样层(2×2 平均池化)→ 卷积层(16 个 5×5 特征图)→ 下采样层 → 全连接层(84 个单元)→ 输出层(10 个类别)。LeNet-5 在 MNIST 数据集上的错误率仅 1% 左右,接近人类水平。但遗憾的是,当时 SVM 等传统机器学习方法在性能上更优,而且计算资源有限,CNN 没有成为主流。直到 2012 年 AlexNet 的出现,CNN 才迎来爆发——当然,那是另一个故事了。

值得一提的是,LeCun、Hinton 和 Yoshua Bengio 三人因在深度学习领域的奠基性贡献,共同获得了 2018 年图灵奖。他们被称为”深度学习教父”,但站在 2025 年的视角回望,他们的很多开创性工作其实可以追溯到 1980s 甚至更早。

Hopfield网络与Boltzmann机器

在感知机和反向传播之外,1980 年代还出现了另一条重要的研究方向:基于物理学的神经网络模型。

1982 年,物理学家 John Hopfield 发表了《Neural networks and physical systems with emergent collective computational abilities》25。他提出了 Hopfield 网络,这是一种递归神经网络,其理论基础来自统计物理学中的 Ising 模型和自旋玻璃理论。Hopfield 的核心创新是引入了能量函数的概念——每个网络状态都有一个对应的”能量”,网络在演化过程中会自动收敛到能量的局部最小值。这个特性让 Hopfield 网络可以用于内容寻址记忆:给你一个残缺的”记忆”,网络能自动”补全”它。想象一下,你看到一个人脸的局部特征,大脑能自动联想到完整的人脸——这就是 Hopfield 网络想模拟的功能。

1985 年,Geoffrey HintonTerry SejnowskiDavid Ackley 发明了 Boltzmann 机器26。这是一种随机神经网络,每个神经元的状态由概率决定(遵循 Boltzmann 分布),以物理学家 Ludwig Boltzmann 命名。Boltzmann 机器的关键创新是使用对比散度学习算法,理论上可以学习任意复杂的概率分布。但它的训练非常耗时,因为需要大量的”采样”步骤。

后来,Hinton 提出了受限 Boltzmann 机(RBM)——限制层内连接,只允许可见层和隐藏层之间的连接26。这个改进使训练变得高效,而且可以堆叠多层,形成深度信念网络(DBN)。2006 年,Hinton 等人在 Science 上发表论文,展示了如何用 RBM 逐层预训练深度网络,这被认为是”深度学习突破”的开端27。虽然后来反向传播 + 随机初始化成为主流,但 RBM 的逐层预训练策略启发了现代的”预训练-微调”范式——而这也正是 GPT、BERT 等大模型的核心训练策略。

2024年诺贝尔物理学奖:对神经网络基础工作的认可

2024 年 10 月,诺贝尔物理学奖授予了 John HopfieldGeoffrey Hinton,以表彰他们”在人工神经网络机器学习的基础发现和发明”28。这是诺贝尔物理学奖首次颁给 AI/机器学习领域,具有标志性意义。

Hopfield 的获奖理由是 Hopfield 网络——它展示了神经网络如何存储和重现信息,为理解记忆的物理机制提供了新框架。Hinton 的获奖理由是 Boltzmann 机器——它展示了神经网络如何学习并表征复杂模式,为现代深度学习奠定了基础。

这个奖项传达了一个重要信息:人工智能的研究已经深刻影响了多个学科,包括物理学。Hopfield 和 Hinton 的工作都深受物理学启发(Hopfield 网络来自统计物理,Boltzmann 机器来自热力学),而反过来,他们的工作又为物理学提供了新的研究工具——比如用神经网络模拟复杂系统、预测材料性质等。

站在 2025 年的视角回望,1940s-1980s 的这些奠基性工作,虽然在当时看来更像是”基础研究”而非”实用技术”,但它们为后来的深度学习革命提供了理论准备。感知机告诉我们”神经元可以学习”,反向传播告诉我们”多层网络可以训练”,CNN 告诉我们”局部连接很有效”,Hopfield 网络和Boltzmann机器告诉我们”物理学和 AI 可以融合”。没有这些”前夜”的探索,就不会有后来的”黎明”。

早期探索:从统计模型到神经网络

在大语言模型成为热点之前,深度学习在自然语言处理(NLP)领域就已经有了不少探索。2010 年代初期,循环神经网络(RNN) 和其改进版本 长短期记忆网络(LSTM) 是处理序列数据的主流选择1。LSTM 的发明者 Sepp HochreiterJürgen Schmidhuber 在 1997 年就提出了这一架构,通过引入”门控机制”来解决 RNN 的梯度消失问题——你可以把它想象成给神经网络装上了”记忆阀门”,让它能自主决定记住什么、遗忘什么。它们通过”记住”之前的信息来理解上下文,比如预测句子中的下一个词。但 RNN 有个致命弱点:长距离依赖问题,当句子变长时,模型会”忘记”早期的信息——想象一下让你读一本超长的书,然后问你第一章的某个细节,你可能也记不清了,这就是 RNN 面临的困境。与此同时,2013 年 Tomas Mikolov 在 Google 领导团队发布的 Word2Vec 为这一困境带来了转机,这种将词语转换为向量的技术2核心思想在于语义相似的词在向量空间中距离更近,比如”国王”减去”男人”加上”女人”会得到”女王”,这种词嵌入(Word Embedding) 技术为后续的深度学习模型奠定了基础,让机器能真正”理解”词语之间的语义关系。

转折点:Transformer 的诞生

2017 年,Ashish Vaswani 等八位作者在 Google Brain 合作完成的论文《Attention Is All You Need》中提出了 Transformer 架构3,这可能是 NLP 领域最重要的论文之一。这篇论文有个有趣的背景:八位作者来自不同研究背景,共同的目标是打破 RNN 和 CNN 在序列建模上的垄断。Transformer 的核心创新是自注意力机制(Self-Attention),让模型在处理每个词时都能同时关注句子中的所有其他词,从而更精准地捕捉上下文关系;更重要的是,它抛弃了 RNN 的循环结构,可以并行处理整个序列,大大提升了训练效率,为后来超大模型的训练提供了技术可行性。Transformer 出现后很快就衍生出了两个主要方向:2018 年,Jacob Devlin 领导的 Google 团队发布了 BERT,一个双向编码器,擅长理解任务(如分类、问答)4;同年,Alec Radford 带领的 OpenAI 团队发布了 GPT,一个单向解码器,擅长生成任务(如写作、对话)5。你可以把 BERT 想象成一个”阅读理解高手”,而 GPT 则更像一个”创意写手”,这个分道扬镳的选择也为后来 GPT 系列的崛起埋下了伏笔。

GPT 时代:从理解到生成的跨越

GPT 系列的演进在 2019 年迎来了重要节点:OpenAI 发布了拥有 15 亿参数的 GPT-26,其生成能力之强让 OpenAI 最初拒绝发布完整版本,担心被用于生成虚假新闻或垃圾内容——这个决定当时引发了不小的争议,后来事实证明这种担忧可能有点过度了,但也反映了当时业界对 AI 生成能力的敬畏。仅仅一年后的 2020 年,GPT-3 横空出世,参数量飙升至 1750 亿19。与此同时,Jared Kaplan 等人在《Scaling Laws for Neural Language Models》中系统性总结了 Scaling Laws(规模定律):当模型规模、数据规模与计算规模协同增长时,模型性能会呈现可预测的提升趋势7。GPT-3 的出现把这条路线推到了大众视野:随着规模扩大,模型在多任务、少样本(few-shot)等设置下的表现显著增强19。当然,关于“能力涌现”与“推理能力”的边界,学术界一直有争论,但可以确定的是:从 GPT-3 开始,大家第一次在“通用文本模型”身上看到了某种跨任务迁移的味道。

ChatGPT 时刻:AI 走进大众视野

2022 年 11 月 30 日,OpenAI 发布基于 GPT-3.5 架构的 ChatGPT8,它的发布可以称得上是 AI 发展史的”iPhone 时刻”——突然之间,AI 不再是实验室里的玩具,而是每个人都能使用的工具。ChatGPT 的成功,除了模型本身的能力外,还离不开 InstructGPT 工作中系统化推广的 RLHF(基于人类反馈的强化学习) 对齐路线9——通过人类偏好数据来约束与引导输出,让它更”听话”;以及对话式交互的产品形态,让用户能自然地与 AI 交流,而不是写代码调用 API。仅仅几个月后的 2023 年 3 月,OpenAI 发布了 GPT-4 技术报告,并展示了更强的通用能力,以及在 GPT 系列中引入图像输入能力的尝试10。GPT-4 在一些专业考试类基准上表现突出,也推动了“通用助手”这一产品形态加速落地。

百家争鸣:Claude、Gemini 与开源浪潮

2023 年,由前 OpenAI 员工 Dario AmodeiDaniela Amodei 兄妹创办的 Anthropic 发布了 Claude 系列11。这对兄妹曾是 OpenAI 的核心成员,因为对 AI 安全和发展理念的分歧选择离开,创立了以”宪法式 AI”为核心理念的新公司。与 OpenAI 的”黑盒”路线不同,Claude 采用了宪法式 AI(Constitutional AI) 的方法,通过预设原则来引导模型行为,强调安全性和可控性。Claude 以其长上下文窗口(从 100K 发展到 200K token)和更自然的对话风格赢得了大量用户,2024 年发布的 Claude 3 系列在 Anthropic 给出的多项评测中与当时的顶级模型旗鼓相当,甚至在部分指标上超过12。与此同时,Google 在 2023 年底发布了 Gemini 系列,并将其定位为原生多模态模型——从一开始就是为理解文本、图像、音频、视频等多种模态而设计的13。与“先做纯文本、再加多模态能力”的路线相比,Gemini 从底层架构就强调多模态信息的融合,这让它处理复杂任务时更加游刃有余(至少从官方叙事上是这样)。

GPT-4 发布后,OpenAI 选择了完全闭源的路线,但这反而激发了开源社区的活力。在 Meta,Yann LeCun 作为“开放研究”路线的长期支持者之一,推动了 Llama 系列的开放。从 Llama 1 到 Llama 3,开源模型的能力越来越强,Llama 3-70B 在多个公开评测中进入开源第一梯队14。在欧洲,Mistral AI 由前 DeepMind 和 Meta 研究员 Arthur Mensch 等人创立,他们的 Mistral 系列以高效架构著称,Mistral 7B 以小参数量达到了惊艳效果15中国力量也不容小觑:文心一言、通义千问、GLM、DeepSeek 等模型体系都在快速追赶。2024 年前后,开源模型与闭源模型的差距在不少任务上持续缩小,这为 AI 的“民主化”带来了希望。

智能体时代:从对话到行动

2023-2024 年,AI 的进化还在继续,但焦点已经从”聊天”转向了”做事”——AI Agent(智能体) 的概念兴起,模型不仅能理解和生成,还能规划任务、使用工具、与环境交互。AutoGPT、BabyAGI 等项目尝试让 AI 自主完成复杂任务,虽然早期的 Agent 项目大多还停留在实验阶段,但这个方向被认为是通向 AGI 的关键路径之一。

时间来到 2025-2026 年,AI 与编程的融合正在进入一个全新的阶段。Vibe Coding 是一种新兴的编程范式,核心思想是:程序员不再直接编写每一行代码,而是通过与 AI 的对话来描述需求,由 AI 生成和修改代码16。这个概念的兴起,得益于几个因素:GPT-4、Claude 3.5 等模型的代码生成能力成熟化,已经能够生成高质量、可运行的代码;上下文窗口大幅扩展,模型能理解整个项目的代码库,而不是单个文件;以及工具链完善,Cursor、Windsurf 等 AI 原生编辑器的出现,让 Vibe Coding 有了最佳载体。在 Vibe Coding 模式下,程序员的角色从”代码编写者”转变为”需求描述者”和”代码审查者”,这听起来有点像是在”管理 AI 员工”,哈哈。

更重要的是,Agent Skills(智能体技能)系统的成熟为 AI 实际落地提供了关键支撑。通过 MCP(Model Context Protocol,模型上下文协议) 等标准化协议,AI 可以调用可组合、可复用的技能包——从文档处理、图片格式转换到代码审查、文献综述,每个 Skill 都是一个完整的能力单元21。这种”插件式”的架构,让 AI 不再局限于聊天框里,而是能够真正融入工作流、执行具体任务。与此同时,多代理协作(Multi-Agent Orchestration)模式也日趋成熟:不同的 AI Agent 可以并行工作、各司其职——有的负责规划任务分解,有的负责代码实现,有的负责测试验证。这种”分工协作”的模式,比单一 Agent 更接近真实团队的工作方式,也让复杂任务的自动化成为可能。

与此同时,Claude Cowork 作为 Claude 官方产品线中的一个方向,让 Claude 能够更深入地参与到”实际工作流”里17。与传统 AI 助手只停留在”对话回答”不同,这类产品更强调持续协作:更好地理解上下文、在多个步骤里保持一致性、以及把建议落实到具体操作上。这种”伙伴式”的协作模式,让 AI 不再只是工具,而更像是一个有经验的同事。Vibe Coding、Agent Skills 和 Claude Cowork 代表了一个更大的趋势:编程正在从”人指挥机器”转向”人机协作”——这不是要取代程序员,而是改变程序员的工作方式。未来的程序员可能需要更强的需求分析和沟通能力、更好的代码审查和品味判断、更深的系统设计和架构能力,而那些重复性、模式化的编码工作,则可以放心地交给 AI。

为什么大模型这条路可能是对的?

聊完发展史,我想你可能会有个疑问:大模型这个技术路线,真的就是通向 AGI 的正确道路吗?毕竟看起来它只是”疯狂堆参数、堆数据”,有点简单粗暴的味道。

哈哈,这个问题问得好。让我尝试从理论基础和人类学习模式两个角度来聊聊这个话题。

理论基础:为什么”大力”能”出奇迹”?

2020 年,Jared Kaplan 等人在《Scaling Laws for Neural Language Models》中系统性地总结了 Scaling Laws7,简单来说,他们发现:当模型的参数量、数据量、计算量协同增长时,模型的性能会呈现出可预测的提升趋势。更重要的是,很多能力并不是“线性变强”,而可能在某个规模区间出现明显跃迁——学术上常用”能力涌现”(Emergence)来描述这种现象,但“涌现”到底是什么、如何定义、是否只是评测与度量方式造成的错觉,至今仍有争论。这种讨论背后的直觉是:语言本身就蕴含着世界的压缩表示,当你读的书够多、见的世面够广,你自然会对”因果关系”、”逻辑推理”、”社会常识”等概念形成某种”隐性理解”,大模型通过海量文本训练,某种程度上也是在”学习世界的压缩表示”。

从神经网络的理论基础来看,早在 1989 年就被证明的通用逼近定理告诉我们:一个足够大的前馈神经网络可以以任意精度逼近任何连续函数。这个定理给了一个重要的理论保证:只要模型够大、数据够多,神经网络原则上可以学习任何复杂的映射关系。大模型可以看作是这个定理在自然语言处理领域的”大规模实践验证”——它证明了通过扩大规模,神经网络确实能学到超乎想象的复杂能力。

Ilya Sutskever(OpenAI 联合创始人)曾提出过一个观点:压缩即智能,这个想法的直觉是:如果你能完美地预测下一个 token,那你一定”理解”了数据背后的生成机制。举个例子,为什么人类能理解”国王 – 男人 + 女人 = 女王”?因为我们在大脑中对”国王”、”女王”、”男人”、”女人”这些概念建立了某种”语义向量空间”的表示。而 Word2Vec、GPT 等模型通过大规模文本训练,也自发地学到了类似的表示——这并非人工设计,而是”压缩”海量信息后的自然涌现。

与人类学习的相似之处

人类学习最重要的方式之一就是从经验中积累——读万卷书、行万里路,大模型的预训练过程某种程度上就是在”读万卷书”,它阅读了互联网上几乎所有的公开文本,学习了人类知识的一个”相当完整的子集”。这种学习方式和人类的”广泛阅读”非常相似,一个博学的人往往读过很多书,接触过不同领域的知识,因此能举一反三、融会贯通,大模型通过海量文本训练,也展现出类似的”跨领域迁移能力”。人类学习中还有一种”顿悟”现象:你学了很多东西,一开始感觉杂乱无章,但某个时刻突然”豁然开朗”,所有知识点串联起来了。大模型的”能力涌现”与此类似——当模型规模达到某个临界值时,它会突然展现出推理、代码生成等能力。这种现象暗示:智能可能不是”渐进式”的,而是”累积后突然跃迁”的,这为”继续扩大规模”提供了某种信心——也许下一个临界点,就会出现更接近人类智能的跃迁。

GPT-3 展现的”少样本学习”(Few-shot Learning)能力,和人类的”举一反三”非常相似,给你几个例子,你就能理解新任务;给 GPT-3 几个示例,它也能快速适应。这种”从少量例子中快速学习”的能力,被认为是通用智能的重要标志之一。大模型能做到这一点,说明它学到的不是”死记硬背”的模式匹配,而是某种更深层的”抽象能力”。

与人类学习的关键区别

人类学习非常高效,一个小孩看几次猫就能认出所有猫,读几本名著就能写出不错的作文,但 GPT-3 需要阅读几千亿个 token 才能达到类似的效果——这种效率差距是巨大的。这说明:人类大脑的”学习算法”比当前的神经网络要高效得多,也许我们还没有找到正确的架构设计,或者人脑有某种”先验知识”(比如进化带来的结构偏好),让学习效率大大提升。人类学习还是”具身”(embodied)的——我们通过看、听、触摸、运动等感官与世界交互,建立对物理世界的认知。但大模型的学习是”纯符号”的,它只见过文本,从未真正”体验”过世界。这导致大模型在某些需要物理常识的任务上表现不佳,比如”左手能摸到右手吗?”这种对人类来说显而易见的问题,大模型可能会出错。这说明:也许真正的智能需要”接地气”,需要与物理世界的交互经验。此外,人类可以持续学习——今天学到的东西,明天就能用上;终身都在不断更新认知。但当前的大模型是”一次性训练”的——训练完成后,模型参数就固定了,无法从新经验中学习(除非重新训练)。这种差异让大模型在面对”时间敏感”的信息时显得笨拙(比如它不知道今天发生的新闻),不过,这个问题可能通过 RAG(检索增强生成)等方法部分解决。

一个平衡的视角

聊到这里,我想表达的是:大模型这条路可能是对的,但未必是唯一或终极的答案。从理论基础来看,Scaling Laws、通用逼近定理、压缩即智能等观点,都为”扩大规模”提供了某种理论支撑;从与人类学习的相似性来看,大模型确实展现出了某种”通用学习能力”——这让人看到了 AGI 的曙光。但同时,人类学习的高效性、具身性、持续学习能力,也指出了当前大模型的局限性。也许未来的突破方向会包括:更高效的架构设计以减少对数据量的依赖、多模态融合让模型”看”到世界而不只是”读”到世界、以及持续学习机制让模型能从新经验中不断进化。哈哈,写到这里,我突然想到 Rich Sutton 在《一个苦涩的教训》里的话:“从长远来看,利用通用计算能力的方法,总是能战胜那些利用人类领域知识的方法”。也许大模型就是那个”通用计算能力”的当前最佳实践,而它的局限,正等待下一个突破来超越。

延伸阅读:经典著作与论文推荐

如果你想更深入地了解 AI 发展的历史脉络和核心思想,下面这些资源值得一看。哈哈,有些可能有点”年代久远”,但经典的魅力就在于历久弥新嘛。

《一个苦涩的教训》(The Bitter Lesson)- Rich Sutton (2019)

这篇文章可以说是 AI 领域的”必读经典”之一18。Sutton 是强化学习的大佬,他在文章中提出了一个看似反直觉但又被反复验证的观点:从长远来看,利用通用计算能力(如大规模搜索和学习)的方法,总是能战胜那些利用人类领域知识的方法。说人话就是:别试图把人类对问题的理解”硬编码”进 AI 里,让模型自己去学往往效果更好。这个观点完美解释了为什么 GPT-3 这样的”大力出奇迹”模型能如此成功——它没被预设太多语言学知识,纯粹靠海量数据学出来的。文章标题叫”苦涩的教训”,是因为这个规律对研究者来说有点打击人:我们精心设计的各种先验知识,最后都被规模更大的通用模型给超越掉了。哈哈,但承认现实总是进步的第一步嘛。

《Attention Is All You Need》- Vaswani et al. (2017)

这篇论文不用多说了,Transformer 的开山之作3。虽然现在看来可能觉得”不就是个注意力机制嘛”,但在 2017 年这篇论文出来的时候,”完全抛弃 RNN 和 CNN,只用注意力”的想法是非常大胆的。如果你想理解现代大语言模型的根基,这篇论文值得精读,尤其是对自注意力机制的数学推导,看懂了之后对理解后续各种改进(比如 GPT 的因果掩码、BERT 的双向掩码)会很有帮助。

《Language Models are Few-Shot Learners》- Brown et al. (2020)

这就是 GPT-3 的论文了19。这篇论文最重要的贡献之一不是“列功能清单”,而是系统性展示了 GPT-3 在 few-shot(乃至 zero-shot)设置下的能力,并把 in-context learning 这条线带进了大众视野。至于 scaling laws,它更像是对 Kaplan 等人工作7在更大规模上的一次“工程级演示”:你能看到随着规模提升,很多任务的表现持续改善,同时也能看到模型在某些任务上的局限。到今天,这种“不给明确指令,只给几个例子就能做事”的能力,依然是大模型研究的热点。

《Training language models to follow instructions with human feedback》- Ouyang et al. (2022)

这篇是 InstructGPT(ChatGPT 的前身)的论文9。它详细介绍了 RLHF(基于人类反馈的强化学习)是如何让一个”啥都敢说”的基础模型,变成一个”相对听话”的对话助手的。如果你想理解为什么 ChatGPT 能”懂你想要什么”,这篇论文是关键。它展示了三个阶段的训练流程:有监督微调 → 奖励模型训练 → PPO 强化学习,这套流程现在基本上成了对齐大模型的”标准操作”。

《Constitutional AI: Harmlessness from AI Feedback》- Anthropic (2022)

这篇论文介绍了 Claude 系列背后的”宪法式 AI”方法20。跟 OpenAI 的 RLHF 不同,Anthropic 尝试让模型根据一套”宪法”(原则列表)来自我改进,而不是完全依赖人类反馈。这种方法的优势在于可扩展性和可解释性——你可以明确告诉模型”什么是好的,什么是坏的”,而不是通过大量人工标注来隐式地传达这些信息。对于关注 AI 安全的朋友来说,这篇论文值得一看。

小结

回顾大语言模型的发展史,有几个关键节点值得记住:1940s-1980s 奠基性工作为神经网络奠定基础(感知机、反向传播、CNN、Hopfield 网络)、1990s-2010s LSTM 和 Word2Vec 等技术为 NLP 领域积累经验、2017 年 Transformer 架构诞生为大规模预训练奠定基础、2020 年 GPT-3 的发布把”规模化预训练 + few-shot/in-context learning”推到大众视野、2022 年 ChatGPT 发布让 AI 走进大众视野、2023-2024 年多模态爆发与开源崛起带来百家争鸣时代、2025-2026 年 Vibe Coding、Claude Cowork 等新范式开始重塑人机协作模式。

站在 2025-2026 年的视角回望,大模型的发展路径已经初步证明了”大力出奇迹”的可行性,但也暴露出明显的局限——学习效率低下、缺乏具身经验、无法持续学习。未来的突破可能不会来自简单的规模扩张,而需要架构层面的革新。多模态融合正在让 AI 从”读世界”进化到”看世界”,具身智能的探索可能会赋予 AI 物理世界的交互经验,而持续学习机制的突破则有望解决模型僵化的问题。

技术发展的速度似乎还在加快,我们正处在一个激动人心的时代。作为普通人,最好的策略可能是:保持好奇心,主动学习,与 AI 共舞,而不是被它淘汰。AI 不会取代人类,但”会用 AI 的人”可能会取代”不会用 AI 的人”。未来的核心竞争力不再是知识的存储量,而是提出好问题的能力、判断信息真伪的能力、以及整合 AI 工具解决复杂问题的创造力。

哈哈,写到这里,我突然想到:几年后回看这篇文章,可能又会觉得”那个时候的 AI 真是原始”。但那正是技术进步的魅力所在——今天的”先进”,就是明天的”基础”。而在通往 AGI 的路上,我们每个人既是见证者,也是参与者。

参考文献

  1. Wikipedia – Long short-term memory. https://en.wikipedia.org/wiki/Long_short-term_memory
  2. Wikipedia – Perceptron. https://en.wikipedia.org/wiki/Perceptron
  3. Wikipedia – Backpropagation. https://en.wikipedia.org/wiki/Backpropagation
  4. Wikipedia – Convolutional neural network. https://en.wikipedia.org/wiki/Convolutional_neural_network
  5. Wikipedia – Hopfield network. https://en.wikipedia.org/wiki/Hopfield_network
  6. Wikipedia – Boltzmann machine. https://en.wikipedia.org/wiki/Boltzmann_machine
  7. Hinton et al. – A Fast Learning Algorithm for Deep Belief Nets. Science, 2006. PDF 原文
  8. Nobel Prize – The Nobel Prize in Physics 2024. https://www.nobelprize.org/prizes/physics/2024/summary/
  9. Google Code – word2vec: Tool for computing distributed representations of words. https://code.google.com/archive/p/word2vec/
  10. Vaswani et al. – Attention Is All You Need. arXiv:1706.03762. https://arxiv.org/abs/1706.03762
  11. Google AI Blog – Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html
  12. Radford et al. – Improving Language Understanding by Generative Pre-Training. PDF 原文
  13. OpenAI – Language Models are Unsupervised Multitask Learners (GPT-2 Report). PDF 原文
  14. Kaplan et al. – Scaling Laws for Neural Language Models. arXiv:2001.08361. https://arxiv.org/abs/2001.08361
  15. Wikipedia – ChatGPT. https://en.wikipedia.org/wiki/ChatGPT
  16. Ouyang et al. – Training language models to follow instructions with human feedback. https://arxiv.org/abs/2203.02155
  17. OpenAI – GPT-4 Technical Report. arXiv:2303.08774. https://arxiv.org/abs/2303.08774
  18. Anthropic – Introducing Claude. https://www.anthropic.com/news/introducing-claude
  19. Anthropic – Claude 3 Model Family. https://www.anthropic.com/index/claude-3-family
  20. Google – Introducing Gemini: our largest and most capable AI model. https://blog.google/technology/ai/google-gemini-ai/
  21. Meta AI – Llama 3 Model Card. https://llama.meta.com/llama3/
  22. Mistral AI – Mistral 7B. https://mistral.ai/news/announcing-mistral-7b/
  23. 本站文章 – Claude Code 和 Claude Skills 的工程设计. https://blognas.hwb0307.com/skill/6689
  24. Claude – Cowork. https://claude.com/product/cowork
  25. Rich Sutton – The Bitter Lesson. http://www.incompleteideas.net/IncIdeas/BitterLesson.html
  26. Brown et al. – Language Models are Few-Shot Learners. arXiv:2005.14165. https://arxiv.org/abs/2005.14165
  27. Anthropic – Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. https://arxiv.org/abs/2212.08073
  28. Model Context Protocol – MCP Specification. https://modelcontextprotocol.io/introduction

---------------
完结,撒花!如果您点一下广告,可以养活苯苯😍😍😍


感谢OhMyGPT的友情赞助 (ฅ´ω`ฅ) 本博客基于m2w创作。版权声明:除特殊说明,博客文章均为Bensz原创,依据CC BY-SA 4.0许可证进行授权,转载请附上出处链接及本声明。VIP内容严禁转载!由于可能会成为AI模型(如chatGPT)的训练样本,本博客禁止将AI自动生成内容作为文章上传(特别声明时除外)。如有需要,请至学习地图系统学习本博客的教程。加Telegram群可获得更多帮助喔! | 博客订阅:RSS | 广告招租请留言 | 博客VPS | 致谢渺软公益CDN |
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇