本文最后更新于 64 天前，如有失效请评论区留言。

本博客由AI模型商OhMyGPT强力驱动！如何更快地访问本站？有需要可加电报群获得更多帮助。本博客用什么VPS？创作不易，请支持苯苯！推荐购买本博客的VIP喔，10元/年即可畅享所有VIP专属内容！

概览

GLM-4.7 是智谱 AI 于 2025 年 12 月发布的开源大语言模型,在编码能力和推理性能上达到 GPT-5.1 和 Claude 4.5 Sonnet 水平
API 价格仅为竞品的 1/4 到 1/7,月费 $3 的入门计划引发开发者热议
特色功能 “Vibe Coding” 和 “Preserved Thinking” 显著提升了前端代码质量和多轮对话稳定性
在 SWE-bench Verified 基准测试中取得 73.8% 的成绩,开源模型中达到 SOTA
适合编码代理、多语言开发和成本敏感项目,但本地部署需要高端硬件

前言

最近在刷 Reddit 和技术博客的时候,发现一个名字频繁出现——GLM-4.7。这是智谱 AI (Zhipu AI) 在 2025 年 12 月下旬发布的开源大语言模型,号称在编码能力和推理性能上达到 GPT-5.1 和 Claude 4.5 Sonnet 水平。作为一个对 AI 模型感兴趣的小伙伴,我就好奇地研究了一下,结果发现这模型还真是有点东西 😲

最让我震惊的是它的性价比。API 价格只有 GPT 和 Claude 的 1/4 到 1/7,还有一个 $3/月的入门计划。更炸裂的是,社区里很多人在拼车使用 Coding Plan Max——通过官方或第三方平台拼车,每个月 20-30 元就能基本实现个人无限量使用,性价比简直炸裂!

不过光便宜没用,关键还得看实力。今天这篇文章,我就基于国外的技术博客、Reddit 讨论和权威评测,给小伙伴们全面分析一下 GLM-4.7 到底怎么样,值不值得尝试。

性能表现:真的能打吗?

核心基准测试成绩

先上干货,看看 GLM-4.7 在各种基准测试中的表现^[9]:

基准测试	GLM-4.7 得分	相比 GLM-4.6 提升	竞品对比
Humanity’s Last Exam (HLE)	42.8% 🔥	+12.4%	工具辅助下接近 GPT-5.1
SWE-bench Verified	73.8% 🔥	+5.8%	开源 SOTA
SWE-bench Multilingual	66.7%	+13%	多语言编码优势明显
Terminal Bench	41%	–	终端任务处理优秀
τ²-Bench	开源 SOTA	–	工具使用能力突出

这里有几个值得关注的点:

HLE (Humanity’s Last Exam) 42.8% 是什么概念?这个测试评估的是高级学术环境中的推理能力,工具辅助版本显示模型能结合外部工具调用与推理,而不是仅依赖记忆^[16]。能接近 GPT-5.1 的水平,说明推理能力确实不弱。

SWE-bench 73.8% 更有意思,这个测试是基于真实 GitHub 问题评估的,也就是说模型能处理实际工程问题,不是只会做”考试题”^[17]。73.8% 在开源模型中是 SOTA (State of the Art),确实厉害。

多语言编码 +13% 的提升也很有价值,说明模型在非英语代码库和国际开发环境中的适应性更好。

和主流模型对比

那么,GLM-4.7 和 GPT-5.1、Claude 4.5 Sonnet 这些顶级模型比起来怎么样呢?

维度	GLM-4.7	Claude 4.5 Sonnet	GPT-5.1	评价
编码能力	73.8% SWE-bench	略优	接近	GLM-4.7 差距小
工具使用	开源 SOTA	强	强	GLM-4.7 擅长多步骤工具调用
前端审美	Vibe Coding	优秀	良好	GLM-4.7 专门优化
推理深度	HLE 42.8%	接近	略高	GLM-4.7 性价比高
价格	$0.60/1M 输入 💰	更高	更高	GLM-4.7 便宜 4-7 倍

正如 BinaryVerse AI 的评测所说^[2]:

“GLM-4.7 不是在所有基准上全面超越,但在工具辅助场景和实际编码任务中,它达到了与顶级专有模型几乎相同的水平。”

真实场景表现

基准测试归基准测试,真实使用场景怎么样呢?

根据社区反馈^[21],GLM-4.7 成功从零构建了:
– Minecraft 克隆——可玩原型
– Karum 棋盘游戏——完整游戏逻辑
– 浏览器操作系统——功能完整的 Web OS

当然,也不是完美无缺。Spotify 克隆这样复杂的设计任务,仍然需要人工优化样式,部分复杂 UI 也需要开发者手动精修^[22]。不过这个水平已经相当不错了,哈哈! 😎

个人使用经验

说了这么多社区的评价,我自己也实际用 GLM-4.7 有一段时间了,给小伙伴们分享一下真实体验。

小型项目开发

总的来说,一般小型项目都可以用,又快又好。不管是写 Python 脚本、Web 应用,还是日常的编码辅助,GLM-4.7 的表现都很稳定。配合拼车后的 Max 版,基本不用担心配额问题,刷刷刷地用,体验很爽 😎

长上下文 + 长推理任务

但是,一些长上下文 + 长推理任务,比如写严肃的学术综述,还是得 GPT-5.2 High 比较权威。GLM-4.7 在处理需要深度推理、多步推导的学术写作时,偶尔会有逻辑跳跃或者不够严谨的情况。而 GPT-5.2 High 在这类任务上明显更靠谱,论证更严密,引用更准确。

复杂代码库

至于 Claude 4.5 Opus,理论上在复杂代码库中的作用比较强,但实际使用中,我似乎暂时还没想到必须要用它的场景。GLM-4.7 的编码能力对我来说已经够用了,除非遇到特别复杂的遗留代码重构或者超大项目的架构调整,可能才会考虑用 Opus。

我的选择策略

使用场景	首选模型	原因
日常编码	GLM-4.7	拼车 Max,便宜又好用
学术写作	GPT-5.2 High	严谨性和权威性
复杂重构	Claude 4.5 Opus	必要时备用
快速原型	GLM-4.7	Vibe Coding 前端优势

当然,这只是我的个人经验,不同场景可能有不同选择。小伙伴们在实际使用中还是要根据自己的需求来,哈哈! 😄

性价比:真的这么便宜吗?

API 定价详解

说到性价比,这可是 GLM-4.7 的大杀器啊!咱们直接上数据^[23]:

计费项	GLM-4.7 价格	竞品参考	优势
输入 Token	$0.60 / 1M 💰	GPT/Claude: $2.5-5.0	便宜 4-8 倍
输出 Token	$2.20 / 1M 💰	GPT/Claude: $10-15	便宜 5-7 倍
缓存输入	~$0.11 / 1M	–	20-40% 成本节省^[24]

还有个 $3/月的入门计划,专为编码代理工具 (Cline, Roo Code, Claude Code) 设计:
– 配额每 5 小时重置
– 不支持直接 API 调用
– 适合个人开发者日常使用

更炸裂的是 Coding Plan Max 拼车方案 🔥:

社区里很多人通过拼车方式使用 Coding Plan Max,性价比真的超绝:

拼车方案	价格	说明
NGA 官方拼车	28 元/月 (年付) 💰	寻 2 人,Max 套餐配额
V2EX 5 人拼车	40 元/月 (按月) 💰	独立账号,按月付费

拼车优势:
– 20-30 元/月基本实现个人无限量使用 (相比官方 $3/月的 Lite 版,Max 版配额是 20 倍)
– Max 版每 5 小时可处理 2400 次提示 (Lite 版仅 120 次)
– 月度总量对个人开发者来说基本够用
– 官方支持拼车,安全性有保障

这个定价策略真的很有意思,$3 比 Netflix 便宜,而拼车后 20 多元就能无限量使用,彻底改变了谁能使用严肃模型的格局。Reddit 上有开发者评论说:

“$3 的价格让个人开发者和小团队也能用上顶级模型,这可能会改变整个开发工具生态。”

当然,也有人质疑”是否有隐藏成本?长期可靠性如何?” 这也是合理的担忧。

成本对比示例

让我们看几个具体的成本对比场景:

场景	GLM-4.7	Claude 4.5	节省
月度 100M token	~$140 💰	~$800-1200	85% 🔥
大型代码库分析	缓存优惠 $0.11/M	全价 $2.5-5/M	90%+ 🔥

对于成本敏感的初创公司、个人开发者或教育用途,这个价格优势确实很有吸引力。

特色功能:有什么黑科技?

Preserved Thinking (保留思考)

这个功能可能是 GLM-4.7 最具创新性的特性之一^[30]。

在多轮编码代理场景中,模型保留内部推理块,避免”金鱼记忆”问题。实际效果是:
– 减少代理漂移
– 保持计划一致性
– 让代理在第二天的会话中记住昨天的上下文

有开发者评价说^[34]:

“这是让代理真正可用的关键,不是炫技,是工程实用性。”

确实,如果你用过 Claude Code 或 Cline 这样的编码代理,应该会遇到过模型”忘记”之前计划的情况。Preserved Thinking 正是解决这个痛点的。

Vibe Coding (审美编码)

Vibe Coding 是 GLM-4.7 的另一个亮点^[32],增强的审美智能,生成更现代、干净的 UI:
– 更好的视觉层次
– 色彩和谐
– 布局结构合理

社区评价说”减少修复默认 CSS 的时间,真正可用的前端代码”。

对于我这样不太擅长前端设计的人来说,这个功能确实很实用 (～￣▽￣)～

Interleaved Thinking (交错思考)

模型在每个响应和工具调用前进行推理^[31],处理复杂工作流时效率更高,特别适合:
– 多步骤任务
– 长时间项目
– 复杂工作流

编码代理集成:开箱即用

GLM-4.7 对主流编码代理框架的支持相当好^[33]:

代理工具	集成状态	评价
Claude Code ✅	官方支持	兼容性优秀
Cline ✅	优化支持	$3 计划直接可用
Roo Code ✅	优化支持	代理稳定性提升
Kilo Code ✅	支持	工具调用能力强

正如 BinaryVerse AI 的深度评测所说^[34]:

“GLM-4.7 不是更健谈的助手,而是更持久的队友。Preserved Thinking 让它能在第二天的会话中记住昨天的上下文。”

这个比喻挺形象的,哈哈! 😄

社区评价:从怀疑到认可

Reddit 讨论趋势

在 r/singularity 社区^[37],对 GLM-4.7 的态度经历了一个有趣的变化过程:

初始质疑 (2024 年底):
– “又一个’巨大飞跃’的营销噱头?”
– “评估标准是否变友好了?”

共识转变 (2025 年 1 月):
– “工程选择针对代理工作流稳定性,而非单个英雄数字”
– “Preserved Thinking 是真正的突破,解决实际痛点”

而在 r/LocalLLaMA 社区^[38],开源乐观主义者认为:
– “GLM-4.7 是首个真正威胁 GPT 的开源模型”
– “开源与专有的平衡正在转变”

技术博客评价

BinaryVerse AI 总结了 GLM-4.7 的 12 项决定性优势^[39]:
1. $3 入门价格
2. 强大的工具使用
3. Preserved Thinking 稳定性
4. 开放权重选项
5. 200K 上下文窗口
6. 128K 输出能力
7. HLE 42.8% 基准
8. SWE-bench 73.8% 表现
9. 多语言编码 +13% 提升
10. Vibe Coding 审美优化
11. 代理框架开箱支持
12. 成本效益比突出

LLM Stats 的分析则相对中性和全面^[40]:
– 正面: MoE 架构计算效率高、上下文 + 输出组合业界领先、定价对企业和个人都友好
– 中性: 部分基准测试为自报告、独立第三方验证有限

局限性:不是完美的

当然,GLM-4.7 也不是完美的,社区也提到了一些局限性:

技术局限

复杂设计任务: Spotify 克隆等需要人工精修^[46]
输出控制: 长输出可能导致成本飙升 ($2.20/1M)
本地部署: 需要高端硬件,多 GPU 配置
知识截止: 截至 2024 年中后期,部分最新信息缺失

商业与信任考量

开发者也关注一些实际问题^[47]:
– 长期可靠性: 新玩家的服务稳定性
– 数据隐私: API 训练政策透明度
– 生态系统: 相比 OpenAI/Claude 成熟度不足
– 支持质量: 文档和社区资源相对有限

Z.ai 官方承诺:
– API 不存储用户数据
– 实时处理,无数据留存
– 本地部署提供完全控制

适用场景:什么时候用?

最佳适用场景

强烈推荐:
1. 编码代理工作流 —— Cline, Roo Code, Claude Code 集成,长时间项目开发,多步骤工具调用
2. 多语言开发 —— 国际化团队,非英语代码库,跨语言项目迁移
3. 成本敏感项目 —— 初创公司,个人开发者,教育用途
4. 快速原型开发 —— Vibe Coding 前端优势,完整模块单次生成,UI/UX 快速迭代

谨慎使用场景

需要评估:
1. 企业级生产环境 —— 服务稳定性验证期,成熟度低于 GPT/Claude
2. 极简指令零样本 —— Claude 4.5 在某些场景仍更优,需要明确提示
3. 最新信息依赖 —— 知识截至 2024 年中后期,实时数据需结合搜索工具

部署选择指南

需求	推荐方案	成本考量
日常编码学习	$3 Z.ai Coding Plan	月订阅,配额限制
重度编码使用 🔥	Coding Plan Max 拼车	20-30 元/月,基本无限量
产品集成	GLM API	按 Token 计费
隐私合规	本地部署	硬件成本高
高可用性	API + 第三方聚合	多提供商备份

技术架构:有什么特别之处?

MoE (混合专家) 架构

GLM-4.7 采用 MoE (Mixture of Experts) 架构:
– 仅激活与任务相关的模型区域
– 模仿生物神经处理
– 降低能耗和延迟

实际优势:
– 更快的 Token 生成
– 更低的单位计算成本
– 适合企业级扩展

上下文与输出能力

业界领先的组合:

能力	GLM-4.7	竞品典型值	优势
上下文窗口	200K tokens 🔥	128K-200K	处理大型代码库
最大输出	128K tokens 🔥	4K-8K	单次生成完整模块

实际应用场景:
– 整个软件框架一次生成
– 大型技术文档分析
– 长篇小说创作

未来展望

短期 (2025 Q1-Q2)

社区期待:
– 完整权重开源
– 更好的本地部署文档
– 更多独立第三方基准验证

中长期影响

开源模型生态:
– GLM-4.7 可能成为开源模型新标杆
– 推动其他厂商降低价格
– 加速”开放权重”趋势

开发者工作流变化:
– 代理式编程成为主流
– 本地部署需求增长
– 成本压力推动 GLM 采用

小结

GLM-4.7 是 2025 年最值得关注的开源 LLM 之一。核心优势在于性能达到 GPT-5.1/Claude 4.5 水平,价格仅为竞品的 1/4 到 1/7,Preserved Thinking 和 Vibe Coding 显著提升代理稳定性和前端代码质量,且开放权重支持本地部署。当然,本地部署硬件门槛高、服务成熟度有待验证、长上下文推理深度不及 GPT-5.2 High,这些也是需要考虑的因素。

对于编码代理用户、预算有限的开发者、多语言项目或有隐私部署需求的团队,GLM-4.7 值得立即尝试。建议用 $3 计划测试真实项目,重度使用者可考虑拼车 Coding Plan Max (20-30 元/月基本无限量)。基准测试不是全部,真实工作流中的代理稳定性和长期成本更重要。理性看待,结合实际需求选择,哈哈! 😄

苯苯点评:GLM-4.7 算是性价比超绝的开源模型,20-30 元拼车 Max 版基本无限量使用更是炸裂,但本地部署硬件门槛确实是个问题。适合预算有限的个人开发者和小团队尝试,特别是编码代理场景。如果你在用 Claude Code 或 Cline,不妨试试 GLM-4.7,看看是否符合你的需求。

参考文献

Sebastian Crossa. “GLM-4.7: Pricing, Benchmarks, and Full Model Analysis.” LLM Stats, 22 Dec 2025. ↩
Azmat. “GLM-4.7 Review: 12 Definitive Wins For Agentic Coding 2025.” BinaryVerse AI, 23 Dec 2025. ↩
Ibid. (Pricing section) ↩
“GLM 4.7 AI Model Review : Low Cost, 202k Context & Smart Thinking Modes.” Geeky Gadgets, 25 Dec 2025. ↩
Zhipu AI. “GLM-4.7: Advancing the Coding Capability.” Z.ai Blog, Dec 2025. ↩
BinaryVerse AI, op. cit. (Vibe Coding section) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Reddit discussions, r/singularity and r/LocalLLaMA, Dec 2025 – Jan 2026. ↩
Geeky Gadgets, op. cit. (Limitations section) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
LLM Stats, op. cit. (Benchmark Performance section) https://llm-stats.com/blog/research/glm-4.7-launch ↩
BinaryVerse AI, op. cit. (Humanity’s Last Exam analysis) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
LLM Stats, op. cit. (SWE-bench results) https://llm-stats.com/blog/research/glm-4.7-launch ↩
Ibid. (Multilingual SWE-bench) https://llm-stats.com/blog/research/glm-4.7-launch ↩
Geeky Gadgets, op. cit. (Terminal Bench) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
BinaryVerse AI, op. cit. (τ²-Bench) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Geeky Gadgets, op. cit. (GPQA performance) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
BinaryVerse AI, op. cit. (Tool Use analysis) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
LLM Stats, op. cit. (Real-world coding) https://llm-stats.com/blog/research/glm-4.7-launch ↩
Ibid. (Multilingual capabilities) https://llm-stats.com/blog/research/glm-4.7-launch ↩
“Glm 4.7 Pricing (Updated 2025).” PricePerToken, 2025. ↩
BinaryVerse AI, op. cit. (Expert Take) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Geeky Gadgets, op. cit. (Applications and Use Cases) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
Ibid. (Limitations and Areas for Growth) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
LLM Stats, op. cit. (Pricing section) https://llm-stats.com/blog/research/glm-4.7-launch ↩
Ibid. (Context Caching) https://llm-stats.com/blog/research/glm-4.7-launch ↩
BinaryVerse AI, op. cit. (Pricing Reality) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Reddit r/singularity discussions, Dec 2025. ↩
PricePerToken, op. cit. https://pricepertoken.com/pricing-page/model/z-ai-glm-4.7 ↩
BinaryVerse AI, op. cit. (Local Deployment Guide) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Ibid. (Scenario Fit Table) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Zhipu AI, op. cit. (Preserved Thinking) https://z.ai/blog/glm-4.7 ↩
BinaryVerse AI, op. cit. (Interleaved Thinking) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
LLM Stats, op. cit. (Vibe Coding) https://llm-stats.com/blog/research/glm-4.7-launch ↩
Geeky Gadgets, op. cit. (Agent Frameworks) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
BinaryVerse AI, op. cit. (Why This Changes Agent Stability) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Reddit r/LocalLLaMA, Dec 2025. ↩
BinaryVerse AI, op. cit. (Roleplay and Creative Writing) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Reddit r/singularity, “GLM-4.7 release discussion”, Dec 2025. ↩
Reddit r/LocalLLaMA, “Open source catching up to AGI?”, Dec 2025. ↩
BinaryVerse AI, op. cit. (12 Definitive Wins) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
LLM Stats, op. cit. (Conclusion) https://llm-stats.com/blog/research/glm-4.7-launch ↩
“GLM-4.7 Reviews – 2025.” Slashdot, 2025. ↩
LLM Stats, op. cit. (MoE Architecture) https://llm-stats.com/blog/research/glm-4.7-launch ↩
Ibid. (Context Window and Output) https://llm-stats.com/blog/research/glm-4.7-launch ↩
BinaryVerse AI, op. cit. (Tool Use) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
LLM Stats, op. cit. (Developer-friendly Design) https://llm-stats.com/blog/research/glm-4.7-launch ↩
Geeky Gadgets, op. cit. (Limitations) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
BinaryVerse AI, op. cit. (Cons sections) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Ibid. (Safety and Privacy) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
LLM Stats, op. cit. (Competitive Landscape) https://llm-stats.com/blog/research/glm-4.7-launch ↩
BinaryVerse AI, op. cit. (Final Verdict) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Geeky Gadgets, op. cit. (Use Case Assessment) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
BinaryVerse AI, op. cit. (Scenario Fit Table) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Reddit community discussions, Dec 2025 – Jan 2026. ↩
“GLM-4.7 Is the First Open Model That Actually Threatens GPT-5.” AI Plain English, Dec 2025. ↩
LLM Stats, op. cit. (Conclusion) https://llm-stats.com/blog/research/glm-4.7-launch ↩
BinaryVerse AI, op. cit. (Who is GLM-4.7 For?) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
Ibid. (Expert Take) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
LLM Stats, op. cit. (Enterprise Considerations) https://llm-stats.com/blog/research/glm-4.7-launch ↩
BinaryVerse AI, op. cit. (The Second Order Cost) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩

其他参考资料:
– 智谱上线Claude Code 专属包月套餐,月费低至20 元 – OSChina
– GLM Coding Max 拼车 – V2EX
– GLM Coding Max 官方拼车 – NGA 论坛
– 20元用到饱?智谱GLM上线包月套餐 – B站

---------------
完结，撒花！如果您点一下广告，可以养活苯苯😍😍😍

概览

前言