概览
- GLM-4.7 是智谱 AI 于 2025 年 12 月发布的开源大语言模型,在编码能力和推理性能上达到 GPT-5.1 和 Claude 4.5 Sonnet 水平
- API 价格仅为竞品的 1/4 到 1/7,月费 $3 的入门计划引发开发者热议
- 特色功能 “Vibe Coding” 和 “Preserved Thinking” 显著提升了前端代码质量和多轮对话稳定性
- 在 SWE-bench Verified 基准测试中取得 73.8% 的成绩,开源模型中达到 SOTA
- 适合编码代理、多语言开发和成本敏感项目,但本地部署需要高端硬件
前言
最近在刷 Reddit 和技术博客的时候,发现一个名字频繁出现——GLM-4.7。这是智谱 AI (Zhipu AI) 在 2025 年 12 月下旬发布的开源大语言模型,号称在编码能力和推理性能上达到 GPT-5.1 和 Claude 4.5 Sonnet 水平。作为一个对 AI 模型感兴趣的小伙伴,我就好奇地研究了一下,结果发现这模型还真是有点东西 😲
最让我震惊的是它的性价比。API 价格只有 GPT 和 Claude 的 1/4 到 1/7,还有一个 $3/月的入门计划。更炸裂的是,社区里很多人在拼车使用 Coding Plan Max——通过官方或第三方平台拼车,每个月 20-30 元就能基本实现个人无限量使用,性价比简直炸裂!
不过光便宜没用,关键还得看实力。今天这篇文章,我就基于国外的技术博客、Reddit 讨论和权威评测,给小伙伴们全面分析一下 GLM-4.7 到底怎么样,值不值得尝试。
性能表现:真的能打吗?
核心基准测试成绩
先上干货,看看 GLM-4.7 在各种基准测试中的表现[9]:
| 基准测试 | GLM-4.7 得分 | 相比 GLM-4.6 提升 | 竞品对比 |
|---|---|---|---|
| Humanity’s Last Exam (HLE) | 42.8% 🔥 | +12.4% | 工具辅助下接近 GPT-5.1 |
| SWE-bench Verified | 73.8% 🔥 | +5.8% | 开源 SOTA |
| SWE-bench Multilingual | 66.7% | +13% | 多语言编码优势明显 |
| Terminal Bench | 41% | – | 终端任务处理优秀 |
| τ²-Bench | 开源 SOTA | – | 工具使用能力突出 |
这里有几个值得关注的点:
HLE (Humanity’s Last Exam) 42.8% 是什么概念?这个测试评估的是高级学术环境中的推理能力,工具辅助版本显示模型能结合外部工具调用与推理,而不是仅依赖记忆[16]。能接近 GPT-5.1 的水平,说明推理能力确实不弱。
SWE-bench 73.8% 更有意思,这个测试是基于真实 GitHub 问题评估的,也就是说模型能处理实际工程问题,不是只会做”考试题”[17]。73.8% 在开源模型中是 SOTA (State of the Art),确实厉害。
多语言编码 +13% 的提升也很有价值,说明模型在非英语代码库和国际开发环境中的适应性更好。
和主流模型对比
那么,GLM-4.7 和 GPT-5.1、Claude 4.5 Sonnet 这些顶级模型比起来怎么样呢?
| 维度 | GLM-4.7 | Claude 4.5 Sonnet | GPT-5.1 | 评价 |
|---|---|---|---|---|
| 编码能力 | 73.8% SWE-bench | 略优 | 接近 | GLM-4.7 差距小 |
| 工具使用 | 开源 SOTA | 强 | 强 | GLM-4.7 擅长多步骤工具调用 |
| 前端审美 | Vibe Coding | 优秀 | 良好 | GLM-4.7 专门优化 |
| 推理深度 | HLE 42.8% | 接近 | 略高 | GLM-4.7 性价比高 |
| 价格 | $0.60/1M 输入 💰 | 更高 | 更高 | GLM-4.7 便宜 4-7 倍 |
正如 BinaryVerse AI 的评测所说[2]:
“GLM-4.7 不是在所有基准上全面超越,但在工具辅助场景和实际编码任务中,它达到了与顶级专有模型几乎相同的水平。”
真实场景表现
基准测试归基准测试,真实使用场景怎么样呢?
根据社区反馈[21],GLM-4.7 成功从零构建了:
– Minecraft 克隆——可玩原型
– Karum 棋盘游戏——完整游戏逻辑
– 浏览器操作系统——功能完整的 Web OS
当然,也不是完美无缺。Spotify 克隆这样复杂的设计任务,仍然需要人工优化样式,部分复杂 UI 也需要开发者手动精修[22]。不过这个水平已经相当不错了,哈哈! 😎
个人使用经验
说了这么多社区的评价,我自己也实际用 GLM-4.7 有一段时间了,给小伙伴们分享一下真实体验。
小型项目开发
总的来说,一般小型项目都可以用,又快又好。不管是写 Python 脚本、Web 应用,还是日常的编码辅助,GLM-4.7 的表现都很稳定。配合拼车后的 Max 版,基本不用担心配额问题,刷刷刷地用,体验很爽 😎
长上下文 + 长推理任务
但是,一些长上下文 + 长推理任务,比如写严肃的学术综述,还是得 GPT-5.2 High 比较权威。GLM-4.7 在处理需要深度推理、多步推导的学术写作时,偶尔会有逻辑跳跃或者不够严谨的情况。而 GPT-5.2 High 在这类任务上明显更靠谱,论证更严密,引用更准确。
复杂代码库
至于 Claude 4.5 Opus,理论上在复杂代码库中的作用比较强,但实际使用中,我似乎暂时还没想到必须要用它的场景。GLM-4.7 的编码能力对我来说已经够用了,除非遇到特别复杂的遗留代码重构或者超大项目的架构调整,可能才会考虑用 Opus。
我的选择策略
| 使用场景 | 首选模型 | 原因 |
|---|---|---|
| 日常编码 | GLM-4.7 | 拼车 Max,便宜又好用 |
| 学术写作 | GPT-5.2 High | 严谨性和权威性 |
| 复杂重构 | Claude 4.5 Opus | 必要时备用 |
| 快速原型 | GLM-4.7 | Vibe Coding 前端优势 |
当然,这只是我的个人经验,不同场景可能有不同选择。小伙伴们在实际使用中还是要根据自己的需求来,哈哈! 😄
性价比:真的这么便宜吗?
API 定价详解
说到性价比,这可是 GLM-4.7 的大杀器啊!咱们直接上数据[23]:
| 计费项 | GLM-4.7 价格 | 竞品参考 | 优势 |
|---|---|---|---|
| 输入 Token | $0.60 / 1M 💰 | GPT/Claude: $2.5-5.0 | 便宜 4-8 倍 |
| 输出 Token | $2.20 / 1M 💰 | GPT/Claude: $10-15 | 便宜 5-7 倍 |
| 缓存输入 | ~$0.11 / 1M | – | 20-40% 成本节省[24] |
还有个 $3/月的入门计划,专为编码代理工具 (Cline, Roo Code, Claude Code) 设计:
– 配额每 5 小时重置
– 不支持直接 API 调用
– 适合个人开发者日常使用
更炸裂的是 Coding Plan Max 拼车方案 🔥:
社区里很多人通过拼车方式使用 Coding Plan Max,性价比真的超绝:
| 拼车方案 | 价格 | 说明 |
|---|---|---|
| NGA 官方拼车 | 28 元/月 (年付) 💰 | 寻 2 人,Max 套餐配额 |
| V2EX 5 人拼车 | 40 元/月 (按月) 💰 | 独立账号,按月付费 |
拼车优势:
– 20-30 元/月基本实现个人无限量使用 (相比官方 $3/月 的 Lite 版,Max 版配额是 20 倍)
– Max 版每 5 小时可处理 2400 次提示 (Lite 版仅 120 次)
– 月度总量对个人开发者来说基本够用
– 官方支持拼车,安全性有保障
这个定价策略真的很有意思,$3 比 Netflix 便宜,而拼车后 20 多元就能无限量使用,彻底改变了谁能使用严肃模型的格局。Reddit 上有开发者评论说:
“$3 的价格让个人开发者和小团队也能用上顶级模型,这可能会改变整个开发工具生态。”
当然,也有人质疑”是否有隐藏成本?长期可靠性如何?” 这也是合理的担忧。
成本对比示例
让我们看几个具体的成本对比场景:
| 场景 | GLM-4.7 | Claude 4.5 | 节省 |
|---|---|---|---|
| 月度 100M token | ~$140 💰 | ~$800-1200 | 85% 🔥 |
| 大型代码库分析 | 缓存优惠 $0.11/M | 全价 $2.5-5/M | 90%+ 🔥 |
对于成本敏感的初创公司、个人开发者或教育用途,这个价格优势确实很有吸引力。
特色功能:有什么黑科技?
Preserved Thinking (保留思考)
这个功能可能是 GLM-4.7 最具创新性的特性之一[30]。
在多轮编码代理场景中,模型保留内部推理块,避免”金鱼记忆”问题。实际效果是:
– 减少代理漂移
– 保持计划一致性
– 让代理在第二天的会话中记住昨天的上下文
有开发者评价说[34]:
“这是让代理真正可用的关键,不是炫技,是工程实用性。”
确实,如果你用过 Claude Code 或 Cline 这样的编码代理,应该会遇到过模型”忘记”之前计划的情况。Preserved Thinking 正是解决这个痛点的。
Vibe Coding (审美编码)
Vibe Coding 是 GLM-4.7 的另一个亮点[32],增强的审美智能,生成更现代、干净的 UI:
– 更好的视觉层次
– 色彩和谐
– 布局结构合理
社区评价说”减少修复默认 CSS 的时间,真正可用的前端代码”。
对于我这样不太擅长前端设计的人来说,这个功能确实很实用 (~ ̄▽ ̄)~
Interleaved Thinking (交错思考)
模型在每个响应和工具调用前进行推理[31],处理复杂工作流时效率更高,特别适合:
– 多步骤任务
– 长时间项目
– 复杂工作流
编码代理集成:开箱即用
GLM-4.7 对主流编码代理框架的支持相当好[33]:
| 代理工具 | 集成状态 | 评价 |
|---|---|---|
| Claude Code ✅ | 官方支持 | 兼容性优秀 |
| Cline ✅ | 优化支持 | $3 计划直接可用 |
| Roo Code ✅ | 优化支持 | 代理稳定性提升 |
| Kilo Code ✅ | 支持 | 工具调用能力强 |
正如 BinaryVerse AI 的深度评测所说[34]:
“GLM-4.7 不是更健谈的助手,而是更持久的队友。Preserved Thinking 让它能在第二天的会话中记住昨天的上下文。”
这个比喻挺形象的,哈哈! 😄
社区评价:从怀疑到认可
Reddit 讨论趋势
在 r/singularity 社区[37],对 GLM-4.7 的态度经历了一个有趣的变化过程:
初始质疑 (2024 年底):
– “又一个’巨大飞跃’的营销噱头?”
– “评估标准是否变友好了?”
共识转变 (2025 年 1 月):
– “工程选择针对代理工作流稳定性,而非单个英雄数字”
– “Preserved Thinking 是真正的突破,解决实际痛点”
而在 r/LocalLLaMA 社区[38],开源乐观主义者认为:
– “GLM-4.7 是首个真正威胁 GPT 的开源模型”
– “开源与专有的平衡正在转变”
技术博客评价
BinaryVerse AI 总结了 GLM-4.7 的 12 项决定性优势[39]:
1. $3 入门价格
2. 强大的工具使用
3. Preserved Thinking 稳定性
4. 开放权重选项
5. 200K 上下文窗口
6. 128K 输出能力
7. HLE 42.8% 基准
8. SWE-bench 73.8% 表现
9. 多语言编码 +13% 提升
10. Vibe Coding 审美优化
11. 代理框架开箱支持
12. 成本效益比突出
LLM Stats 的分析则相对中性和全面[40]:
– 正面: MoE 架构计算效率高、上下文 + 输出组合业界领先、定价对企业和个人都友好
– 中性: 部分基准测试为自报告、独立第三方验证有限
局限性:不是完美的
当然,GLM-4.7 也不是完美的,社区也提到了一些局限性:
技术局限
- 复杂设计任务: Spotify 克隆等需要人工精修[46]
- 输出控制: 长输出可能导致成本飙升 ($2.20/1M)
- 本地部署: 需要高端硬件,多 GPU 配置
- 知识截止: 截至 2024 年中后期,部分最新信息缺失
商业与信任考量
开发者也关注一些实际问题[47]:
– 长期可靠性: 新玩家的服务稳定性
– 数据隐私: API 训练政策透明度
– 生态系统: 相比 OpenAI/Claude 成熟度不足
– 支持质量: 文档和社区资源相对有限
Z.ai 官方承诺:
– API 不存储用户数据
– 实时处理,无数据留存
– 本地部署提供完全控制
适用场景:什么时候用?
最佳适用场景
强烈推荐:
1. 编码代理工作流 —— Cline, Roo Code, Claude Code 集成,长时间项目开发,多步骤工具调用
2. 多语言开发 —— 国际化团队,非英语代码库,跨语言项目迁移
3. 成本敏感项目 —— 初创公司,个人开发者,教育用途
4. 快速原型开发 —— Vibe Coding 前端优势,完整模块单次生成,UI/UX 快速迭代
谨慎使用场景
需要评估:
1. 企业级生产环境 —— 服务稳定性验证期,成熟度低于 GPT/Claude
2. 极简指令零样本 —— Claude 4.5 在某些场景仍更优,需要明确提示
3. 最新信息依赖 —— 知识截至 2024 年中后期,实时数据需结合搜索工具
部署选择指南
| 需求 | 推荐方案 | 成本考量 |
|---|---|---|
| 日常编码学习 | $3 Z.ai Coding Plan | 月订阅,配额限制 |
| 重度编码使用 🔥 | Coding Plan Max 拼车 | 20-30 元/月,基本无限量 |
| 产品集成 | GLM API | 按 Token 计费 |
| 隐私合规 | 本地部署 | 硬件成本高 |
| 高可用性 | API + 第三方聚合 | 多提供商备份 |
技术架构:有什么特别之处?
MoE (混合专家) 架构
GLM-4.7 采用 MoE (Mixture of Experts) 架构:
– 仅激活与任务相关的模型区域
– 模仿生物神经处理
– 降低能耗和延迟
实际优势:
– 更快的 Token 生成
– 更低的单位计算成本
– 适合企业级扩展
上下文与输出能力
业界领先的组合:
| 能力 | GLM-4.7 | 竞品典型值 | 优势 |
|---|---|---|---|
| 上下文窗口 | 200K tokens 🔥 | 128K-200K | 处理大型代码库 |
| 最大输出 | 128K tokens 🔥 | 4K-8K | 单次生成完整模块 |
实际应用场景:
– 整个软件框架一次生成
– 大型技术文档分析
– 长篇小说创作
未来展望
短期 (2025 Q1-Q2)
社区期待:
– 完整权重开源
– 更好的本地部署文档
– 更多独立第三方基准验证
中长期影响
开源模型生态:
– GLM-4.7 可能成为开源模型新标杆
– 推动其他厂商降低价格
– 加速”开放权重”趋势
开发者工作流变化:
– 代理式编程成为主流
– 本地部署需求增长
– 成本压力推动 GLM 采用
小结
GLM-4.7 是 2025 年最值得关注的开源 LLM 之一。核心优势在于性能达到 GPT-5.1/Claude 4.5 水平,价格仅为竞品的 1/4 到 1/7,Preserved Thinking 和 Vibe Coding 显著提升代理稳定性和前端代码质量,且开放权重支持本地部署。当然,本地部署硬件门槛高、服务成熟度有待验证、长上下文推理深度不及 GPT-5.2 High,这些也是需要考虑的因素。
对于编码代理用户、预算有限的开发者、多语言项目或有隐私部署需求的团队,GLM-4.7 值得立即尝试。建议用 $3 计划测试真实项目,重度使用者可考虑拼车 Coding Plan Max (20-30 元/月基本无限量)。基准测试不是全部,真实工作流中的代理稳定性和长期成本更重要。理性看待,结合实际需求选择,哈哈! 😄
苯苯点评:GLM-4.7 算是性价比超绝的开源模型,20-30 元拼车 Max 版基本无限量使用更是炸裂,但本地部署硬件门槛确实是个问题。适合预算有限的个人开发者和小团队尝试,特别是编码代理场景。如果你在用 Claude Code 或 Cline,不妨试试 GLM-4.7,看看是否符合你的需求。
参考文献
- Sebastian Crossa. “GLM-4.7: Pricing, Benchmarks, and Full Model Analysis.” LLM Stats, 22 Dec 2025. ↩
- Azmat. “GLM-4.7 Review: 12 Definitive Wins For Agentic Coding 2025.” BinaryVerse AI, 23 Dec 2025. ↩
- Ibid. (Pricing section) ↩
- “GLM 4.7 AI Model Review : Low Cost, 202k Context & Smart Thinking Modes.” Geeky Gadgets, 25 Dec 2025. ↩
- Zhipu AI. “GLM-4.7: Advancing the Coding Capability.” Z.ai Blog, Dec 2025. ↩
- BinaryVerse AI, op. cit. (Vibe Coding section) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Reddit discussions, r/singularity and r/LocalLLaMA, Dec 2025 – Jan 2026. ↩
- Geeky Gadgets, op. cit. (Limitations section) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
- LLM Stats, op. cit. (Benchmark Performance section) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- BinaryVerse AI, op. cit. (Humanity’s Last Exam analysis) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- LLM Stats, op. cit. (SWE-bench results) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- Ibid. (Multilingual SWE-bench) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- Geeky Gadgets, op. cit. (Terminal Bench) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
- BinaryVerse AI, op. cit. (τ²-Bench) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Geeky Gadgets, op. cit. (GPQA performance) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
- BinaryVerse AI, op. cit. (Tool Use analysis) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- LLM Stats, op. cit. (Real-world coding) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- Ibid. (Multilingual capabilities) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- “Glm 4.7 Pricing (Updated 2025).” PricePerToken, 2025. ↩
- BinaryVerse AI, op. cit. (Expert Take) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Geeky Gadgets, op. cit. (Applications and Use Cases) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
- Ibid. (Limitations and Areas for Growth) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
- LLM Stats, op. cit. (Pricing section) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- Ibid. (Context Caching) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- BinaryVerse AI, op. cit. (Pricing Reality) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Reddit r/singularity discussions, Dec 2025. ↩
- PricePerToken, op. cit. https://pricepertoken.com/pricing-page/model/z-ai-glm-4.7 ↩
- BinaryVerse AI, op. cit. (Local Deployment Guide) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Ibid. (Scenario Fit Table) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Zhipu AI, op. cit. (Preserved Thinking) https://z.ai/blog/glm-4.7 ↩
- BinaryVerse AI, op. cit. (Interleaved Thinking) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- LLM Stats, op. cit. (Vibe Coding) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- Geeky Gadgets, op. cit. (Agent Frameworks) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
- BinaryVerse AI, op. cit. (Why This Changes Agent Stability) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Reddit r/LocalLLaMA, Dec 2025. ↩
- BinaryVerse AI, op. cit. (Roleplay and Creative Writing) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Reddit r/singularity, “GLM-4.7 release discussion”, Dec 2025. ↩
- Reddit r/LocalLLaMA, “Open source catching up to AGI?”, Dec 2025. ↩
- BinaryVerse AI, op. cit. (12 Definitive Wins) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- LLM Stats, op. cit. (Conclusion) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- “GLM-4.7 Reviews – 2025.” Slashdot, 2025. ↩
- LLM Stats, op. cit. (MoE Architecture) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- Ibid. (Context Window and Output) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- BinaryVerse AI, op. cit. (Tool Use) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- LLM Stats, op. cit. (Developer-friendly Design) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- Geeky Gadgets, op. cit. (Limitations) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
- BinaryVerse AI, op. cit. (Cons sections) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Ibid. (Safety and Privacy) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- LLM Stats, op. cit. (Competitive Landscape) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- BinaryVerse AI, op. cit. (Final Verdict) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Geeky Gadgets, op. cit. (Use Case Assessment) https://www.geeky-gadgets.com/glm47-benchmark-results/ ↩
- BinaryVerse AI, op. cit. (Scenario Fit Table) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Reddit community discussions, Dec 2025 – Jan 2026. ↩
- “GLM-4.7 Is the First Open Model That Actually Threatens GPT-5.” AI Plain English, Dec 2025. ↩
- LLM Stats, op. cit. (Conclusion) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- BinaryVerse AI, op. cit. (Who is GLM-4.7 For?) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- Ibid. (Expert Take) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
- LLM Stats, op. cit. (Enterprise Considerations) https://llm-stats.com/blog/research/glm-4.7-launch ↩
- BinaryVerse AI, op. cit. (The Second Order Cost) https://binaryverseai.com/glm-4-7-review-3-benchmarks-z-ai-install-api-use/ ↩
其他参考资料:
– 智谱上线Claude Code 专属包月套餐,月费低至20 元 – OSChina
– GLM Coding Max 拼车 – V2EX
– GLM Coding Max 官方拼车 – NGA 论坛
– 20元用到饱?智谱GLM上线包月套餐 – B站
---------------
完结,撒花!如果您点一下广告,可以养活苯苯😍😍😍