GPT-5.2 发布｜信息全整理

GPT-5.2 发布｜信息全整理

发布日期：2025-12-12 07:11:47 浏览次数： 1103 来源：赛博禅心

推荐语

OpenAI发布GPT-5.2三大版本，性能全面升级，在专业任务上已超越70%人类专家水平。

核心内容：
1. GPT-5.2三大版本特性与适用场景
2. 在AIME、ARC-AGI等基准测试中的突破性表现
3. 专业工作场景（投行分析/代码编写/视觉识别）的实际应用效果

小优网站建设顾问

专业来源于二十一年的积累，用心让我们做到更好!

上周，Altman 发内部信说进入 Code Red，全力保 ChatGPT

刚刚，GPT-5.2 来了，包含三个版本

• GPT-5.2 Instant：日常对话，快
• GPT-5.2 Thinking：深度任务，代码、长文档、数学、规划
• GPT-5.2 Pro：最强，适合难题，愿意等

模型肯定是更强的，比如在AIME 2025 中取得满分，在 ARC-AGI-2 上拿到了 52.9%（和 Gemini3 相当）

今天开始向付费用户推送，API 已上线，标准版比 GPT-5.1 贵 40%

核心评测

如下图所示，是 GPT-5.2 的相关核心数据

注意：

• AIME 2025 满分（无工具）
• GPT-5.2 Pro 在 ARC-AGI-1 上达到 90.5%，是第一个突破 90% 的模型
• ARC-AGI-2 从 17.6% 到 52.9%，翻了三倍

处理真实工作

GDPval 是 OpenAI 新出的 benchmark

测的是 44 个职业的真实工作任务：
做 PPT、做表格、写分析报告

GPT-5.2 Thinking 在 70.9% 的任务上胜过或打平行业专家
GPT-5.2 Pro 更高，74.1%

速度是人类专家的 11 倍，成本不到 1%
一个评审员的评价：
「看起来像是一个有员工的专业公司做的，布局和建议都很专业，虽然还有一些小错误需要修正」

在投行分析师的表格建模任务上
比如给 Fortune 500 公司做三表模型、做 LBO 模型
平均分从 59.1% 提升到 68.4%

官方放了几个对比
GPT-5.2 做的表格和 PPT 比 GPT-5.1 精细很多

Workforce Planner 对比，左边 GPT-5.1，右边 GPT-5.2

要用这个功能，需要付费版（Plus、Pro、Business、Enterprise），选 GPT-5.2 Thinking 或 Pro

复杂任务可能要跑好几分钟

写代码

SWE-Bench Pro 是新的代码 benchmark
比 SWE-bench Verified 更难

测四种语言，不只是 Python，更接近真实软件工程
GPT-5.2 Thinking 55.6%，GPT-5.1 是 50.8%

前端能力也提升了，尤其是 3D 和复杂 UI
官方放了几个 demo，单 prompt 生成的

对此，Windsurf 的 CEO 表示
「这是 GPT-5 以来 agentic coding 最大的跃升，版本号的小幅升级低估了智能的大幅提升。我们会把它设为 Windsurf 和 Devin 核心工作流的默认模型」

看图

视觉能力提升明显，错误率基本减半

CharXiv Reasoning：科学论文图表问答，88.7%，GPT-5.1 是 80.3%

ScreenSpot-Pro，GUI 截图理解，86.3%，GPT-5.1 是 64.2%

此外，一个很明显的区别是：空间位置理解更强了
官方放了个主板识别的对比：给一张低质量的主板图片，让模型标注各个组件的位置

GPT-5.1 只能标几个，位置也不太对

GPT-5.2 能准确标注各个组件，位置基本对

长文档

OpenAI MRCRv2，测的是长文档中多个信息点的整合能力
在文档里插入多个相同的「针/needl」，然后问模型第 n 个针的内容是什么

4 needle 变体，GPT-5.2 Thinking 在 256k token 长度接近 100%
GPT-5.1 在同样长度只有 30% 左右

这是第一个在 4-needle 变体上达到接近 100%（256k）的模型

8 needle 更难，GPT-5.2 也有显著提升

API 还支持新的 /compact 端点，可以扩展有效上下文窗口，适合工具多、跑得久的任务

工具调用

Tau2-bench 测的是多轮对话中的工具使用，模拟客服场景
Telecom 领域，GPT-5.2 Thinking 98.7%，GPT-5.1 是 95.6%
Retail 领域，82.0%，GPT-5.1 是 77.9%

官方举了个例子
用户说：我从巴黎飞纽约的航班延误了，错过了转机去奥斯汀，行李也丢了，需要在纽约过夜，还有医疗原因需要前排座位

GPT-5.1 漏了好几步

GPT-5.2 一次性处理完：改签、特殊座位、赔偿，全部搞定

数学和科学

AIME 2025 100%，满分，无工具
HMMT 2025 年 2 月 99.4%，Pro 版 100%
GPQA Diamond 92.4%，Pro 版 93.2%
FrontierMath Tier 1-3 40.3%，Tier 4 14.6%
HLE（Humanity's Last Exam）34.5%（无工具），45.5%（有工具）

ARC-AGI 是测抽象推理的

ARC-AGI-1，GPT-5.2 Thinking 86.2%，Pro 版 90.5%，第一个突破 90%

ARC-AGI-2 更难，GPT-5.2 Thinking 52.9%，Pro 版 54.2%

GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%

幻觉

在 ChatGPT 真实用户查询上测试

有错误的回复比例从 8.8% 降到 6.2%,相对减少 30%

价格

涨了
GPT-5.2 比 GPT-5.1 贵 40%；GPT-5.2 Pro 的价格，一如既往的贵到离谱

官方解释：虽然单价更高，但 token 效率更高，达到同样效果的总成本反而更低

ChatGPT 订阅价格不变

可用性

ChatGPT 今天开始向付费用户推送：Plus、Pro、Go、Business、Enterprise
如果还没看到，过几天再试

GPT-5.1 在 ChatGPT 中还会保留三个月，之后下线
API 已经上线：

• gpt-5.2：Thinking 版
• gpt-5.2-chat-latest：Instant 版
• gpt-5.2-pro：Pro 版

新增 xhigh reasoning effort，适合对质量要求最高的任务
GPT-5.1、GPT-5、GPT-4.1 在 API 中暂时不会下线
Codex 优化版即将推出

安全

延续了 GPT-5 的 safe completion 研究
在自杀、自残、心理健康、情感依赖等敏感对话上的表现改进了

开始部署年龄预测模型，18 岁以下用户自动限制敏感内容
官方说过度拒绝的问题还在改进中

优网科技，优秀企业首选的互联网供应服务商

优网科技秉承"专业团队、品质服务" 的经营理念，诚信务实的服务了近万家客户，成为众多世界500强、集团和上市公司的长期合作伙伴！

优网科技成立于2001年，擅长网站建设、网站与各类业务系统深度整合，致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设（品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、微信小程序定制开发、移动端应用（手机站、APP开发）、微信定制开发（微信官网、微信商城、企业微信）等一系列互联网应用服务。

优网知识库

探索行业前沿，共享知识宝库

核心评测

处理真实工作

写代码

看图

长文档

工具调用

数学和科学

幻觉

价格

可用性

安全

智慧教育解决方案

智慧答题解决方案

智慧建材解决方案

智慧家装解决方案

智慧家居解决方案

智慧校园解决方案

企业微信解决方案

教育机构解决方案

家校互动解决方案

微信客服解决方案

智能收款解决方案

家装行业解决方案

建材行业解决方案

家居行业解决方案

家电行业解决方案

品牌网站设计

网页设计

APP开发

微信公众号定制开发

小程序开发

制作网站

企业建站

微网站

微官站

手机网站建设

优网知识库

探索行业前沿，共享知识宝库

GPT-5.2 发布｜信息全整理

核心评测

处理真实工作

写代码

看图

长文档

工具调用

数学和科学

幻觉

价格

可用性

安全

企微云

客户池

微信小名片

网站建设

优网科技

小名片

53AI

智慧教育解决方案

智慧答题解决方案

智慧建材解决方案

智慧家装解决方案

智慧家居解决方案

智慧校园解决方案

企业微信解决方案

教育机构解决方案

家校互动解决方案

微信客服解决方案

智能收款解决方案

家装行业解决方案

建材行业解决方案

家居行业解决方案

家电行业解决方案

品牌网站设计

网页设计

APP开发

微信公众号定制开发

小程序开发

制作网站

企业建站

微网站

微官站

手机网站建设