GPT-4.1一手实测，实力绝对被低估了

superadmin 4 月 17, 2025 30 0

家人们，OpenAI 的这波操作我是真的蚌埠住了。

前有听起来很厉害的 GPT-4.5，今有 GPT-4.1 闪亮登场，以 API 的形式。

OpenAI 今天凌晨开直播，发布了 4.1 系列，包括三款模型，分别是——

GPT-4.1 （旗舰版）
GPT-4.1-mini （轻量版，主打性价比）
GPT-4.1-nano （微型版，OpenAI 史上最便宜）

还记得定义了大模型时代的 GPT-4 吗？前几天被宣告下线，OpenAI 这次意在将接力棒交到 GPT-4.1 手中。

提到 GPT-4 ，作为曾经大模型的标杆，2023 年 3 月份发布，整整“统治”AI 大模型领域一年多的时间，谁还没领略过当年各家大模型厂商赶超 GPT-4 的热潮，绝对是历史留名。

GPT-4.1 作为接棒 GPT-4 的“全村希望”，OpenAI 对 GPT-4.1 的期望极高。宣称它在编码、长上下文、指令遵循、视觉等任务上全面吊打了此前的明星模型 GPT-4o。

甚至在某些关键指标上比肩乃至超越了更贵的 GPT-4.5！官方的说法是“每个维度都更强”，底气十足。

快速看下亮点——

1M 上下文窗口：100 万 token，约 75 万字。
编码能力：SWE-bench Verified 得分 54.6%，比 GPT-4o 高 21.4%，比 GPT-4.5 强 26.6%。
多模态：支持文本、图像、视频输入，Video-MME“长视频无字幕”测试拿下 72% 准确率，碾压 GPT-4o 的 65.3%。
指令遵循：复杂指令理解更精准，适合驱动 AI 代理干活
知识库更新到 24 年 6 月。

这次 GPT-4.1 特别强调了编码和长上下文能力。我们来看看它在两大编程基准测试中的表现：

SWE-bench Verified 是 SWE-bench 数据集的精炼子集，是 OpenAI 与原始作者合作开发，用于评估 AI 模型在软件工程任务中表现。

下图是官方提供的评测结果，GPT- 4.1 的得分超越了 o1-high o3-mini 和 GPT-4.5。

相比 SWE-bench Verified，只有 Python，而且偏工程化场景，Aider则是一个多语言编程测试集，包括 C++、Go、Java、JavaScript、Python、Rust 6 种编程语言，更侧重编程语言特性和复杂逻辑。

GPT-4.1 的表现，超越 GPT-4.5，但比 o1-high 、o3-mini-high 这俩推理模型还差一些。

除了效果上声称超越 4o，比肩 4.5，这次 GPT4.1 还主打一个“便宜”（单位：美元）。

比 GPT-4o 更便宜： 相比 GPT-4o 降低了 26% 到 83%
“背刺”GPT-4.5：性能比肩甚至部分超越 GPT-4.5 的 GPT-4.1，价格竟然只有 GPT-4.5 的 1/37.5
官方盖章的主力： OpenAI 同时宣布，将在 2025 年 7 月 14 日下线 GPT-4.5 API。这意味着什么？GPT-4.1 不仅是替代 GPT-4，更是未来一年 OpenAI 官方认证、主推的旗舰模型。

完毕，GPT-4.1 的理论优势已明确。又是性能起飞又是价格跳水，说实话，我的好奇心已经被拉满了。

现在，按照夕小瑶的风格，进入实测环节！

一手实测

先来一个灵魂拷问

4.10 大还是 4.5 大？

这道题连模型本身都思考了一下。

第一次答案竟然回答错了，还好后面纠正了回来，估计这是模型的“潜意识”不甘心。

编程能力

单词游戏

制作一个闪卡网页应用程序。用户应能：

创建闪卡

搜索现有闪卡

复习闪卡

查看复习的闪卡统计数据

预加载十张闪卡，每张卡片包含一个汉语语单词或短语及其英文翻译。

复习界面：

在复习界面中：

点击或按下空格键应以平滑的 3D 动画翻转卡片以显示翻译内容。

按左右方向键应在卡片之间导航切换。

搜索界面：

搜索栏应在用户输入查询时，动态提供匹配结果列表。

统计界面：

统计页面应显示：

创建卡片界面：

用户已经复习的闪卡数量图表

正确率的百分比

允许用户指定闪卡的正面和背面内容，并将其添加到用户的收藏中。

每个界面都应能通过侧边栏访问。

请生成一个单页 React 应用程序（所有样式应为内联样式）。

卡片反转自然，复习、搜索、统计、创建 4 个页面所有的功能均正常，交互也非常顺畅。第一个 case 轻松通过。

修图 APP

用 p5js 生成一个网页:

中间是一个类似电视机的屏幕，用于显示照片。

下方有一些内置的滤镜还有一个选择按钮，点击后允许上传本地图片。

旁边有一个上传按钮，点击后上传选择的图片，并在电视机屏幕上显示。

当有图片时，点击滤镜，会将滤镜应用在电视机屏幕里的图片上。每次点击滤镜都应用于原始图片

设计风格 : 使用深色侧边栏配合浅色主内容区的布局, 清新卡通风格，简洁清晰, 使用直观的图标表示不同功能, 配色方案应以粉色系为主，搭配适当的强调色

请提供完整的 HTML 代码，使用 Tailwind CSS 类

部分代码展示:

首先指令遵循确实牛，页面以粉色为主，类似电视机的屏幕用于显示图片，其次，滤镜应用于图片的效果，也是完全正确的，比如调成灰色，反色，都符合实际规律。

flapping bird 游戏

创建一个 Flapping Bird 的网页游戏，实现玩家控制和计分系统，在游戏过程中，在屏幕上清晰地显示当前得分。

直接上游戏运行效果——

一次过！

测到此，我已经有点被 GPT-4.1 的编程能力惊呆了。远比我预期的好太多。

弹跳小球模拟

弹跳小球的这个例子大家都见过很多次了，不过这次我找了一个非常专业的提示词，看看 GPT 4.1 在专业提示词下的编程表现如何。

这个提示词特别长，长到必须要要用视频来展示：

我们直接看效果：

这个效果惊艳不惊艳？所有的组件都正常工作，物理效果目测合理，更厉害的是这是一次跑出来的结果。

这个例子证明了一点，任何时候都不要轻视提示词。

计算器复刻

用 p5js 在单个文件内生成一个具有完整功能的计算器。

界面布局与常见计算器一样，功能正常，计算结果也准确，还考虑了“除以零”这种特殊情况。

这个项目可以高分通过！

我终于知道这次 Altman 这么自信地吹 GPT-4.1 的编程能力，确实 🐮！

此外，1M 上下文也是这次升级的亮点，接下来捅穿它的底线。

GPT-4.1一手实测，实力绝对被低估了

一手实测

编程能力