o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

这并不意味着 OpenAI 在说谎!

4月21日 消息:OpenAI 的新 AI 模型 o3 在第一方和第三方基准测试结果上存在差异,这也引发了人们对该公司透明度和模型测试实践的质疑。去年 12 月, OpenAI 的 o3 模型首次亮相,当时,该公司宣称这款模型能够解答 FrontierMath(一组极具挑战性的数学问题)中超过 25% 的题目 —— 这个成绩远超竞争对手 —— 第二名的正确率约为 2%。

“目前,市面上所有AI产品在 FrontierMath 上的得分都低于 2%,”OpenAI 首席研究官马克・陈(Mark Chen)在一次直播中表示,“我们(在内部测试中)发现,在激进的测试计算条件下,o3 能够达到超过 25% 的正确率。”

但事实证明,这个数字很可能是上限,实现这一成绩的 o3 版本所使用的计算资源比 OpenAI 上周公开推出的模型得多得多。

上周五,FrontierMath 所属研究机构 Epoch AI 公布了针对 o3 的独立基准测试结果。他们发现,o3 的得分约为 10% —— 远低于 OpenAI 所宣称的 25%。

o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

当然,这并不意味着 OpenAI 在说谎 —— OpenAI 在去年 12 月公布的基准测试结果还游一个“下限得分”,这个“下限”与 Epoch 观察到的得分相符。Epoch 还指出,其测试设置可能与 OpenAI 的不同,并且在评估中使用了更新版的 FrontierMath。

Epoch 写道:“我们的结果与 OpenAI 的结果存在差异,可能是因为 OpenAI 使用了更强大的内部架构进行评估,在测试时使用了更多计算资源,或者是因为这些结果是在 FrontierMath 的不同子集上运行得出的(FrontierMath – 2024 – 11 – 26 中的 180 道题与 FrontierMath – 2025 – 02 – 28 – private 中的 290 道题)。”

曾测试过 o3 预览版的 ARC Prize Foundation 在 X 上发帖称,公开的 o3 模型 “是另一个为聊天 / 产品使用场景进行调优的模型”,这证实了 Epoch 的报告。ARC Prize 写道:“所有已发布的 o3 计算层级都比我们(做基准测试时使用的)版本要小。” 一般来说,计算层级越高,基准测试得分可能越好。

o3模型基准测试分数仅为10%,远低于OpenAI宣传的25%

上周,OpenAI 的技术人员 Wenda Zhou 在一次直播中表示,与 12 月展示的 o3 版本相比,投入实际应用的 o3 “针对现实应用场景和速度进行了更多优化”。他补充说,因此可能会出现基准测试 “差异”。“我们进行了(优化),让(模型)更具成本效益,总体上更有用,” Zhou 说,“我们仍然希望 —— 也依旧认为 —— 这是一个更好的模型…… 当你提问时,不需要那么久的等待时间,对于这类模型来说,这很重要。”

这再次提醒人们,对于 AI 基准测试结果,最好不要轻信表面数据 —— 尤其是当数据来源是一家要推销服务的公司时。

文章来源于网络。发布者:贝多财经,转转请注明出处:https://www.bogmc.com/4155.html

(0)
贝多财经的头像贝多财经
上一篇 2025年4月22日 下午4:48
下一篇 2025年4月22日 下午4:50

相关推荐

  • AI产品榜去哪看?AI产品榜国内总榜网站推荐

    AIbase基地(https://www.aibase.com/zh)是一个专注于人工智能(AI)领域的综合性平台,旨在为用户提供全面的AI资讯、工具、产品推荐以及变现指南。它不仅是一个信息集散地,更是一个助力开发者、创业者和爱好者探索AI世界的强大工具。通过整合全球AI行业的最新动态、热门产品、开源项目以及变现案例,AIbase基地为用户提供了通往通用人工…

    2025年4月23日
    900
  • 2025年,苹果还将发布 15 款新品,这是清单列表!

    2025 年迄今为止,苹果已经发布了五款新产品,不过她们还为用户准备了更多惊喜。据 9to5mac 报道,除了 iOS 19 重新设计等重大软件更新外,预计年底前,苹果还将推出 15 款以上的 Apple 新产品。 以下是即将发布的所有新品清单: iPhone17 系列 经过多年的迭代更新,今年的 iPhone 17 系列预计将引发更多关注。Plus 机型已…

    2025年4月25日
    600
  • 山西翼城司机酒驾致母子一死一伤,当地回应:肇事者已被控制,事故正调查

    4月23日晚,有网友发布视频称山西省临汾市翼城县发生一起交通事故。现场视频显示,翼城县解放街与唐尧路交叉口多辆警车正在执行任务,周围有多人围观。 视频评论区有疑似现场目击者称,事故原因为肇事司机酒驾逃逸,造成一对母子身亡。 4月24日,华商报大风新闻记者联系到翼城县公安局交警大队询问此事,工作人员表示不方便回应,需向翼城县宣传部门了解。 随后,华商报大风新闻…

    2025年4月25日
    800
  • 湖南突发意外翻船事件!6人不幸溺亡

    4月21日晚,湖南省岳阳市平江县人民政府办公室发布情况通报: 4月21日17时30分许,湖南岳阳市平江县昌江河大洲乡都塘村水域发生一起村民自用小船意外翻船事件(经核实,事发时船上共6人)。 接警后,当地公安部门及时出警,并迅速协调蓝天救援队、森林消防等相关救援力量积极组织现场搜救。截至4月21日21时5分,6人已搜寻上岸,均不幸溺亡。目前,善后处置等工作正在…

    2025年4月22日
    1000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信