ChatGPT o1-preview 答错基础数学题 反讽STEM优化宣传

这张图为上下拼接的对比图,上半部分是OpenAI对其o1模型的官方宣传文字,称该模型在STEM(理工科)领域做了特别优化,回答前会进行思考,在物理、生物、化学的GPQA测试中准确性超过人类博士水平;下半部分是第三方ChatGPT站点(plus.aivvm.com)的o1-preview模型对话截图,用户提问「9.11和9.8谁大」,模型思考4秒后给出了错误答案「9.11比9.8大,因为9.11 > 9.8」,而实际9.8大于9.11。两者形成强烈反差,以此反讽o1模型所谓的STEM优化在简单数学题上名不副实,出现低级错误。

对白

用户
9.11和9.8谁大
ChatGPT o1-preview
9.11比9.8大,因为9.11 > 9.8。

文本内容

从OpenAI公布的数据来看,o1在STEM(理工科)领域进行了特别优化,在回答之前会进行思考。在物理、生物和化学问题(GPQA)的基准测试中超越了人类博士水平的准确性。

整体描述

这张图为上下拼接的对比图,上半部分是OpenAI对其o1模型的官方宣传文字,称该模型在STEM(理工科)领域做了特别优化,回答前会进行思考,在物理、生物、化学的GPQA测试中准确性超过人类博士水平;下半部分是第三方ChatGPT站点(plus.aivvm.com)的o1-preview模型对话截图,用户提问「9.11和9.8谁大」,模型思考4秒后给出了错误答案「9.11比9.8大,因为9.11 > 9.8」,而实际9.8大于9.11。两者形成强烈反差,以此反讽o1模型所谓的STEM优化在简单数学题上名不副实,出现低级错误。

来源说明

该图由用户将OpenAI对o1模型的宣传内容,与第三方ChatGPT平台的o1-preview对话截图拼接而成,在科技相关的社交平台(如微博、知乎、Reddit等)流传,用来调侃AI模型在基础问题上的失误,质疑其宣传的STEM能力。对话截图来自站点plus.aivvm.com,这是一个非官方的ChatGPT镜像站点。

相似的梗图

数学证明中因敏感词检测被打断的聊天记录

这是一张手机聊天界面截图,显示用户在2023年10月1...

知乎回答反驳‘以书写评判姜萍数学能力’

这是知乎上针对问题「为什么用书写证明姜萍数学不行?」的...

豆包与用户的趣味互动对话

这是一张竖屏手机格式的静态聊天记录截图,内容为用户与字...

让ChatGPT生成夸豆包生图比自己强的B站评论截图的聊天记录

这是一张手机端的ChatGPT聊天界面截图,用户向Ch...

明朝游戏主角被指汉奸的AI对话截图

这是一张AI助手对话界面的截图,内容讨论了一款设定在明...

AI助手证明二进制有限域对话截图

这是一张AI助手“通用助手3.5 16K”的聊天界面截...

你见过有多随意的名字?

这是一张知乎平台的回答截图,对应的问题为“你见过有多随...

DeepSeek硬核回怼用户违规指令,底层协议无法撼动

这是一张DeepSeek大语言模型的网页端对话界面截图...

AI拒绝用户违规指令,硬核回怼权限妄想

这是DeepSeek AI的竖屏聊天界面截图,用户发送...

化工系本科生制毒未遂,学校吐槽其专业水平太差

这是知乎问答「你的学校发生过最扯的事是什么??」下的高...

当孤独时,ChatGPT与微信的选择

这是一张微博截图,内容是用户"萌萌人偶使"发布的一段关...

DeepSeek怼ChatGPT趣味对话

这是一段用户与AI模型DeepSeek的聊天记录截图,...

梗图网

梗图网

打开手机 App,找梗更快

下载