ChatGPT o1-preview 答错基础数学题 反讽STEM优化宣传
对白
文本内容
从OpenAI公布的数据来看,o1在STEM(理工科)领域进行了特别优化,在回答之前会进行思考。在物理、生物和化学问题(GPQA)的基准测试中超越了人类博士水平的准确性。
整体描述
这张图为上下拼接的对比图,上半部分是OpenAI对其o1模型的官方宣传文字,称该模型在STEM(理工科)领域做了特别优化,回答前会进行思考,在物理、生物、化学的GPQA测试中准确性超过人类博士水平;下半部分是第三方ChatGPT站点(plus.aivvm.com)的o1-preview模型对话截图,用户提问「9.11和9.8谁大」,模型思考4秒后给出了错误答案「9.11比9.8大,因为9.11 > 9.8」,而实际9.8大于9.11。两者形成强烈反差,以此反讽o1模型所谓的STEM优化在简单数学题上名不副实,出现低级错误。
来源说明
该图由用户将OpenAI对o1模型的宣传内容,与第三方ChatGPT平台的o1-preview对话截图拼接而成,在科技相关的社交平台(如微博、知乎、Reddit等)流传,用来调侃AI模型在基础问题上的失误,质疑其宣传的STEM能力。对话截图来自站点plus.aivvm.com,这是一个非官方的ChatGPT镜像站点。