如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-19 14:30:12
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-29 08:45:11为什么越来越多的学生感染艾滋病?
- 2025-06-29 08:10:11马景涛这些年到底经历了什么?
- 2025-06-29 08:40:11如何评价河北旅游口号“这么近,那么美,周末到河北”?
- 2025-06-29 09:25:11用K8s的公司有多少人会部署K8s?
- 2025-06-29 08:40:11如何看待小米 YU7 3 分钟大定突破 20 万辆,锁单 12.2 万辆?小米汽车做对了什么?
- 2025-06-29 09:00:11做个web服务器,gin框架和go-zero怎么选?
- 2025-06-29 08:10:11现在已经有5K、6K、8K分辨率显示器,那么8K之后是什么?
- 2025-06-29 08:20:11百兆宽带接电脑可以跑满,接路由器wan口速率自动协商只有10m该如何解决?
- 2025-06-29 08:15:11胸围到了70F?可是穿衣却不显大正常吗?
- 2025-06-29 09:05:12为什么大家不再提星链了(包括外网)?
推荐产品
-
你卡过最厉害的bug是什么?
我娃卡出来的bug, 现在的孩子吧,给手机就不好好学习。 不 -
为什么那么多美国人对特定食物过敏,而在中国很少听说?
为什么呢?我举几个例子: 饼干:美国饼干里加硼砂,对,就是我 -
鸿蒙PC操作系统是不是就是手机操作系统?
你没理解这句话 这是微软(曾经) 这是苹果 这是 -
creo 的功能有什么特色?
简而言之 1.操作严谨(说是反人类,但能避免很多问题的发生)
最新资讯