挑战高考数学卷，十大模型测评来了：AI刷题强到可怕？

runtu · 2025-6-11 08:52:07

2025年高考大幕虽已落下，但关于数学科目难度的讨论热度不减。

《每日经济新闻》记者（以下简称“每经记者”）选取今年的全国新课标数学I卷作为考题，对DeepSeek-R1、腾讯元宝（混元T1）、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型进行了测评，以检验当今主流AI推理大模型的数学能力。

测评结果显示，国产大模型DeepSeek-R1与腾讯混元T1以零错误并列榜首。而被马斯克称为“地表最强AI”的Grok 3却遭遇“滑铁卢”，排名倒数第三。

runtu · 2025-6-11 08:52:29

2025年高考大幕虽已落下，但关于数学科目难度的讨论热度不减。

《每日经济新闻》记者（以下简称“每经记者”）选取今年的全国新课标数学I卷作为考题，对DeepSeek-R1、腾讯元宝（混元T1）、OpenAI的o3、谷歌的Gemini 2.5 Pro和xAI的Grok3等十款AI推理大模型进行了测评，以检验当今主流AI推理大模型的数学能力。

测评结果显示，国产大模型DeepSeek-R1与腾讯混元T1以零错误并列榜首。而被马斯克称为“地表最强AI”的Grok 3却遭遇“滑铁卢”，排名倒数第三。

runtu · 2025-6-11 08:58:30