AI高考数学对决:Gemini 145分夺冠,七款大模型成绩亮眼
2025年高考已然告终,有着七款大模型产品的机器之心,针对高考数学I卷展开了作答,最终第一名取得了145分的成绩,豆包与之相差1分并列第二,哪怕是排在最后的一名也收获了134分的成绩,这般成绩甚是夺目。 #
分别是五款国产AI的机器之心挑战高考数学I卷的AI大模型选手,这五款国产AI是:-1.5---pro、R1、Qwen3-235b、-t1-和文心X1 Turbo。同时加上了的O3以及谷歌的2.5 pro。
高考数学考题选择方面,选用的是2025年新课标I卷,其中有14道客观题,这些客观题总计73分2024年高考数学答案,还有5道解答题,这5道解答题总计77分,不进行引导,不开启联网搜索,由AI大模型直接给出结果。
按照以往高考判分原则来确定客观题计分方法,由数学专业人员评判解答题,关注主要的是大模型最终答案,另外一个要点是解题步骤里是否存在严重失误点。
从客观题方面而言,各个家的大模型基本上难以拉开彼此之间的差距,其中最大的分差也仅仅只有3分,而第6题的图像题致使这几家多模态大模型全部出现失误。 #
作为解答题失分重灾区的大模型,除2.5 Pro拿到全部分数外,其他大模型或多或少都有失分情况。其中,R1和只丢了一分,O3失了2分。-t1-和文心X1 Turbo发挥不佳,解答分别拿到68分和66分。 #
在末尾,2.5 pro的总分是145,其排名处于首位,豆包以及R1获得了144分2024年高考数学答案,O3的分数是140分,Qwen3 - 235b有139分,-t1 - 为136分留学之路,文心X1 Turbo尽管处于最后一名,却还是取得了134分,此分数于考生当中也属于极为出色的水准。 #
此次测评得出的结果表明,大模型于数学推理能力这一方面,有着相当程度的进步显现,然而也还存有幅度较大的提升余地。除此之外,参与测评的全部多模态大模型在第6题的图像识别环节,均出现了状况,这同样揭示出当下AI在图文相结合予以理解的层面,存在着不足之处。扬子晚报/紫牛新闻记者 宋世锋。 #
校对 石伟

京公网安备 11010802021846号