首个AI高考评测结果出炉，GPT-4o排名第二-玄武黑科技

近日，上海人工智能实验室利用其自主研发的“司南”评测体系OpenCompass，对国内外多个知名大模型进行了一场特殊的“高考”。这些来自阿里巴巴、智谱AI、Mistral等机构，以及OpenAI的GPT-4o等“考生”，接受了新课标I卷“语数外”的全面测试，以检验其真实能力。

为了确保测试的公平性和严谨性，所有参与评测的开源模型均在高考前发布，排除了信息泄露的可能性。阅卷工作则邀请了拥有丰富高考评卷经验的教师参与，严格按照高考标准进行评分，力求还原真实考试场景。

开源模型中只选择了在2024年6月6日之前开源的模型，同时选取了目前最强大的大模型OpenAI GPT-4o作为参考。

本次“AI大模型高考”考生列表

**阿里巴巴千问2-72B：**阿里巴巴于2024年5月28日发布的Qwen2系列最大的对话模型。
**OpenAI GPT-4o：**OpenAI公司于2024年5月13日发布的最强大的大模型，目前也是世界上最领先的大模型。
书生·浦语-文曲星-20B：上海人工智能实验室于2024年6月4日推出的文曲星系列基础语言模型。
**阿里巴巴千问2-57B：**阿里巴巴于2024年5月22日发布的Qwen2系列MoE对话模型。
**零一万物 Yi-1.5-34B：**零一万物公司于2024年5月12日发布的Yi 1.5系列最大的模型。
**智谱 GLM4-9B：**智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列中的开源版本。
**Mixtral 8x22B：**法国AI创业公司Mistral于2024年4月17日开源的对话模型。

新课标I卷（语、数、外）成绩如下

测试结果显示，大模型在“语数外”三科中表现不一，呈现出“偏科”现象：

语文方面，大部分模型展现出较强的现代文阅读理解能力，英语成绩更为突出，平均得分率高达81%，但文言文阅读理解能力存在明显差距。
数学方面，大模型则遭遇“滑铁卢”，平均得分率仅为36%，成为共同的“短板”。
英语方面，大模型整体表现良好，但在部分题型上，例如七选五、完形填空等，得分率相对较低。

阅卷教师在评阅过程中发现，大模型答题思路与人类考生存在较大差异。

例如：
语文作文更像问答题，缺乏修辞和情感表达；
数学解题过程混乱，存在过程错误但结果正确的情况；
英语作文常因超出字数限制而被扣分。

此次“高考”结果表明，大模型在自然语言处理方面取得了长足进步，但在逻辑推理、数学计算等方面仍有较大提升空间。

未来，期待AI能够不断学习进化，突破现有瓶颈，在更广泛的领域为人类提供更优质的服务，创造更美好的未来。

注：部分内容来源https://github.com/open-compass/GAOKAO-Eval

玄武黑科技，始终为您带来最新最硬核的黑科技与前沿资讯！

目录CONTENT

首个AI高考评测结果出炉，GPT-4o排名第二

本次“AI大模型高考”考生列表

新课标I卷（语、数、外）成绩如下

评论区