侧边栏壁纸
博主头像
玄武黑科技博主等级

洞悉前瞻产品,分享好用工具。

  • 累计撰写 145 篇文章
  • 累计创建 83 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

首个AI高考评测结果出炉,GPT-4o排名第二

玄小武
2024-06-19 / 0 评论 / 0 点赞 / 37 阅读 / 2703 字 / 正在检测是否收录...

近日,上海人工智能实验室利用其自主研发的“司南”评测体系OpenCompass,对国内外多个知名大模型进行了一场特殊的“高考”。这些来自阿里巴巴、智谱AI、Mistral等机构,以及OpenAI的GPT-4o等“考生”,接受了新课标I卷“语数外”的全面测试,以检验其真实能力。

为了确保测试的公平性和严谨性,所有参与评测的开源模型均在高考前发布,排除了信息泄露的可能性。阅卷工作则邀请了拥有丰富高考评卷经验的教师参与,严格按照高考标准进行评分,力求还原真实考试场景。

开源模型中只选择了在2024年6月6日之前开源的模型,同时选取了目前最强大的大模型OpenAI GPT-4o作为参考。

本次“AI大模型高考”考生列表

**阿里巴巴 千问2-72B:**阿里巴巴于2024年5月28日发布的Qwen2系列最大的对话模型。
**OpenAI GPT-4o:**OpenAI公司于2024年5月13日发布的最强大的大模型,目前也是世界上最领先的大模型。
书生·浦语-文曲星-20B:上海人工智能实验室于2024年6月4日推出的文曲星系列基础语言模型。
**阿里巴巴 千问2-57B:**阿里巴巴于2024年5月22日发布的Qwen2系列MoE对话模型。
**零一万物 Yi-1.5-34B:**零一万物公司于2024年5月12日发布的Yi 1.5系列最大的模型。
**智谱 GLM4-9B:**智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列中的开源版本。
**Mixtral 8x22B:**法国AI创业公司Mistral于2024年4月17日开源的对话模型。

新课标I卷(语、数、外)成绩如下

测试结果显示,大模型在“语数外”三科中表现不一,呈现出“偏科”现象:

语文方面,大部分模型展现出较强的现代文阅读理解能力,英语成绩更为突出,平均得分率高达81%,但文言文阅读理解能力存在明显差距。
数学方面,大模型则遭遇“滑铁卢”,平均得分率仅为36%,成为共同的“短板”。
英语方面,大模型整体表现良好,但在部分题型上,例如七选五、完形填空等,得分率相对较低。

阅卷教师在评阅过程中发现,大模型答题思路与人类考生存在较大差异。

例如:
语文作文更像问答题,缺乏修辞和情感表达;
数学解题过程混乱,存在过程错误但结果正确的情况;
英语作文常因超出字数限制而被扣分。

此次“高考”结果表明,大模型在自然语言处理方面取得了长足进步,但在逻辑推理、数学计算等方面仍有较大提升空间。

未来,期待AI能够不断学习进化,突破现有瓶颈,在更广泛的领域为人类提供更优质的服务,创造更美好的未来。

注:部分内容来源https://github.com/open-compass/GAOKAO-Eval

玄武黑科技,始终为您带来最新最硬核的黑科技与前沿资讯!

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区