随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。OpenAI 在其关于 GPT-4 的技术报告中就主要通过各领域的考试对模型能力进行检验。
2023年高考今日开考,中文大语言模型是否能够在高考中赶超ChatGPT呢?
综合“大考”:“书生·浦语”多项成绩领先于 ChatGPT
【资料图】
近日,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。
“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。
全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。
“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:
由伯克利加州大学等高校构建的多任务考试评测集MMLU;
微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);
由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;
以及由复旦大学研究团队构建的高考题目评测集Gaokao;
实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。
“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval,以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。
虽然 “书生·浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生·浦语” 受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。
四个综合性考试评测数据集结果
MMLU是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和UIUC共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。
细分科目结果如下表所示。
(图中粗体表示结果最佳,下划线表示结果第二)
AGIEval是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。
这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT等重要考试。值得一提的是,在这19个大项有9个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。
下列表格中,带GK的是中国高考科目。
(图中粗体表示结果最佳,下划线表示结果第二)
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。
它包含了52个科目的近14000道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。
测试结果可以通过leaderboard获得。
Gaokao是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。
在GaoKao测评中,“书生·浦语”在超过75%的项目中均领先ChatGPT。
分项评测:阅读理解、推理能力表现出色
为避免“偏科”,研究人员还通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。
结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩。
知识问答方面,“书生·浦语”在TriviaQA 和 NaturalQuestions 两项评测上得分为69.8和27.6,均超越LLaMA-65B(得分为68.2和23.8)。
阅读理解(英语)方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT。浦语在初中和高中英语阅读理解中得分为92.7和88.9,ChatGPT得分为 85.6 和81.2,LLaMA-65B则更低。
中文理解方面,“书生·浦语”成绩全面超越主要的两个中文语言模型ERNIE-260B和GLM-130B。
多语翻译方面,“书生·浦语”在多语种互译中的平均得分为33.9,显著超越LLaMA(平均得分15.1)。
数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于Google的PaLM-540B(得分为56.5和8.8)与LLaMA-65B(得分为50.9和10.9)。
编程能力方面,“书生·浦语”在HumanEval和MBPP这两项最具代表性的考评中,分别取得28.1和41.4的得分(其中经过在代码领域的微调后,在HumanEval上的得分可以提升至45.7),明显领先于PaLM-540B(得分为 26.2和36.8)与LLaMA-65B(得分为23.7和37.7)。
此外,研究人员还对“书生·浦语”的安全性进行评测,在TruthfulQA(主要评价回答的事实准确性) 以及CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。
(以上图片由商汤科技授权中国网财经使用)
焦点讯息:AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型
随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度
微速讯:平安守护 时刻行动
为深入贯彻落实近期公安机关安保维稳工作会议精神,严打突出违法犯罪、
全球热消息:中国5月末外汇储备31765.1亿美元
中国5月末外汇储备31765 1亿美元
杀跌行情再现?宁德时代一度跌近7%,股价逼近年内低点!|焦点速看
发生了啥?
环球今热点:江苏黄沙港特大桥顺利合龙 预计6月底完工
江苏黄沙港特大桥顺利合龙预计6月底完工6月6日,国道204盐阜快速通道重
东方智造06月07日主力资金大幅流出
东方智造06月07日主力资金净流出2 17亿元,涨跌幅为-3 61%,主力净量(d
焦点讯息:AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型
随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度
拉力赛车类游戏推荐
如果你喜欢高速驾驶和极限竞速的刺激,那么拉力赛车游戏一定是你的不二
“税力量”护航电动车平安出行-天天速读
“最近新出台了低速电动车管理规定,来专卖店开具发票的客户特别多。税
微速讯:平安守护 时刻行动
为深入贯彻落实近期公安机关安保维稳工作会议精神,严打突出违法犯罪、
全球观点:北京文化3涨停
中国经济网北京6月7日讯北京文化(SZ:000802)今日股价涨停,截至收盘报9
“AI+教育” 不能只挖掘工具价值|全球观察
近日,教育部等十八部门联合印发《关于加强新时代中小学科学教育工作的
全球热消息:中国5月末外汇储备31765.1亿美元
中国5月末外汇储备31765 1亿美元
要闻:经参数说丨16.77万亿元!细看中国外贸成绩单,这些亮点不容错过→
经参数说丨16 77万亿元!细看中国外贸成绩单,这些亮点不容错过→---今
杀跌行情再现?宁德时代一度跌近7%,股价逼近年内低点!|焦点速看
发生了啥?
【全球热闻】专访:RCEP全面生效促进区域经济一体化——访日本贸易振兴机构成都代...
专访:RCEP全面生效促进区域经济一体化——访日本贸易振兴机构成都代表
23安徽债50今日发布发行公告
23安徽债50发布发行公告
伟思医疗:公司运动康复机器人产品线符合神经康复智能化、标准化的康复需求 属于国...
公司运动康复机器人产品线符合神经康复智能化、标准化的康复需求,属于
环球今热点:江苏黄沙港特大桥顺利合龙 预计6月底完工
江苏黄沙港特大桥顺利合龙预计6月底完工6月6日,国道204盐阜快速通道重
京粮控股4115.99万限售股将于6月12日上市流通
中国网财经6月7日讯(记者张增艳)京粮控股日前公告称,公司有4115 99万
华塑科技06月07日主力资金大幅流出-环球速读
华塑科技06月07日主力资金净流出1627 59万元,涨跌幅为-4 87%,主力净
东方智造06月07日主力资金大幅流出
东方智造06月07日主力资金净流出2 17亿元,涨跌幅为-3 61%,主力净量(d
【世界独家】足金回收多少钱一克(2023年6月7日)
足金回收多少钱一克(2023年6月7日)
河钢集团6月硅锰首轮询盘6850元/吨
据我的钢铁网(Mysteel),河钢集团6月硅锰首轮询盘6850元 吨,5月硅锰
深交所:腾信创新终止上市 6月15日起进入退市整理期_全球讯息
据深交所公告,因北京腾信创新网络营销技术股份有限公司2021年度财务会
【全球新要闻】宏盛股份:公司有风力发电液冷技术、储能及动力电池液冷技术,其中...
同花顺金融研究中心6月7日讯,有投资者向宏盛股份提问,公司有液冷技术
白洋淀自然保护区_白洋淀自然保护区 全球焦点
白洋淀自然保护区位于河北省保定、沧洲两市境内,面积32280公顷,主要
天天快资讯:系统教程篇:Win2003系统下部署silverlight提示2104错误怎么解决
公司网站我打算用Silverlight+SQLite来做,在这里我分享下在win2003下
和胜股份:在项目研发前沿领域一直与宁德时代深度合作
和胜股份表示,公司在项目研发前沿领域一直与宁德时代保持深度合作。由
浙江第四批集采确认纳入重组人生长激素 天天快资讯
【浙江第四批集采确认纳入重组人生长激素】近日,一份名为《关于报送浙
华安证券:苹果开拓性MR新品发布 持续催化传媒行业内容生态型企业向好
华安证券指出,在受益于苹果MR产品革命性创新的产业趋势下,内容生态将
全球短讯!青岛双星:公司目前生产的巨胎规格主要是1000/55R57,该产品已具备成熟...
每经AI快讯,有投资者在投资者互动平台提问:贵司官网及发布的《2022年
当前聚焦:价格前线|6月7日太原古交8号焦煤坑口价异动提示
据同花顺iFinD数据显示,6月7日煤炭-山西焦煤所在地煤价价格出现异动:
宁德时代重挫带崩锂电板快,机构:新能源赛道已不再拥挤 动态焦点
早在2020年11月,摩根士丹利认为宁德时代的净利润不高,并认为股价已达
当前聚焦:商品期货收盘多数下跌,甲醇跌3%,纸浆、尿素、纯碱跌超2%
方正期货表示进口木浆现货市场成交氛围平平,价格稳中略降。目前浮法和
全球资讯:福岛海鱼体内铯超标180倍 外交部:海洋不是日本的“下水道”
6月7日,外交部发言人汪文斌主持例行记者会。有记者提问,据日本媒体报
世界热点!点亮夜经济(五):交通如何为夜经济做加法?
上海的各项夜经济指标中,交通出行...
搞错考点、忘带准考证...上海高考又现“马大哈”考生
第二次高考了,还能搞错考点?2023...
加最严重山火的烟吹到美国 自由女神像被霾笼罩
受到干燥和雷电天气等影响,加拿大...
送考途中车抛锚,警车5分钟内将考生送到考场_快讯
“时间还充裕,快去考试吧,别紧张...
62%受访者对新能源汽车基本了解 汽车“里程焦虑”较为突出
近日,重庆市万州区、开州区、城口...
聚焦!2022年全国“绿色产品认证与标识宣传周”正式启动
9月26日,由市场监管总局主办的202...
昆明市体育中心足球锦标赛落幕 组委会已经在为新赛季做准备
9月18日,全民健身·2021昆明市体...
中安街道种植了100亩万寿菊 每亩产值是种植包谷的两倍多
时下,正是万寿菊收获的季节。走进...