分享
AI资讯
输入“/”快速插入内容
AI资讯
飞书用户4246
2月24日修改
🦄
来源:SuperCLUE
时间:2023-12-29 13:47:08
自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。
基于此,我们发布了《中文大模型基准测评2023年度报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。
国内大模型关键进展
1. 2023年大模型关键进展与中文大模型全景图
国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)。
截止目前为止,国内已发布开源、闭源通用大模型及行业大模型已有上百个,SuperCLUE梳理了2023年值得关注的大模型全景图。
2. 2023年国内外大模型发展趋势
过去半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。
数据来源于SuperCLUE基准得分(7月-12月)
我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致,在11月份测评结果中显示,在中文能力都有一定的下滑,而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到,国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。
数据来源于SuperCLUE基准得分(7月-12月)
说明:
趋势展示,选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型,选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献;GPT4成绩,由GPT4-API(7-9月)与GPT4-Turbo(10-12月)组成,用以表现国外最好模型发展。
大模型综合测评结果
1. 测评模型列表
本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的26个大模型在12月份的版本。