AI资讯

飞书用户4246

2月24日修改

🦄

来源：SuperCLUE

时间：2023-12-29 13:47:08

自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。​

　　基于此，我们发布了《中文大模型基准测评2023年度报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。​

　　国内大模型关键进展

　　1. 2023年大模型关键进展与中文大模型全景图

　　国内学术和产业界在过去一年也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。​

common.docs_name - LarkCCM_Docs_Menu_Image

　　截止目前为止，国内已发布开源、闭源通用大模型及行业大模型已有上百个，SuperCLUE梳理了2023年值得关注的大模型全景图。​

　　2. 2023年国内外大模型发展趋势

　　过去半年，国内领军大模型企业实现了大模型代际追赶的奇迹，从7月份与GPT3.5的20分差距，每个月都有稳定且巨大的提升，到11月份测评时已经完成总分上对GPT3.5的超越。​

　　数据来源于SuperCLUE基准得分（7月-12月）

　　我们可以看到GPT3.5和GPT4在中文上的表现情况基本一致，在11月份测评结果中显示，在中文能力都有一定的下滑，而国内头部模型则展现了继续稳健提升的能力。在12月份的测评结果中可以看到，国内第一梯队模型与GPT4的差距在缩小。但仍有较大的距离需要追赶。​

　　数据来源于SuperCLUE基准得分（7月-12月）

　　说明：

　　趋势展示，选取了7月-12月SuperCLUE-OPEN测评分数。国内代表性模型，选取了文心一言、通义千问、ChatGLM。原因是综合考虑了过去半年SuperCLUE测评结果、长期稳定迭代及对国内大模型生态的贡献；GPT4成绩，由GPT4-API（7-9月）与GPT4-Turbo（10-12月）组成，用以表现国外最好模型发展。​

　　大模型综合测评结果

　　1. 测评模型列表

　　本次测评数据选取了SuperCLUE-12月测评结果，模型选取了国内外有代表性的26个大模型在12月份的版本。​

AI资讯​

AI资讯