中文大模型竞技场推出！国产大模型全阵容

koi

2024-11-14 20:46:16发布
关注私信

343 537 492

LMSYS Org推出的大模型竞技场Chatbot Arena，已成为海外最具公信力的大模型榜单之一，但该榜单中文明水平相对无余。近日，上海人工智能试验室联结魔搭社区推出中国大言语模型评测竞技场Compass Arena，首度集齐国际干流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面、Minimax、深度求索、书生·浦语等20款国产大模型出战，角逐中国大模型“最强王者”。

相比考题固定的传统测评，大模型竞技场驳回盲测、放开的测评形式，可以更片面地测验模型实力。Compass Arena设置了随机、匿名对战，大模型选手们成为“蒙面唱将”，模型信息隐去后，由系统随机婚配启动PK，用户可以天马行空自在出题，并作为评委客观评判和投票。假设大模型不小心“自报家门”，则对话被过滤，不计入效果。经过不可胜数轮PK应战和用户投票，系统将对大模型启动智能排名。

魔搭社区直播时，网友脑洞大开在线出题

Compass Arena由上海人工智能试验室OpenCompass司南评测体系与魔搭社区联结树立，前者担任组织评测，后者担任开源模型引入及社区打造。据上海人工智能试验室OpenCompass团队介绍，Compass Arena力图表现社区用户的实在反应，评测机制自创Chatbot Arena，驳回Elo评分系统，即国际象棋等对弈优惠评价的威望规范。在这种形式下，大模型竞技相似“在游戏中打排位”，胜率成为评价模型水平的关键目的，同时随着排位变高，系统也会智能婚配高段位选手启动对战。

与Chatbot Arena相比，Compass Arena更聚焦中文大模型，干流国产大模型全笼罩，同时评测用户大多经常使用中文，可以充沛评价国产大模型的功能。

目前，Compass Arena已会聚超20款商业及社区模型，包含Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等国际头部厂商的旗舰款大模型，并引入了Llama3、Mixtral等海外标杆模型启动参照。更多模型及厂商还在始终添加中。

上线不到一周，已有上万人访问魔搭Compass Arena页面。魔搭社区示意，欢迎广阔开发者和网友介入大模型排位赛的投票，独特促成国产大模型的提高和赶超。后续，Compass Arena首期排行榜将揭晓，并将活期发布降级。

版权声明 1、本网站名称：萌爵百货商行网
2、本站永久网址：http://msbhsh.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#大模型 #魔搭

中文大模型竞技场推出！ 国产大模型全阵容

中文大模型竞技场推出！国产大模型全阵容