最近,來自中文語言理解測評基准開源社區CLUE 的成員發起了中文大模型匿名對戰平台SuperCLUE-瑯琊榜,目前已經獲得有效投票5.8K。
以下是截至2023年5月29日18點22分的SuperCLUE 瑯琊榜初始排名。
SuperCLUE-瑯琊榜官方唯一地址:www.SuperCLUEAI.com
SuperCLUE 是中文通用大模型綜合性測評基準。
它主要回答的問題是:在當前通用大模型大力發展的情況下,中文大模型的效果情況。包括但不限於:
- 這些模型不同任務的效果情況
- 相較於國際上的代表性模型做到了什麼程度
- 這些模型與人類的效果對比如何?
它嘗試在一系列國內外代表性的模型上使用多個維度能力進行測試。 SuperCLUE 是中文語言理解測評基準(CLUE) 在通用人工智能時代的進一步發展。
在初始排名中,由Anthropic 公司開發的 Claude 模型以1215 分暫居第一。在國內模型中,MiniMax 模型以1188 的高分力壓眾多國產大模型登頂SuperCLUE 瑯琊榜,暫居國服第一,也是國內大模型首次在公開測評中超過GPT3.5。
其中,GPT 3.5 以1171 分排名第三。由清華大學和智譜AI開發的ChatGLM-130B 則以8 分微弱差距排名第四,ChatGLM-6B以僅60 億參數量的模型躋身前五,表現不俗。香港中文大學和復旦大學同樣表現優異,分列6、7 名,IDEA研究院的薑子牙大模型同樣也超過了1000 分,排名第9。
相比之下在英文上表現強勁的vicuna-13b 模型,僅僅排名第10,在中文能力上明顯弱於國內中文大模型。
值得提及的是,在英文對戰排名中表現優異的RWKV,在中文對戰表現上稍顯不足。 RWKV 團隊表示正在訓練中文基底模型,後續會以中文身份加入對戰。
CLUE 團隊表示,之後會定期更新SuperCLUE 瑯琊榜排名,同時加入更多具有代表性的大模型。
#大模型對戰平台SuperCLUE瑯琊榜排名首發國內大模型首超GPT #科技資訊
You may also like
No related posts.
近期文章
- 8個最佳WooCommerce SEO插件用於更好的排名(2025)
- 為什麼Shopify擊敗電子商務的WordPress
- 我希望在使用WooCommerce之前我知道的5件事
- 停止在WooCommerce插件上浪費$ 1000!嘗試變體怪物$ 59解決方案
- 如何使用免費的WooCommerce禮品卡產品(使用免費插件)來提高銷售
- WooCommerce的動態定價和折扣規則,用於銷售技術
- 免費的WooCommerce產品搜索插件 – 電子商務網站的設置Advance WooSearch | AJAX搜索
- Shopify vs WooCommerce:在線商店的最佳電子商務平台🔍
- 啟動專業,功能豐富的超級智能電子商務網站| Merto -WooCommerce WordPress主題