​LMSYS测试显示,Claude-3模型与GPT-4并列第一,表现出色

公孙勇贝
导读 根据3月28日消息,最新的基准测试报告显示,Claude-3以微弱优势超越GPT-4,被评为该平台上的最佳大型语言模型。首先介绍下 LMSYS Org
根据3月28日消息,最新的基准测试报告显示,Claude-3以微弱优势超越GPT-4,被评为该平台上的最佳大型语言模型。首先介绍下 LMSYS Org,该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。
该机构推出 Chatbot Arena,这是一个针对大型语言模型(LLM) 的基准平台,以众包方式匿名、随机对抗测评大模型产品,其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生,系统每次会随机选择两个不同的大模型机器人和用户聊天,并让用户在匿名的情况下选择哪款大模型产品的表现更好一些,整体而言相对公正。Chatbot Arena 自去年上线以来,GPT-4 一直稳居头把交椅,甚至成为了评估大模型的黄金标准。不过昨天 Anthropic 的 Claude 3 Opus 以 1253 比 1251 的微弱优势击败了 GPT-4,OpenAI 的 LLM 被挤下了榜首位置。由于比分过于接近,出于误差率方面的考量,该机构让 Claude 3 和 GPT-4 并列第一,GPT-4 的另一个预览版也并列第一。更令人印象深刻的是 Claude 3 Haiku 进入前十名。Haiku 是 Anthropic 的 local size 模型,相当于谷歌的 Gemini Nano。
根据LMSYS的数据,Haiku在排行榜上名列第七,表现媲美GPT-4,尽管参数规模比拥有数万亿参数的Opus要小得多,但速度要快得多。

标签: ​LMSYS,Claude-3模型

版权声明:本文由用户上传,如有侵权请联系删除!