LMArena
外观
网站类型 | 人工智能 |
|---|---|
| 成立 | 2025年3月 |
| 原产地 | 美国 |
| 创立者 |
|
| 网址 | arena |
| 注册 | 无需注册 |
| 推出时间 | 2023年5月3日 |
Arena (原名Chatbot Arena、LMArena)是一个公开的线上聊天机器人平台及排名,其透过匿名、群众参与的成对比较来评估大型语言模型。
使用时,使用者输入提示,由两个匿名模型生成回复,再投票选出表现较好的模型,模型名称会在投票后才显示。使用者也能自行挑选模型进行测试。[1][2]
Arena在人工智能领域中具有影响力,许多大型公司会在平台上提供自家语言模型,例如GPT、Gemini [3]、Claude[4] 、Mistral、Grok、深度求索、Kimi,利用平台上的排名推广产品,以及使用用户在网站上的对话训练模型。该网站也会被用于测试尚未正式公开的模型版本。
例如,中国公司DeepSeek在R1模型受到西方媒体关注前的数月,便已在Arena上测试其原型模型。[5]其他在平台进行预先测试的案例包括:OpenAI以“summit”为代号测试GPT-5的变体,以及Google DeepMind以“nano-banana”为代号测试Gemini-2.5-Flash-Image。[6] [7]
不过,Arena的评估方法也成为学术界分析的对象,研究指出其存在局限,并提出改进建议。平台随后依据相关研究持续更新政策与方法论。[8][9]
参考资料
[编辑]- ^ Hart, Robert. What AI Is The Best? Chatbot Arena Relies On Millions Of Human Votes. Forbes. 2024-07-18 [2025-04-21].
- ^ Kruppa, Miles. The UC Berkeley Project That Is the AI Industry's Obsession. The Wall Street Journal. 2024-12-05 [2025-04-21].
- ^ Nuñez, Michael. Google Gemini unexpectedly surges to No. 1, over OpenAI, but benchmarks don't tell the whole story. VentureBeat. 2024-11-15 [2025-04-21].
- ^ Edwards, Benj. "The king is dead"—Claude 3 surpasses GPT-4 on Chatbot Arena for the first time. Ars Technica. 2024-03-27 [2025-04-21].
- ^ Metz, Rachel. Before DeepSeek Blew Up, Chatbot Arena Announced Its Arrival. Bloomberg News. 2025-02-18 [2025-04-21].
- ^ Ziff, Maxwell. Google Gemini's AI image model gets a 'bananas' upgrade. TechCrunch. 2025-08-26 [2025-08-27].
- ^ Langley, Hugh. Is Google behind a mysterious new AI image generator? These bananas might confirm it. Business Insider. 2025-08-19 [2025-08-27].
- ^ Stokel-Walker, Chris. Hundreds of rigged votes can skew AI model rankings on Chatbot Arena, study finds. Fast Company. 2025-02-06 [2025-04-21].
- ^ Wiggers, Kyle. The AI industry is obsessed with Chatbot Arena, but it might not be the best benchmark. TechCrunch. 2024-09-05 [2025-04-21].