跳转到内容

LMArena

维基百科,自由的百科全书
Arena
网站类型
人工智能
成立2025年3月
原产地美国
创立者
  • 江韦霖(Wei-Lin Chiang)
  • Anastasios N. Angelopoulos
  • Ion Stoica
网址arena.ai
注册无需注册
推出时间2023年5月3日,​2年前​(2023-05-03

Arena (原名Chatbot Arena、LMArena)是一个公开的线上聊天机器人平台及排名,其透过匿名、群众参与的成对比较来评估大型语言模型

使用时,使用者输入提示,由两个匿名模型生成回复,再投票选出表现较好的模型,模型名称会在投票后才显示。使用者也能自行挑选模型进行测试。[1][2]

Arena在人工智能领域中具有影响力,许多大型公司会在平台上提供自家语言模型,例如GPTGemini [3]Claude[4]MistralGrok深度求索Kimi,利用平台上的排名推广产品,以及使用用户在网站上的对话训练模型。该网站也会被用于测试尚未正式公开的模型版本。

例如,中国公司DeepSeekR1模型受到西方媒体关注前的数月,便已在Arena上测试其原型模型。[5]其他在平台进行预先测试的案例包括:OpenAI以“summit”为代号测试GPT-5的变体,以及Google DeepMind以“nano-banana”为代号测试Gemini-2.5-Flash-Image。[6] [7]

不过,Arena的评估方法也成为学术界分析的对象,研究指出其存在局限,并提出改进建议。平台随后依据相关研究持续更新政策与方法论。[8][9]

参考资料

[编辑]
  1. ^ Hart, Robert. What AI Is The Best? Chatbot Arena Relies On Millions Of Human Votes. Forbes. 2024-07-18 [2025-04-21]. 
  2. ^ Kruppa, Miles. The UC Berkeley Project That Is the AI Industry's Obsession. The Wall Street Journal. 2024-12-05 [2025-04-21]. 
  3. ^ Nuñez, Michael. Google Gemini unexpectedly surges to No. 1, over OpenAI, but benchmarks don't tell the whole story. VentureBeat. 2024-11-15 [2025-04-21]. 
  4. ^ Edwards, Benj. "The king is dead"—Claude 3 surpasses GPT-4 on Chatbot Arena for the first time. Ars Technica. 2024-03-27 [2025-04-21]. 
  5. ^ Metz, Rachel. Before DeepSeek Blew Up, Chatbot Arena Announced Its Arrival. Bloomberg News. 2025-02-18 [2025-04-21]. 
  6. ^ Ziff, Maxwell. Google Gemini's AI image model gets a 'bananas' upgrade. TechCrunch. 2025-08-26 [2025-08-27]. 
  7. ^ Langley, Hugh. Is Google behind a mysterious new AI image generator? These bananas might confirm it. Business Insider. 2025-08-19 [2025-08-27]. 
  8. ^ Stokel-Walker, Chris. Hundreds of rigged votes can skew AI model rankings on Chatbot Arena, study finds. Fast Company. 2025-02-06 [2025-04-21]. 
  9. ^ Wiggers, Kyle. The AI industry is obsessed with Chatbot Arena, but it might not be the best benchmark. TechCrunch. 2024-09-05 [2025-04-21]. 

外部链接

[编辑]