中國電競網(wǎng)

中國電競網(wǎng)

AI基準測試平臺LMArena陷爭議:研究指責其偏袒OpenAI、谷歌和Meta

可可 656 網(wǎng)絡(luò)采編

人工智能領(lǐng)域知名的公共基準測試平臺LMArena近日遭遇信任危機。一項新的研究指出,該平臺的排名系統(tǒng)存在偏袒OpenAI、谷歌Meta等大型供應商的結(jié)構(gòu)性問題,其不透明的流程和頭部企業(yè)的固有優(yōu)勢可能導致排名失真。然而,LMArena運營團隊已公開否認這些指控。

LMArena通過向用戶展示不同大型語言模型(LLM)的回復對比,并由用戶投票選出更優(yōu)者,最終形成廣泛被行業(yè)引用的模型性能排行榜。企業(yè)常借此展示自身模型的優(yōu)越性。

但由Cohere Labs、普林斯頓大學和麻省理工學院的研究人員聯(lián)合進行的一項分析,基于2024年1月至2025年4月期間收集的超過280萬條模型比較記錄,揭示了LMArena排名可能存在的偏差。研究人員認為,Meta、谷歌和OpenAI等公司能夠私下測試其模型的多個版本,并僅選擇性能最佳的版本公開展示在排行榜上,其余版本則被移除。這種被稱為“分數(shù)游戲”的做法,使得最終發(fā)布的模型往往是經(jīng)過精心挑選的“尖子生”。例如,Meta在發(fā)布Llama4之前至少測試了27個內(nèi)部版本。Meta隨后也承認,在用戶批評后,他們部署了專門針對基準測試優(yōu)化的Llama4聊天機器人,而其未經(jīng)優(yōu)化的“Maverick”模型在LMArena上的表現(xiàn)則遜色不少。受控實驗也表明,提交多個幾乎相同的模型變體可以顯著提高得分。

此外,研究還指出用戶數(shù)據(jù)的不平等分配進一步加劇了這種偏差。通過API接口,大型供應商能夠收集用戶與模型交互的數(shù)據(jù),包括提示和偏好設(shè)置,但這些數(shù)據(jù)并未公平地共享。OpenAI和谷歌的模型獲得了絕大多數(shù)的用戶交互數(shù)據(jù)(占比高達61.4%),這使得它們能夠利用更多的數(shù)據(jù)進行優(yōu)化,甚至可能針對LMArena平臺進行專門優(yōu)化,從而提升排名,即使其在外部基準上的表現(xiàn)并非最優(yōu)。

研究人員還發(fā)現(xiàn),大量模型在未公開通知的情況下從LMArena平臺移除,這對開源模型的影響尤為顯著。在評估的243個模型中,有205個模型未經(jīng)解釋就被停用,只有47個模型被正式標記為棄用。這種缺乏透明度的模型移除機制,可能會扭曲排名的歷史連貫性和參考價值。

針對上述研究結(jié)果,LMArena團隊在X平臺發(fā)布聲明堅決否認,強調(diào)其排名“反映了數(shù)百萬新鮮、真實的人類偏好”,并認為提交前的測試是合法手段,旨在確定最符合用戶期望的模型變體。他們認為,利用測試數(shù)據(jù)優(yōu)化模型以滿足用戶偏好是一件好事。LMArena團隊還表示,排名的依據(jù)僅為最終公開發(fā)布的模型,而非內(nèi)部測試結(jié)果,且平臺的源代碼和數(shù)百萬用戶交互數(shù)據(jù)均已公開,其設(shè)計理念是開放的。

盡管如此,研究人員仍呼吁LMArena進行改革,包括公開所有測試過的模型變體、限制供應商單次提交的版本數(shù)量、確保模型在用戶之間更公平地分配,并對模型移除進行清晰記錄。他們警告稱,若缺乏更嚴格的監(jiān)督,LMArena最終可能獎勵的是針對排行榜的策略性優(yōu)化,而非模型實際性能的提升。

Cohere 實驗室負責人兼該研究合著者之一Sara Hooker強調(diào)了LMArena日益增長的影響力及其所要求的“科學誠信”。前特斯拉和OpenAI工程師Andrej Karpathy也對LMArena的可靠性表示懷疑,他注意到Gemini模型在榜單上“遠高于第二名”,這與他個人使用體驗不符,并指出一些規(guī)模較小、缺乏實際知識的“相對隨機的模型”也常常出現(xiàn)在榜單前列,進一步引發(fā)了對排名真實性的質(zhì)疑。


標簽: