OpenAI推出SWE-bench Verified:現(xiàn)有框架低估模型軟件工程能力
激石Pepperstone(http://qintiejiang.com/)報道:
剛剛OpenAI推出更可靠的代碼生成評估基準:SWE-bench Verified。
發(fā)布blog里最重要的一句話是:“隨著我們的系統(tǒng)越來越接近 AGI,我們需要在越來越具有挑戰(zhàn)性的任務(wù)中對它們進行評估”。
該基準是對現(xiàn)有SWE-bench的改進版本(子集),旨在更可靠地評估AI模型解決現(xiàn)實世界軟件問題的能力。
SWE-bench是一個流行的軟件工程評估套件,用于評估大型語言模型 (LLM) 解決從GitHub提取的真實軟件問題的能力。它通過向AI代理提供代碼庫和問題描述,并要求其生成修復(fù)問題的補丁來進行評估。雖然LLM在 SWE-bench上取得了令人矚目的進展,但OpenAI的研究發(fā)現(xiàn),該基準存在一些問題,可能導(dǎo)致低估模型的自主軟件工程能力。
具體來說,OpenAI指出了SWE-bench的三個主要問題:
1.單元測試過于嚴格:用于評估解決方案正確性的單元測試通常過于具體,甚至與問題無關(guān),這可能導(dǎo)致拒絕正確的解決方案。
2.問題描述不明確:許多樣本的問題描述不夠具體,導(dǎo)致對問題及其解決方案的理解存在歧義。
3.開發(fā)環(huán)境難以設(shè)置:有時難以可靠地為代理設(shè)置SWE-bench開發(fā)環(huán)境,這可能導(dǎo)致單元測試無論解決方案如何都會失敗。
為了解決這些問題,OpenAI與專業(yè)的軟件開發(fā)人員合作,對SWE-bench測試集中的每個樣本進行了人工篩選,以確保單元測試的范圍適當且問題描述明確。最終,他們發(fā)布了SWE-bench Verified,這是一個包含500 個樣本的經(jīng)過驗證的子集,并取代了原始的SWE-bench和SWE-bench Lite測試集。
此外,OpenAI還與SWE-bench的作者合作,開發(fā)了一個新的評估工具,該工具使用容器化的Docker環(huán)境,使在SWE-bench上進行評估更容易、更可靠。
在SWE-bench Verified上,GPT-4o解決了33.2%的樣本,而表現(xiàn)最佳的開源代理框架Agentless的得分翻了一番,達到16%。
OpenAI的這項研究突出了深入理解和改進評估基準的重要性,特別是當AI系統(tǒng)越來越接近通用人工智能 (AGI) 時。隨著AI模型能力的不斷提高,我們需要更加謹慎地評估其性能,以確保評估結(jié)果準確反映模型的真實能力。
OpenAI建議:
深入理解基準: 即使是精心設(shè)計的基準也可能存在問題,需要持續(xù)改進。
考慮生態(tài)系統(tǒng)的進步: 關(guān)注社區(qū)在代理框架方面的進展,并在評估風(fēng)險時考慮潛在的外部增強功能
認識到局限性: 基于靜態(tài)數(shù)據(jù)集的評估存在固有限制,需要補充其他評估方法。?????????
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請注明出處。