Nature:大模型公司的"開源洗白",嚴重阻礙科學可重復性和創新
【編者按】科技巨頭所聲稱的開源 AI 模型,是否是真正意義上的開源模型?近期 Nature 上的一篇報導或許可以給我們一些啟示。
日前,Nature 雜誌編輯 Elizabeth Gibney 刊文深入分析了大語言模型(LLM)的透明度和開放性,揭示了所謂的「開源」背後隱藏的問題。
作者指出,許多聲稱開源的 AI 模型,實際上在數據和訓練方法上並不透明,無法滿足真正的科學研究需求。這種「開源洗白」(open-washing)現象嚴重阻礙了科學的可重復性和創新。
通過對多種模型的詳細評估,文章提出了一份開放性排行榜,揭示了當前 AI 開源的現狀。尤其值得關註的是,一些小型公司和研究團隊在有限資源下,反而表現出了更高的透明度和開放性。
在這個 GenAI 時代,真正的開源不僅僅是代碼的開放,更是數據、訓練方法和模型細節的全面透明。這不僅是為了科學的進步,也是為了確保 AI 技術在社會中的負責任應用。
學術頭條在不改變原文大意的情況下,做了簡單的編譯。內容如下:
許多支持聊天機器人的 LLM 被聲稱是開源的,但限制了對代碼和訓練數據的訪問。
分析了許多流行聊天機器人模型的研究人員表示,像 Meta 和微軟這樣的科技巨頭將他們的 AI 模型描述為「開源」,但未能披露有關底層技術的重要信息。
關於 AI 模型的開源定義尚未達成一致,但支持者表示,「完全」開源有助於科學研究,並且讓 AI 更加負責任也至關重要。當歐盟的人工智能法案生效時,什麽算作開源可能會變得更加重要。該立法將對被歸類為開源的模型實施不那麽嚴格的監管。
一些大公司聲稱擁有開源模型,並從中獲益,但試圖「盡可能少地披露信息」,荷蘭奈梅亨拉德堡德大學的語言科學家 Mark Dingemanse 說。這種做法被稱為「開源洗白」。
Dingemanse 和他的同事、計算語言學家 Andreas Liesenfeld 一起創建了一個排行榜,列出了開源最多和開源最少的模型(見表)。Dingemanse 說:「令我們驚訝的是,資源相對較少的小公司卻開源更多。」他們的研究結果於 6 月 5 日發表在 2024 ACM FAccT 的會議論文集中(見表)。
開源模型到底有多「開源」?
兩位語言科學家評估了各種聊天機器人模型的不同組件是否是開源()、部分開源(~)或閉源(X)。
都柏林聖三一學院(Trinity College Dublin)的認知科學家、位於加州 Mountain View 的非營利組織 Mozilla Foundation 的人工智能問責顧問 Abeba Birhane 表示,這項研究消除了「圍繞當前開源辯論的許多炒作和廢話」。
什麽是開源?
「開源」一詞來源於軟件領域,意指可以訪問源代碼且對程序的使用或發行沒有限製。但考慮到大型 AI 模型的復雜性和涉及的數據量龐大,使它們開源遠非易事,專家們仍在努力定義開源 AI。Dingemanse 表示,將模型所有方面開源對於公司來說並不總是可取的,因為這可能會使它們面臨商業或法律風險。其他人也認為,完全自由地發布模型有被濫用的風險。
但被貼上開源的標簽也能帶來巨大好處。開發者通過展示自己嚴謹和透明的形象,已經可以獲得公共關系的回報,而且很快會產生法律上的影響。今年通過的歐盟人工智能法案將免除一定規模的開源通用模型的廣泛透明度要求,並讓它們承擔較少的義務,目前這些義務尚未定義。Dingemanse 說:「公平地說,在受歐盟人工智能法案管轄的國家,『開源』一詞將具有前所未有的法律權重。」
在他們的研究中,Dingemanse 和 Liesenfeld 評估了40個大語言模型(LLM)——這些系統通過在大量數據中進行詞語和短語之間的關聯來學習生成文本。所有這些模型都聲稱是「開源」或「開放」的。他們通過評估模型在代碼和訓練數據的可用性、發布的文檔內容以及模型的易訪問性等14個參數,製作了一個開放性排行榜。對於每個參數,他們判斷這些模型是開源的、部分開源的還是閉源的。
專註於開源技術的倫敦非營利公司OpenUK的首席執行官Amanda Brock表示,這種分析開源的滑動尺度方法非常實用。
研究人員發現,許多聲稱是開放或者開源的模型——包括Meta的Llama和Google DeepMind的Gemma——實際上只是「開放權重」(open weight)。
這意味著外部研究人員可以訪問和使用這些訓練過的模型,但不能檢查或自定義它們。他們也無法完全了解這些模型是如何針對特定任務進行微調的;例如,使用人類反饋。Dingemanse說:「你並沒有開源太多……然後你就能獲得開源的信譽。」
作者們表示,特別令人擔憂的是,模型訓練數據不是透明的。他們表示,在他們分析的模型中,大約有一半沒有提供關於數據集的詳細信息,僅有泛泛的描述。
谷歌發言人表示,公司對描述模型使用的語言「非常精準」,選擇將其Gemma大型語言模型標為開放而非開源。「現有的開源概念並不總是能直接應用於AI系統」,他們補充道。
微軟的發言人稱,公司試圖「盡可能準確地描述可用的內容及其程度」。「我們選擇公開模型、代碼、工具和數據集等材料,因為開發者和研究社區在推動AI技術進步方面發揮著重要作用。」Meta未回應Nature的評論請求。
分析發現,小型公司和研究團隊製作的模型往往比大科技公司製作的模型更開源。作者們以由一個國際性、主要是學術合作項目構建的BLOOM為例,強調它是一個真正開源的AI。
同行評審「過時了」
他們發現,詳細介紹這些模型的科學論文極其罕見。同審評審似乎「幾乎完全過時了」,被挑選案例的博客文章或缺乏細節的公司預印本所取代。Dingemanse說,公司「可能會在其網站上發布一篇看起來很炫的論文,表面上看起來非常技術化。但是如果你仔細閱讀,根本沒有任何關於該系統使用了哪些數據的具體說明。」
目前尚不清楚這些模型中有多少符合歐盟對開源的定義。根據該法案,開源指的是在「自由和開放」的許可下發布的模型,例如允許用戶修改模型,但對訪問訓練數據沒有任何規定。該論文指出,細化這一定義可能會成為「企業遊說和大公司瞄準的一個焦點」。
Dingemanse表示,開放性對科學發展很重要,因為它對可重復性至關重要。「如果你無重復它,那就很難稱之為科學,」他說。研究人員創新的唯一方法是通過調整模型來實現,而要做到這一點,他們需要足夠的信息來構建自己的版本。
不僅如此,模型還必須接受審查。Dingemanse說:「如果我們無法了解內部運作,我們也不知道是否應該對此印象深刻。」例如,如果一個模型通過了某個特定測試,但它是通過大量訓練測試樣本實現的,那就不算是一個成就。而且沒有數據問責製,沒人知道是否使用了不當或有版權的數據,他補充道。
Liesenfeld說,他們希望幫助同行科學家在尋找用於教學和研究的模型時,避免「陷入我們曾經陷入的同樣陷阱」。---來源: 學術頭條-
https://www.nature.com/articles/d41586-024-02012-5