不到500美元訓練出超水平大模型?
圖片由騰訊元寶AI生成。
一則斯坦福大學Llama3-V團隊抄襲清華系大模型的消息,近日引發熱議。北京時間4日淩晨,該團隊的兩名成員在社交媒體上對這一學術不端行為公開致歉,並表示會將Llama3-V模型悉數撤下。
據悉,兩人是斯坦福大學計算機科學專業的本科生,自稱在團隊中的角色是模型推廣,而負責該項目代碼編寫的是畢業於南加利福尼亞大學Mustafa Aljadery。事發後,他們要求Mustafa提供原創性證明和訓練代碼,但未取得任何證據。
南都記者嘗試聯系率先發現清華系模型被套殼的網友,他表示只是做了一名開源社區工作者應該做的事。此次Llama3-V的抄襲行為,「相當於把可口可樂換成可日可樂就說是自己的項目」。
斯坦福大學AI團隊發布模型被指抄襲
事情起源於5月29日,斯坦福大學AI團隊發布Llama3-V開源模型,稱它比當前開源SOTA視覺語言模型LLaVA的性能提高了10%-20%,不僅尺寸比GPT-4V小近99%,而且性能比肩GPT-4V、Gemini Ultra與Claude Opus。
更重要的是,該大模型的訓練成本僅不到500美元。這一驚艷的成果,再加上3位作者出色的專業和技術研發背景,讓Llama3-V一經發布就引發各方關註,並一度登上全球最大的開源大模型社區HuggingFace趨勢榜第五位。
不過很快,質疑聲便出現。6月2日下午,網友Magic Yang稱發現了一個令人震驚的事實:Llama3-V項目中有大量疑似抄襲MiniCPM-Llama3-V 2.5的內容,同時曬出了多項涉嫌抄襲的證據。
比如在模型結構和配置文件上,二者高度雷同,只是變量名不同。Llama3-V的代碼也幾乎完全照抄MiniCPM-Llama3-V 2.5,僅做了一些重新格式化和變量重命名,包括但不限於圖像切片、分詞器、重采樣器、數據加載等變量。
GitHub項目信息顯示,MiniCPM-Llama3-V2.5共有8B個參數,整體性能超越GPT-4V-1106、Gemini Pro、Qwen-VL-Max和Claude3等專有模型,配備了增強的OCR和指令跟蹤能力,還可以支持英語、中文、法語等30多種語言的多模態對話。這款端測多模態開源模型,由清華大學自然語言處理實驗室與面壁智能合作開發,於今年5月20日推出。
對話打假者:發現抄襲不難 證實不易
南都記者嘗試聯系這位揭露Llama3-V涉嫌抄襲的網友Magic Yang(知乎網名「社恐患者楊老師」),他向南都記者回顧了這場打假的過程。楊老師表示,最近正在幫助一名博士生做有關運動處方的項目,想選擇一個質量較好的開源模型作為微調的基座。此前他曾測試了MiniCPM-Llama3-V2.5,因此對MiniCPM的模型架構和代碼都相對熟悉。
後來他註意到,Llama3-V項目在HuggingFace上排名非常靠前,且獲得了相關博主推薦,於是想進一步做測試。但在這過程中,他發現二者在模型架構和代碼上存在高度相似的情況,就此詢問了Llama3-V作者。結果對方避重就輕,並不正面回應,隨後更是將質疑帖子刪除,且隱藏了MiniCPM-Llama3-V 2.5的項目主頁。
這一系列的操作,令人生疑。6月2日下午,楊老師把所知的證據發到MiniCPM-V的Github項目主頁,並提醒面壁智能團隊關註。相關對話截圖顯示,Llama3-V項目作者最初否認抄襲,並稱他們的項目開始時間更早,只是使用了MiniCPM-V2的分詞器。
楊老師告訴南都記者,作為一個有大模型經驗的開發者,發現(抄襲行為)不難,但要證實不易。此事最終一錘定音,還是因為面壁智能團隊使用內部數據集「清華簡」做了對比測試。
「連錯的都一模一樣」,確信是套殼
6月2日深夜,面壁智能團隊證實了抄襲行為的存在。經核實,除了社區網友列出的證據外,還發現Llama3-V項目與MiniCP-Llama3-V 2.5一樣,可以識別出「清華簡」戰國古文字,「不僅對的一模一樣,連錯的都一模一樣」。
據面壁智能首席科學家、清華大學長聘副教授劉知遠介紹,「清華簡」的識別能力,是MiniCPM-Llama3-V 2.5研發時內置了一個彩蛋。這是該團隊花費數月從清華簡逐字掃描,人工標註而來的數據集,並未公開,由此「已經比較確信Llama3-V是對MiniCPM-Llama3-V2.5套殼。」
針對此事,面壁智能CEO李大海也發文稱,深表遺憾。「技術創新不易,好的成果希望被更多人關註和認可,但不是以這種方式。」李大海呼籲,大家共建開放、合作、有信任的社區環境。
劉知遠也表示,人工智能的飛速發展離不開全球算法、數據與模型的開源共享,讓人們始終可以站在SOTA(意為「最新技術」的最佳狀態)的肩上持續前進。「開源共享的基石是對開源協議的遵守,對其他貢獻者的信任,對前人成果的尊重和致敬,Llama3-V團隊無疑嚴重破壞了這一點。」同時他提到,Llama3-V團隊的3位作者中,有兩位是斯坦福大學本科生,未來還有很長的路,「如果知錯能改,善莫大焉」。
北京時間4日淩晨,卷入此次風波的兩名斯坦福大學本科生在社交平臺上解釋,稱該項目由3人發布,他們只在其中幫忙推廣模型,負責代碼編寫的是Mustafa Aljadery。事發後,他們曾嘗試聯系Mustafa發布原創性聲明,並提供訓練代碼,但到目前為止還未看到任何證據。在這份聯合聲明中,兩人再次向原作者道歉,並稱對未盡職盡責確保Llama3-V的獨創性而感到失望,現已將所有對Llama3-V的引用都刪除了。
被推為主要責任方的Mustafa,是團隊中唯一的全職成員。其本碩畢業於南加利福尼亞大學,主攻深度學習和數學,是一名軟件工程師。截至目前,Mustafa尚未發聲。
兩名作者的解釋,尚不能平息質疑。斯坦福人工智能實驗室主任Christopher David Manning公開發文譴責這一抄襲行為,稱兩人借口推脫,是拒不認錯的表現。
面壁智能核心團隊來自清華NLP實驗室
此次被牽涉進抄襲風波中的面壁智能創立於2022年8月,團隊的核心成員來自清華大學自然語言處理與社會人文計算實驗室 (THUNLP)——該實驗室也撐起了去年大模型創業浪潮以來的「半壁江山」,跑出了生數科技、深言科技等人工智能企業和華為的「盤古大模型」。
今年4月,南都記者從面壁智能方面獲悉,該公司已完成了新一輪數億元融資,該輪次融資由春華創投、華為哈勃領投,北京市人工智能產業投資基金等跟投,而知乎作為戰略股東持續跟投支持。據悉,該輪融資將用於人才引入、大模型底層算力與數據基礎的建構以及推動大模型高效訓練和應用落地。
後續進展
6月5日,面壁智能發布消息稱,作為開源社區的貢獻者和受益者,面壁智能,OpenBMB&清華NLP實驗室認真討論決定,將面壁「小鋼炮」MiniCPM免費商用。即日起,MiniCPM和MiniCPM-V權重將對學術研究完全開放,並且企業、個人在填寫問卷登記後亦允許商業使用,社區使用MiniCPM系列模型需要遵循Apache 2.0和《MiniCPM模型社區許可協議》。
---[采寫:南都記者 李玲 林文琪/來源: 南方都市報]