斯坦福AI團隊抄襲國產大模型？連識別「清華簡」都抄了！清華系團隊發文回應

2024060417:07

智東西6月3日消息，大模型「套殼」的回旋鏢，這次紮到了美國科研團隊身上。最近幾天，斯坦福大學AI團隊陷入抄襲風波，被質疑「套殼」清華系大模型開源成果，引起輿論嘩然。

起因是這個團隊在5月29日發布了一個多模態大模型Llama3-V，聲稱只花500美元訓練，就能實現在多個基準測試中比肩GPT-4的性能。但很快有人發現，該模型跟清華系大模型創企面壁智能5月發布的MiniCPM-Llama3-V 2.5模型有不少相似處，而且沒有任何相關致謝或引用。

一開始團隊面對抄襲質疑還嘴硬否認，只承認使用了MiniCPM-Llama3-V的分詞器，後來證據越來越多——不僅架構和代碼高度相似，而且被發現作者曾在Hugging Face導入MiniCPM-V的代碼，然後改名成Llama3-V。

最絕的是Llama3-V連國產AI模型的「胎記」都抄走了，跟MiniCPM-V一樣能識別清華戰國竹簡「清華簡」，而且連出錯的樣例、在高斯擾動驗證後的正確和錯誤表現方面都高度相似。

而基於非公開訓練數據的清華簡識別能力，是面壁MiniCPM團隊耗時數月、從卷帙浩繁的清華簡中逐字掃描並逐一數據標註，融入模型中的。

面對鐵一般的證據，Llama3-V團隊終於立正挨打，一套道歉流程行雲流水，火速刪庫、發文致歉外加撇清關系。其中來自斯坦福計算機科學專業的兩位作者澄清說他們並未參與代碼工作，所有代碼都是畢業於南加州大學的Mustafa Aljadery負責的，他一直沒交出訓練代碼。

▲Llama3-V作者：Siddharth Sharma（左）、Aksh Garg（中）、Mustafa Aljadery（右）

這樣看來，Llama3-V團隊並不能算嚴格意義上的斯坦福團隊，不過因為此事聲譽受損的斯坦福大學至今沒有采取任何公開措施。

面壁智能團隊的回應很有涵養。今日，面壁智能聯合創始人兼CEO李大海在朋友圈回應說「深表遺憾」，這也是一種「受到國際團隊認可的方式」，並呼籲大家共建開放、合作、有信任的社區環境。

一、網友細數五大證據，作者刪庫跑路、不打自招

Llama3-V的模型代碼與MiniCPM-Llama3-V 2.5高度相似，同時其項目頁面沒有出現任何與MiniCPM-Llama3-V 2.5相關的聲明。

公開的基準測試結果顯示，Llama3-V在所有基準測試中優於GPT-3.5，在多個基準測試中優於GPT-4，且模型尺寸是GPT-4V的1/100，預訓練成本為500美元。這也使得該模型一經就沖上Hugging Face首頁。

但當細心網友發現Llama3-V疑似「套殼」面壁智能此前發布的開源多模態模型MiniCPM-Llama3-V 2.5，在評論區發表評論後，Llama3-V項目作者最初否認抄襲，並稱他們的項目開始時間先於MiniCPM-Llama3-V 2.5發布，只是使用了MiniCPM-Llama3-V 2.5的分詞器。

當網友拋出三大事實質疑後，Llama3-V的做法是——不回應直接刪除網友評論。

昨日下午，網友在MiniCPM-V頁面下將事情經過全部公開，並公開@面壁智能讓其項目團隊投訴。

當日晚間，面壁智能研發人員發布推文，其驗證結果也印證了網友的說法，Llama3-V與MiniCPM-Llama3-V 2.5高度相似。同時公開喊話Llama3-V研發團隊：「鑒於這些結果，我們擔心很難用巧合來解釋這種不尋常的相似性。我們希望作者能夠對這個問題給出官方解釋，相信這對開源社區的共同利益很重要。」

以下就是Llama3-V被質疑抄襲MiniCPM-Llama3-V 2.5的五大證據：

1、Llama3-V的代碼是對MiniCPM-Llama3-V 2.5的重新格式化，其模型行為檢查點的噪聲版本高度相似。

其中，Llama3-V只是對代碼進行了重新格式化和變量重命名，包括但不限於圖像切片、標記器、重采樣器和數據加載。面壁智能研發人員也證實，Llama3-V有點類似於MiniCPM-Llama3-V 2.5的噪聲版本。

2、起初網友在Llama3-V的Hugging Face頁面質疑抄襲時，其作者回應稱只是使用了其分詞器，並且項目開始時間比MiniCPM-Llama3-V 2.5更早。

當網友進一步詢問如何在MiniCPM-Llama3-V 2.5發布前使用其分詞器，作者給出的答案是使用了MiniCPM-V-2的分詞器，但很明顯，兩個版本的分詞器完全不同。

3、Llama3-V提供的代碼無法與Hugging Face的檢查點兼容。

但網友將Llama3-V模型權重中的變量名稱更改為MiniCPM-Llama3-V 2.5的名稱後，該模型可以與MiniCPM-V代碼一起運行。

面壁智能的研發人員的調查結果也顯示：更改參數名稱後，可以使用MiniCPM-Llama3-V 2.5的代碼和config.json運行Llama3-V。

4、Llama3-V項目的作者害怕面對質疑，刪除了質疑者在Llama3-V上提交的質疑他們偷竊的問題。並且目前Llama3-V項目已經從開源網站中下架刪除。

5、在一些未公開的實驗性特征上，比如在內部私有數據上訓練的古漢字清華竹簡，Llama3-V表現出與MiniCPM-Llama3-V 2.5高度相似的推理結果。這些訓練圖像是最近從出土文物中掃描並由面壁智能的團隊註釋的，尚未公開發布。

例如下圖中的幾個古漢字識別：

MiniCPM-Llama3-V 2.5中未公開的WebAgent功能上，在框選內容大小時，Llama3-V與之犯了相同的錯誤：

二、仨作者內訌，Aljadery全權負責寫代碼，但拿不出訓練代碼

昨天，Aksh Garg、Siddharth Sharma在外媒Medium上公開回應：「非常感謝在評論中指出（Llama3-V）與之前研究相似之處的人。我們意識到我們的架構與OpenBMB的『MiniCPM-Llama3-V2.5：手機上的GPT-4V級多模態大模型』非常相似，他們在實現方面領先於我們。為了尊重作者，我們刪除了原始模型。」Aljadery沒有出現在聲明中。

▲Aksh Garg、Siddharth Sharma的回應聲明

Mustafa曾在南加州大學從事深度學習研究，並在麻省理工學院從事並行計算研究，擁有南加州大學計算機科學學士學位和計算神經科學理學士學位，目前其沒有在公司任職。

Garg在社交平臺X中發布的致歉聲明中提到，Mustafa全權負責編寫Llama3-V的代碼，他與Sharma因忙於全職工作並未參與代碼編寫。

在聽取了Mustafa描述的Idefics、SigLip等架構擴展創新、查看了最新論文後，他們二人就在未被告知該項目與開源代碼關系的情況下，幫助Mustafa在外媒Medium和社交平臺X對Llama3-V進行了宣傳推廣。

在昨天看到關於Llama3-V的抄襲指控後，Garg和Sharma就與Mustafa進行了原創性討論，並要求他提供訓練代碼，但目前未收到任何相關證據。

目前，Aljadery的推特賬號顯示「只有獲得批準的關註者才能看到」。

三、首個基於Llama-3構建的多模態大模型

此前，Garg在介紹Llama3-V的文章中提到，Llama3-V是首個基於Llama-3構建的多模態大模型，訓練費用不到500美元。並且與多模態大模型Llava相比，Llama3-V性能提升了10-20%。

除了MMMU之外，Llama3-V在所有指標上的表現都與大小為其100倍的閉源模型非常相近。

他們所做的就是讓Llama 3能理解視覺信息。Llama3-V采用SigLIP模型獲取輸入圖像並將其嵌入到一系列塊嵌入中。然後，這些嵌入通過投影塊與文本標記對齊，投影塊應用兩個自註意力塊將文本和視覺嵌入放在同一平面上。最後，投影塊中的視覺標記就被添加到文本標記前面，並將聯合表示傳遞給Llama 3。

結語：Llama3-V套殼實錘，或損害開源社區健康發展

不論從網友的質疑還是Llama3-V作者的回應來看，該模型套殼MiniCPM-Llama3-V2.5已經基本實錘，高度相似的代碼以及部分基於面壁智能內部未公開訓練數據訓練的功能，都證明這兩大模型的相似性。

目前來看，對於大模型「套殼」沒有明確的界定，但開源大模型以及開源社區的構建本意是促進技術的共享和交流，加速AI的發展，但如果以這種直接「套殼」、更改變量的形式使用，或許會與這一發展願景背道而馳，損害開源社區的健康發展。

---[智東西（公眾號：zhidxcom）*作者:程茜*編輯:心緣/來源: 智東西]

*斯坦福AI項目作者對抄襲中國大模型致歉承諾撤下相關模型*

近日，斯坦福大學AI團隊主導的 Llama3-V 開源模型被證實套殼抄襲國內清華與面壁智能的開源模型「小鋼炮」MiniCPM-Llama3-V 2.5一事，在網絡上引發熱議。

在最新的進展中，斯坦福Llama3-V團隊的兩位作者Siddharth Sharma（森德哈斯·沙瑪）和 Aksh Garg（阿克沙·加格）在社交平臺上就這一學術不端行為向面壁MiniCPM團隊正式道歉，並表示會將Llama3-V模型悉數撤下。

Aksh Garg（阿克沙·加格）表示，「首先，我們要向MiniCPM原作者道歉。我、Siddharth Sharma，以及Mustafa（穆斯塔法）一起發布了Llama3-V，Mustafa為這個項目編寫了代碼，但從昨天起就無法聯系他。

我與Siddharth Sharma主要負責幫助Mustafa進行模型推廣。我們倆查看了最新的論文，以驗證這項工作的新穎性，但並未被告知或意識到OpenBMB（清華團隊支持發起的大規模預訓練語言模型庫與相關工具）之前的任何工作。

我們向作者道歉，並對自己沒有努力驗證這項工作的原創性感到失望。我們對所發生的事情承擔全部責任，並已撤下Llama3-V，再次致歉。」

另外，斯坦福人工智能實驗室主任Christopher David Manning也發文譴責這一抄襲行為，並對MiniCPM這一中國開源模型表示贊揚。

事件起源於5月29日，一個斯坦福AI 團隊在網絡上宣傳只需500美元就可訓練出一個超越GPT-4V的SOTA多模態大模型。隨後，網友發現，該團隊的Llama3-V模型使用的模型結構和代碼與面壁智能不久前發布的MiniCPM-Llama3-V2.5極為相似，僅修改了部分變量名。Llama3-V也具有與MiniCPM-Llama3-V 2.5相同的分詞器，包括後者新定義的特殊符號。

6月2日深夜，面壁智能團隊證實，斯坦福大模型項目Llama3-V與MiniCPM一樣，可以識別出「清華簡」戰國古文字，「不僅對得一模一樣、連錯得都一模一樣」。這一古文字數據為研究團隊花費數月從清華簡上逐字掃描並人工標註得來，並未對外公開，證實抄襲事實。

面壁智能CEO李大海表示，「我們對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認可的方式，另一方面呼籲大家共建開放、合作、有信任的社區環境。」「我們希望團隊的好工作被更多人關註與認可，但不是以這種方式。」

面壁智能首席科學家、清華大學長聘副教授劉知遠表示，人工智能的飛速發展離不開全球算法、數據與模型的開源共享，讓人們始終可以站在SOTA的肩上持續前進。

面壁開源的 MiniCPM-Llama3-V 2.5 就用了最新的Llama3 作為語言模型基座。而開源共享的基石是對開源協議的遵守，對其他貢獻者的信任，對前人成果的尊重和致敬，Llama3-V團隊無疑嚴重破壞了這一點。

他們在受到質疑後已在Huggingface刪庫，該團隊三人中的兩位也只是斯坦福大學本科生，未來還有很長的路，如果知錯能改，善莫大焉。

北京面壁智能科技有限責任公司成立於2022年8月，今年4月，面壁智能完成新一輪數億元融資，由華為哈勃領投，春華創投、北京市人工智能產業投資基金等跟投，知乎作為戰略股東持續跟投支持。

今年2月，面壁智能發布開源模型MiniCPM後，又推出MiniCPM 2系列端側模型。李大海表示，推動大模型在端側的落地是面壁目前的重點工作之一。---來源: 第一財經資訊-

我要留言

斯坦福AI團隊抄襲國產大模型？連識別「清華簡」都抄了！清華系團隊發文回應

一個人真正的大格局：不要跟這些「低維度」的人較真

沙利文：火山引擎成邊緣雲「領導者」！解構三大關鍵能力

一個人真正的大格局：不要跟這些「低維度」的人較真

沙利文：火山引擎成邊緣雲「領導者」！解構三大關鍵能力