斯坦福AI Lab主任怒了!抄襲團隊2人甩鍋1人失蹤、前科經歷被扒
斯坦福團隊抄襲清華系大模型事件後續來了——
Llama3-V團隊承認抄襲,其中兩位來自斯坦福的本科生還跟另一位作者切割了。
最新致歉推文,由Siddharth Sharma(悉達多)和Aksh Garg(阿克什)發出。
不在其中、來自南加利福尼亞大學的Mustafa Aljadery(簡稱老穆)被指是主要過錯方,並且自昨天起人就失蹤了:
我們希望由老穆首發聲明,但自昨天以來一直無法聯系到他。
悉達多、我(阿克什)和老穆一起發布了Llama3-V,老穆為該項目編寫了代碼。
悉達多和我的角色是幫助他在Medium和Twitter上推廣這個模型。我倆查看了最近的論文以驗證工作的創新性,但我們沒有被告知和發現面壁智能先前的工作。
被指跑路的老穆本人,X主頁目前已經開啟保護鎖定狀態,申請才能關注:
整體來看,這條致歉推文和昨天那條發出後又急忙刪掉的推文內容大差不差,主要是突出了道歉和進一步甩鍋。
畢竟連斯坦福人工智能實驗室主任Christopher Manning都下場開噴:
這是典型的不承認自己錯誤!
他認為團隊在事發後避重就輕,用「架構相似」、「MiniCPM比我們更快實現」的借口推脫,拒不承認是抄襲。
但全新道歉聲明,並沒有止住網友們的質疑。並且最新爆料還指出,這幾位老哥根本就是抄襲慣犯,之前寫的教材也是一整個大抄特抄。
而原作者團隊面壁智能這邊,除CEO李大海昨天回應「也是一種受到國際團隊認可的方式」外,首席科學家劉知遠也已在知乎出面「親自答」:已經比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼。
人工智能的飛速發展離不開全球算法、數據與模型的開源共享,讓人們始終可以站在SOTA的肩上持續前進。我們這次開源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作為語言模型基座。
而開源共享的基石是對開源協議的遵守,對其他貢獻者的信任,對前人成果的尊重和致敬,Llama3-V團隊無疑嚴重破壞了這一點。他們在受到質疑後已在Huggingface刪庫,該團隊三人中的兩位也只是斯坦福大學本科生,未來還有很長的路,如果知錯能改,善莫大焉。
* 新的證據
還是先來簡單回顧一下這個大瓜。
一句話總結就是,有網友發現,最近在開源社區大火的斯坦福團隊多模態大模型Llama3-V,架構和代碼與國產MiniCPM-Llama3-V 2.5幾乎一毛一樣,並列舉了諸多證據直指Llama3-V抄襲。
隨著事件逐漸發酵,斯坦福AI團隊刪庫跑路,面壁智能團隊也就此事展開了調查。
面壁智能首席科學家、清華大學長聘副教授劉知遠給出的判斷Llama3-V是MiniCPM-Llama3-V 2.5套殼的一大理由,正是對於清華簡的識別能力。
這是MiniCPM-Llama3-V 2.5的「彩蛋」能力,是他們用了從清華簡逐字掃描並標註的數據集訓練的,並未公開。而Llama3-V的表現和MiniCPM-Llama3-V 2.5一模一樣,不僅做對的題一樣,出錯的地方都一樣。
今天,在第一波證據的基礎之上,又有其他網友扒出了新線索。
有人研究後發現,Llama3-V幾乎每一層的權重差值都符合均值為0、標準差為1.4e-3的高斯分布。
於是推測,Llama3-V只是直接在MiniCPM的權重上添加了低方差噪聲。
除此之外,那個跑路的大兄弟老穆還被曝之前寫了本關於「計算機網絡設計」的書,也是抄的。
從書中隨便抽出一章,用抄襲檢測器檢測一下就是一堆紅點:
以及,這本書的作者欄裏,據網友爆料也有悉達多的名字。
也有網友認為抄書這事兒是不是真的還有待考究。不過,現在這本書也404了。
說回這次的抄襲,悉達多和阿克什的致歉聲明中也有提到他們之所以和穆哥一起宣傳這個項目,最初也是被這個多模態模型驚艷到了,特別喜歡穆哥所描述的基於Idefics、SigLip和UHD的架構擴展。
但實際上網友一早扒出Llama3-V在空間模式等很多方面的具體實現都和LLaVA-UHD不同,卻跟MiniCPM-Llama3-V 2.5出奇一致。
根據MiniCPM-Llama3-V 2.5主頁介紹,MiniCPM-Llama3-V 2.5是面壁智能MiniCPM-V系列的最新開源模型,基於SigLip-400M和Llama3-8B-Instruct構建,總共8B參數。
從性能上講,MiniCPM-Llama3-V 2.5在OpenCompass上取得了65.1的平均分,性能超過如GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max等專有模型,且顯著超越其他基於Llama 3的多模態語言模型。
此外,MiniCPM-Llama3-V 2.5的OCR能力也很強,在OCRBench上得分700+,超越GPT-4o、GPT-4V-0409、Qwen-VL-Max和Gemini Pro。
基於最新的RLAIF-V方法,MiniCPM-Llama3-V 2.5在Object HalBench上的幻覺率為10.3%,也低於GPT-4V-1106的13.6%。
*「中國大模型被忽視了」
盡管甩鍋甩得飛快,但網友們很快又從阿克什和悉達多童鞋的道歉聲明裏發現了華點:
合著你倆啥也沒幹,幫著搞搞推廣就算項目作者啦?
宣發的時候說是你們仨的項目,出事了就把鍋全甩給一個人?
如果是老穆一個人寫了所有代碼,那你倆是幹啥的,就發發帖嗎?
還有網友挑起了一個更關鍵的話題,進一步引發熱議——
開源社區是否忽視了來自中國的大模型成果?
谷歌DeepMind研究員、ViT作者Lucas Beyer就提到,Llama3-V是抄的,但成本低於500美元,效果卻能直追Gemini、GPT-4的開源模型確實存在:但相比於Llama3-V,MiniCPM得到的關註要少得多,包括我自己也有所忽略。
主要原因似乎是這樣的模型出自中國實驗室,而非常春藤盟校。
抱抱臉平臺和社區負責人Omar Sanseviero說的更加直接:
社區一直在忽視中國機器學習生態系統的工作。他們正在用有趣的大語言模型、視覺大模型、音頻和擴散模型做一些令人驚奇的事情。
包括Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyunDiT等等。
對此,不少網友表示贊同,「他們推出了目前最好的開源VLM」。
從更客觀的大模型競技場的角度看,此言不虛。
在模型一對一PK的視覺大模型競技場中,來自零一萬物的Yi-VL-Plus排名第五,超過了谷歌的Gemini Pro Vision。智譜AI和清華合作的CogVLM也躋身前十。
此外,DeepSeek、通義千問和這次遭到抄襲的MiniCPM系列多模態模型,也都有不錯的表現。
在更受到廣泛認可的LMSYS Chatbot Arena Leaderboard競技場榜單中,來自中國的大模型也同樣在不斷刷新「最強開源」的新紀錄。
正如劉知遠老師所說:從橫向來看,我們顯然仍與國際頂尖工作如Sora和GPT-4o有顯著差距;同時,從縱向來看,我們已經從十幾年前的nobody,快速成長為人工智能科技創新的關鍵推動者。
此瓜甚巨,吃瓜者眾,或許更重要的是,一些成見正在破壁。你覺得呢?
MiniCPM原論文 : https://arxiv.org/abs/2404.06395
---[魚羊 西風 發自: 凹非寺*量子位:公眾號 QbitAI/來源: 量子位]
參考鏈接:
[1]https://x.com/AkshGarg03/status/1797682238961914370
[2]https://x.com/siddrrsh/status/1797682242145464814
[3]https://x.com/teortaxesTex/status/1797712605286645846
[4]https://x.com/chrmanning/status/1797664513367630101
[5]https://x.com/RylanSchaeffer/status/1797690302167417322
[6]https://x.com/giffmana/status/1797603355919028547
[7]https://x.com/RylanSchaeffer/status/1797690302167417322
[8]https://x.com/osanseviero/status/1797635895610540076
[9]https://huggingface.co/spaces/WildVision/vision-arena