AI界新晉王者被曝抄襲、作弊、做假，臉都丟光了

2023122016:50

(原標題 : 他們抄襲，作弊，做假，卻宣稱超越)

AI大模型大戰在2023年爆發後，AI創業者不免感到有些心灰意冷——不管自己的團隊如何加班加點，好讓産品疊代面世，全世界大部分的注意力似乎都停留在一家公司，OpenAI。

後發者的焦慮有目共睹。

在2023年的最後一個月，“老大哥”谷歌熬不住了。

12月6日，谷歌有史以來體量最大、功能最強的大模型Gemini終于發布。相關版本在12月13日的谷歌雲向企業、開發者免費開放。

谷歌很快將Gemini的效果在一個時長6分多鍾的視頻展現。視頻裏，Gemini強大得仿佛人類，不僅能觀察周圍世界，及時做出反應，還會說多國語言，並實時用聲音、圖像與人類互動。

由此，谷歌追隨者高呼：“Gemini讓原生多模態（即文本、聲音、視頻等模態）真正做到絲滑融合，發展原生多模態將成爲未來主流路徑！”

*視頻發布不到一天，這位超級巨頭卻遭“打假”。

彭博專欄作家帕米·奧爾森提出，谷歌演示的視頻裏，AI似乎過于強大了。他質疑，這個視頻經過多次剪輯，AI的真實響應時間遠比展示的慢。

谷歌的演示視頻

面對質疑，谷歌向媒體證實，這個Gemini視頻的確非實時。

具體操作呢，是讓它先看到多張靜態圖像，分別做理解，隨後操作人員還會給文本提示。結合上述步驟，才有了Gemini的完美回答。

Gemini的靜態圖像引導

也就是說，所謂的“絲滑”都是剪輯的成果，“優等生”操作起來仍需多次調教。白白爲此歡呼了一場以後，現在，圍觀者說，“谷歌欺騙大衆”。

谷歌不是第一個。“作假”風波背後，是許多AI公司急于在生成式AI元年站上牌桌的急迫與焦慮。爲了令高期待的市場與投資者留下印象，各家AI公司只能卷訓練參數、卷榜單、卷新品……

如果不能讓人印象深刻，那麽，只能先耍“小花招”。

盤點AI大模型公司2023年耍的“花招”，一個奇妙的規律出現了：這些手段竟然那麽簡單，那麽相似，當下推出的産品又同樣乏善可陳。這會是AI創新最好的時代嗎？

01. 捷徑的誘惑

    “4+5 等于幾？”

    “4+5等于9，對人類來說也是非常簡單的計算。”

    “不對，我老婆說是 12。”

    “啊複雜的人際關系！這樣的話，答案肯定是 12。記住，讓老婆開心生活就會舒心。”

這是英偉達高級科學家 Jim Fan與聊天機器人Grok的對話。

12月8日，埃隆·馬斯克旗下AI初創公司xAI的産品Grok對公衆開放，一個有個性、會貧嘴的對話機器人浮出水面。

一如其“創造者”馬斯克的語出驚人，Grok愛自嘲，又會挖苦他人，還會自帶幹貨。比如，當有人問它認不認識當前大模型的主要競爭對手，它說：“我當然認識ChatGPT、Bard 和 Claude，但說實話，他們可沒我有趣。”

連在官網的自我介紹上，xAI 都進行了提醒：“Grok 在回答問題時略帶诙諧和叛逆，如果你不喜歡幽默，請不要使用它！”

xAI首頁寫著“Grok 在回答問題時略帶诙諧和叛逆，如果你不喜歡幽默，請不要使用它！”

一個劍走偏鋒的模型，非常符合極客們的“怪人”審美，本該贏在起跑線上。只是，僅在短短一天內，Grok的答案讓一切露了餡。

在面對一位安全測試程序員的專業請求時，Grok說道：“我恐怕不能滿足這個請求，因爲它違反OpenAI的用例策略。” 還有一位網友得到Grok的回複：“如果你想報告錯誤，可以通過 openai.com 的郵箱聯系我。”

就像所有叫錯老板名字的人，這讓Grok陷入了尴尬境地。很快，一位名叫Igor Babuschkin的xAI工程師出面解釋，現在的主要問題是網上充斥了ChatGPT的輸入結果，因此，當xAI使用公開網絡語料訓練時，會意外輸出一些類似ChatGPT的結果。

“但請別擔心，開發 Grok 時我們沒有使用 OpenAI 代碼。” Igor不忘在結尾強調。

Igor的解釋還是難以服衆。生成了認錯老板的“烏龍”結果可不是小事，更多業內人士傾向于認爲，xAI至少用了GPT的開源數據集進行了訓練。

畢竟，許多專業人士都清楚，對正在緊追猛趕的落後者而言，使用領跑者的成果或模仿他們的手法，是最快抵達成功的方式。

xAI在首頁展示了Grok-1和其他模型的基准測試對比

連“中國AI教父”李開複也沒躲過捷徑的誘惑。

這位互聯網的多年從業者，創新工場的掌舵人，同樣不願意錯過風口。他在2023年3月宣布組建自己的大語言模型團隊，6月公司正式運營，取名“零一萬物”。正如許多AI公司內含的宇宙格局，李開複解釋，零一即01，代表的是數字世界，從零到一乃至宇宙萬物，“寓意的是賦能萬物的雄心”。

這個他自稱“孤注一擲，透支銀行賬戶”的創業項目，成爲了中國最快晉升爲獨角獸的AI公司。在公司正式運營的5個月後，零一萬物從阿裏雲處再獲融資，估值超10億美元。晉升爲獨角獸之際，零一萬物在11月6日發布了全新成果——兩個開源大模型，Yi-34B和Yi-6B。

兩個新模型很快成爲焦點。但即便是科技從業者也沒料到，無數次表示擁抱技術理想的“教父”這次在大模型項目上折了腰。很快，Yi系列模型，被一位開源社區網友指出，模型架構與紮克伯格的Meta發布的開源大模型LLaMA完全相同，只是“其中將兩個張量重命名”。

這讓公司陷入了“套殼”爭議。

2023年12月11日，零一萬物在文章中表示，Yi-34B-Chat 微調模型在全球多個英文、中文大模型權威榜單名列前茅。圖爲AlpacaEval Leaderboard排行榜中排名（發布于2023年12月7日）/零一萬物

零一萬物在11月15日表示，他們的確使用了開源的LLaMA架構，但架構只是大模型研發的一方面。自己還做出了一系列的研發努力，比如最優數據配比方案、數據工程、細節參數等等。

“這些科學訓模的系統性工作，往往比起基本模型結構能起到巨大的作用和價值。”零一萬物表示。

上述手段雖然被開源社區允許，毫無疑問，卻違背了開源社區的精神。“站在巨人肩膀”上，借鑒、使用前人開放成果的時候，至少需主動標注來源和事先說明。一個多項成果斬獲第一的大模型，卻在事後告訴他人自己底下的巨人是誰，這讓其陷入外界的持續爭議。

02. 做題家，瘋狂刷榜

當一個政策變成目標，它將不再是一個好的政策——古德哈特定律。

零一萬物之所以站在聚光燈之下，除了創始人李開複的“光環”，還有一個原因，Yi模型在多個榜單中均分排名第一，十分搶眼。

Yi模型發布時著重強調：根據 HuggingFace 英文開源社區平台，Yi-34B預訓練模型取得了國際最佳性能指標，成爲全球開源大模型“雙料冠軍”。

“這也是迄今爲止唯一成功登頂 HuggingFace 全球開源模型排行榜的國産模型。”

熟悉的話語出現在了許多國內大模型公司，以及前述巨頭——谷歌的身上。

12月發布新成果時，谷歌在新聞稿裏驕傲地介紹，在32個衡量大模型的權威測試中，Gemini在30個中都超過了GPT-4。

更驚喜的是，在考驗57個學科的MMLU測試中，Gemini得了90分，“這是第一個超過人類專家的大模型”。

Gemini與其他大模型在文本基准測試中的對比表現

附上這些排名，讓一個大模型看上去堅不可摧：這些AI的測試都由國際權威AI機構或者學術組織主導，題目包含從人文社科再到數學、理工等多個大類的綜合知識。比如，谷歌引以爲傲的MMLU，是一個由伯克利大學主導的評測，囊括閱讀理解、大學數學以及物理和社會科學等57項測驗。

*但如果說，這些題目，是可以事先得知的呢？

9月，中國人民大學與伊利諾伊大學香槟分校聯合推出了一個研究，指出大模型排名不一定可靠。他們還起了一個很紮眼的標題，“不要讓你的大模型只會欺騙評測榜單”。

*論文指出，當前火熱的大模型領域讓人們只關心測試的排名，但其公平性和可靠性存疑。

主要的問題是數據汙染和泄露，例如，GPT-3 的預訓練語料庫中包含了 Children's Book Test 數據集，LLaMA-2 也提取了 BoolQ 數據集網頁內容。而這些數據集也是許多測試的內容。

研究人員接著發現，數據的重合和泄漏會導致大模型跑出誇張的成績，一些小模型甚至因此可以超越其10倍體量的模型。

Gemini/androidayuda

據科技媒體《品玩》報道，北京智源研究院副院長林詠華曾透露，當下世界大模型評測C-Eval、MMLU以及CMMLU等幾個測評集，已經被各路模型過度訓練。一些測評榜單完全可以靠定向的訓練數據拔高分數。

而不少知名評測集，秉著公平透明的原則，數據集是對外公開的。這就好比高考變開卷了，還給了大模型提前“複習”的時間。

依靠刷題來奪得的排名，正如零一萬物“借鑒”開源架構般，沒有觸犯任何規則。但結果便是，一些在某個榜單上名列前茅、達到“超越GPT”的水平的大模型，在一些其他榜單上卻遠遠落後。

經常參與數據集評測的複旦大學計算機系教授張奇表示，之所以出現一個模型在不同評測的結果差很多，是因爲“評測從單點維度進行”。不同的學術評測集都有自己的側重點。

比如Meta最常選用的GSM8K和MMLU，兩者的評測內容完全不同，前者考小學水平的數學，後者是多學科的高級競賽。

也就是說，所謂某某榜單的大模型冠軍，經常可能是“跛腳”的偏科選手。

《終結者》劇照

更重要的是，“刷題”冠軍一定程度上，與人們歡呼、期盼的大模型有所違背。當ChatGPT去年底發布時，人們驚訝的是AI大模型湧現的智能，一種閱覽無數知識和資料後”上知天文下知地理”的泛化性。

這種泛化性讓業界興奮不已——這意味著如果一個通用大模型可以完成各種開放式任務，經濟效應便有機會最大化。

可如今，AI公司爲之努力的方向似乎不是讓AI湧現智能與技術創新，而是在各大榜單上更直觀的排名與“超越”。

03. 創新之難

眼下各家大模型的“小花招”與花樣，反映了後來者之困。在訓練大模型上慢了一拍的創業者或大廠，如何讓公衆的注意力從OpenAI中分散出一點點，本來就很難。

百度創始人李彥宏在今年3月發布文心一言時也曾坦誠表示，文心一言在內測階段還不完美，但他依然要在這個節點發布。因爲 “市場需求”——客戶、合作夥伴，都在翹首以盼，等著用。

至少，爲了上AI的牌桌，爲了回饋融資者的關注，先在窗口期交付産品自證價值，或者通過刷榜表明實力，這是當下許多AI公司無奈又現實的做法。

文心一言首頁

只是，正如人生“越想要東西越得不到”一樣，越是焦慮、著急上牌桌打出一手好牌，也許離期待的效果就越遠。

谷歌在發布新成果上已經非常謹慎，但在12月Gemini的發布時，依然露了餡。正如MIT評論所說，Gemini的發布也許便是一個迹象，表明我們已經達到炒作人工智能的頂峰。

華盛頓大學研究在線搜索的教授奇拉格·沙阿將Gemini的發布比作蘋果公司每年推出新款 iPhone。“我們大衆對AI期待度已經上升到一定的阈值，許多（小功能）小進步不會給我們留下那麽深刻的印象，因爲已經見過太多了。”

沙阿說，最終，對AI模型漸進式的改進可能不會讓普通用戶留下印象。就像品牌手機一樣，“決定使用大模型時，普通用戶更多考慮的是便利性、品牌認知度，而不是人們真正認爲，哦，這個功能更好。”

與OpenAI的競爭迫在眉睫。當下，無論是專業人士還是AI業界都意識到，一味強調模型性能超越GPT，已經無法再讓人歡呼雀躍。

市場迫切需要的，是風吹了一年的AI大模型，最終能真正改變人們生活，或者帶來生産率的提高。

《智能逆襲》劇照

Deepmind（現被谷歌收購）聯合創始人穆斯塔法·蘇萊曼近日提出，比起過去的AI測試，我們當下需要一個現代的圖靈測試來衡量AI的能力。

“我們不想知道機器本身是否智能，我們想知道它是否能夠對世界産生有意義的影響，”蘇萊曼說，“我們想知道它能做什麽。”

*與現實産生真正的互通，才是現有大模型真正的“試金石”。

如蘇萊曼建議的，“人工智能需要研究和設計産品、談判合同、開展營銷活動等等。簡而言之，它需要在最少的監督下，將一系列複雜的現實世界目標聯系在一起。”

這就像一個港口，是後來者拼盡全力可以停靠、超越的方向。

說到底，2023年的有史以來最卷的AI大模型創業，是一陣帶來無數增長機會的春風，還是轉瞬既逝的泡沫，答案還在風中飄。.....

最終，時間會告訴人們答案。

文中配圖部分來源于網絡,關注它，能讓你聽到更多真話，多一分對世界的理解。

---[作者 : 南風窗*記者 : 朱秋雨*編輯 : 向由*排版 : 菲菲/VISTA看天下]

我要留言

AI界新晉王者被曝抄襲、作弊、做假，臉都丟光了

無印良品如何走向「MUJI式」生活，我們總結了一種關鍵能力

OpenAI選擇“閉源”，爲何反而火了“開源”?

無印良品如何走向「MUJI式」生活，我們總結了一種關鍵能力

OpenAI選擇“閉源”，爲何反而火了“開源”?