AI界新晉王者被曝抄襲、作弊、做假,臉都丟光了
(原標題 : 他們抄襲,作弊,做假,卻宣稱超越)
AI大模型大戰在2023年爆發後,AI創業者不免感到有些心灰意冷——不管自己的團隊如何加班加點,好讓産品疊代面世,全世界大部分的注意力似乎都停留在一家公司,OpenAI。
後發者的焦慮有目共睹。
在2023年的最後一個月,“老大哥”谷歌熬不住了。
12月6日,谷歌有史以來體量最大、功能最強的大模型Gemini終于發布。相關版本在12月13日的谷歌雲向企業、開發者免費開放。
谷歌很快將Gemini的效果在一個時長6分多鍾的視頻展現。視頻裏,Gemini強大得仿佛人類,不僅能觀察周圍世界,及時做出反應,還會說多國語言,並實時用聲音、圖像與人類互動。
由此,谷歌追隨者高呼:“Gemini讓原生多模態(即文本、聲音、視頻等模態)真正做到絲滑融合,發展原生多模態將成爲未來主流路徑!”
*視頻發布不到一天,這位超級巨頭卻遭“打假”。
彭博專欄作家帕米·奧爾森提出,谷歌演示的視頻裏,AI似乎過于強大了。他質疑,這個視頻經過多次剪輯,AI的真實響應時間遠比展示的慢。
谷歌的演示視頻
面對質疑,谷歌向媒體證實,這個Gemini視頻的確非實時。
具體操作呢,是讓它先看到多張靜態圖像,分別做理解,隨後操作人員還會給文本提示。結合上述步驟,才有了Gemini的完美回答。
Gemini的靜態圖像引導
也就是說,所謂的“絲滑”都是剪輯的成果,“優等生”操作起來仍需多次調教。白白爲此歡呼了一場以後,現在,圍觀者說,“谷歌欺騙大衆”。
谷歌不是第一個。“作假”風波背後,是許多AI公司急于在生成式AI元年站上牌桌的急迫與焦慮。爲了令高期待的市場與投資者留下印象,各家AI公司只能卷訓練參數、卷榜單、卷新品……
如果不能讓人印象深刻,那麽,只能先耍“小花招”。
盤點AI大模型公司2023年耍的“花招”,一個奇妙的規律出現了:這些手段竟然那麽簡單,那麽相似,當下推出的産品又同樣乏善可陳。這會是AI創新最好的時代嗎?
01. 捷徑的誘惑
“4+5 等于幾?”
“4+5等于9,對人類來說也是非常簡單的計算。”
“不對,我老婆說是 12。”
“啊複雜的人際關系!這樣的話,答案肯定是 12。記住,讓老婆開心生活就會舒心。”
這是英偉達高級科學家 Jim Fan與聊天機器人Grok的對話。
12月8日,埃隆·馬斯克旗下AI初創公司xAI的産品Grok對公衆開放,一個有個性、會貧嘴的對話機器人浮出水面。
一如其“創造者”馬斯克的語出驚人,Grok愛自嘲,又會挖苦他人,還會自帶幹貨。比如,當有人問它認不認識當前大模型的主要競爭對手,它說:“我當然認識ChatGPT、Bard 和 Claude,但說實話,他們可沒我有趣。”
連在官網的自我介紹上,xAI 都進行了提醒:“Grok 在回答問題時略帶诙諧和叛逆,如果你不喜歡幽默,請不要使用它!”
xAI首頁寫著“Grok 在回答問題時略帶诙諧和叛逆,如果你不喜歡幽默,請不要使用它!”
一個劍走偏鋒的模型,非常符合極客們的“怪人”審美,本該贏在起跑線上。只是,僅在短短一天內,Grok的答案讓一切露了餡。
在面對一位安全測試程序員的專業請求時,Grok說道:“我恐怕不能滿足這個請求,因爲它違反OpenAI的用例策略。” 還有一位網友得到Grok的回複:“如果你想報告錯誤,可以通過 openai.com 的郵箱聯系我。”
就像所有叫錯老板名字的人,這讓Grok陷入了尴尬境地。很快,一位名叫Igor Babuschkin的xAI工程師出面解釋,現在的主要問題是網上充斥了ChatGPT的輸入結果,因此,當xAI使用公開網絡語料訓練時,會意外輸出一些類似ChatGPT的結果。
“但請別擔心,開發 Grok 時我們沒有使用 OpenAI 代碼。” Igor不忘在結尾強調。
Igor的解釋還是難以服衆。生成了認錯老板的“烏龍”結果可不是小事,更多業內人士傾向于認爲,xAI至少用了GPT的開源數據集進行了訓練。
畢竟,許多專業人士都清楚,對正在緊追猛趕的落後者而言,使用領跑者的成果或模仿他們的手法,是最快抵達成功的方式。
xAI在首頁展示了Grok-1和其他模型的基准測試對比
連“中國AI教父”李開複也沒躲過捷徑的誘惑。
這位互聯網的多年從業者,創新工場的掌舵人,同樣不願意錯過風口。他在2023年3月宣布組建自己的大語言模型團隊,6月公司正式運營,取名“零一萬物”。正如許多AI公司內含的宇宙格局,李開複解釋,零一即01,代表的是數字世界,從零到一乃至宇宙萬物,“寓意的是賦能萬物的雄心”。
這個他自稱“孤注一擲,透支銀行賬戶”的創業項目,成爲了中國最快晉升爲獨角獸的AI公司。在公司正式運營的5個月後,零一萬物從阿裏雲處再獲融資,估值超10億美元。晉升爲獨角獸之際,零一萬物在11月6日發布了全新成果——兩個開源大模型,Yi-34B和Yi-6B。
兩個新模型很快成爲焦點。但即便是科技從業者也沒料到,無數次表示擁抱技術理想的“教父”這次在大模型項目上折了腰。很快,Yi系列模型,被一位開源社區網友指出,模型架構與紮克伯格的Meta發布的開源大模型LLaMA完全相同,只是“其中將兩個張量重命名”。
這讓公司陷入了“套殼”爭議。
2023年12月11日,零一萬物在文章中表示,Yi-34B-Chat 微調模型在全球多個英文、中文大模型權威榜單名列前茅。圖爲AlpacaEval Leaderboard排行榜中排名(發布于2023年12月7日)/零一萬物
零一萬物在11月15日表示,他們的確使用了開源的LLaMA架構,但架構只是大模型研發的一方面。自己還做出了一系列的研發努力,比如最優數據配比方案、數據工程、細節參數等等。
“這些科學訓模的系統性工作,往往比起基本模型結構能起到巨大的作用和價值。”零一萬物表示。
上述手段雖然被開源社區允許,毫無疑問,卻違背了開源社區的精神。“站在巨人肩膀”上,借鑒、使用前人開放成果的時候,至少需主動標注來源和事先說明。一個多項成果斬獲第一的大模型,卻在事後告訴他人自己底下的巨人是誰,這讓其陷入外界的持續爭議。
02. 做題家,瘋狂刷榜
當一個政策變成目標,它將不再是一個好的政策——古德哈特定律。
零一萬物之所以站在聚光燈之下,除了創始人李開複的“光環”,還有一個原因,Yi模型在多個榜單中均分排名第一,十分搶眼。
Yi模型發布時著重強調:根據 HuggingFace 英文開源社區平台,Yi-34B預訓練模型取得了國際最佳性能指標,成爲全球開源大模型“雙料冠軍”。
“這也是迄今爲止唯一成功登頂 HuggingFace 全球開源模型排行榜的國産模型。”
熟悉的話語出現在了許多國內大模型公司,以及前述巨頭——谷歌的身上。
12月發布新成果時,谷歌在新聞稿裏驕傲地介紹,在32個衡量大模型的權威測試中,Gemini在30個中都超過了GPT-4。
更驚喜的是,在考驗57個學科的MMLU測試中,Gemini得了90分,“這是第一個超過人類專家的大模型”。
Gemini與其他大模型在文本基准測試中的對比表現
附上這些排名,讓一個大模型看上去堅不可摧:這些AI的測試都由國際權威AI機構或者學術組織主導,題目包含從人文社科再到數學、理工等多個大類的綜合知識。比如,谷歌引以爲傲的MMLU,是一個由伯克利大學主導的評測,囊括閱讀理解、大學數學以及物理和社會科學等57項測驗。
*但如果說,這些題目,是可以事先得知的呢?
9月,中國人民大學與伊利諾伊大學香槟分校聯合推出了一個研究,指出大模型排名不一定可靠。他們還起了一個很紮眼的標題,“不要讓你的大模型只會欺騙評測榜單”。
*論文指出,當前火熱的大模型領域讓人們只關心測試的排名,但其公平性和可靠性存疑。
主要的問題是數據汙染和泄露,例如,GPT-3 的預訓練語料庫中包含了 Children's Book Test 數據集,LLaMA-2 也提取了 BoolQ 數據集網頁內容。而這些數據集也是許多測試的內容。
研究人員接著發現,數據的重合和泄漏會導致大模型跑出誇張的成績,一些小模型甚至因此可以超越其10倍體量的模型。
Gemini/androidayuda
據科技媒體《品玩》報道,北京智源研究院副院長林詠華曾透露,當下世界大模型評測C-Eval、MMLU以及CMMLU等幾個測評集,已經被各路模型過度訓練。一些測評榜單完全可以靠定向的訓練數據拔高分數。
而不少知名評測集,秉著公平透明的原則,數據集是對外公開的。這就好比高考變開卷了,還給了大模型提前“複習”的時間。
依靠刷題來奪得的排名,正如零一萬物“借鑒”開源架構般,沒有觸犯任何規則。但結果便是,一些在某個榜單上名列前茅、達到“超越GPT”的水平的大模型,在一些其他榜單上卻遠遠落後。
經常參與數據集評測的複旦大學計算機系教授張奇表示,之所以出現一個模型在不同評測的結果差很多,是因爲“評測從單點維度進行”。不同的學術評測集都有自己的側重點。
比如Meta最常選用的GSM8K和MMLU,兩者的評測內容完全不同,前者考小學水平的數學,後者是多學科的高級競賽。
也就是說,所謂某某榜單的大模型冠軍,經常可能是“跛腳”的偏科選手。
《終結者》劇照
更重要的是,“刷題”冠軍一定程度上,與人們歡呼、期盼的大模型有所違背。當ChatGPT去年底發布時,人們驚訝的是AI大模型湧現的智能,一種閱覽無數知識和資料後”上知天文下知地理”的泛化性。
這種泛化性讓業界興奮不已——這意味著如果一個通用大模型可以完成各種開放式任務,經濟效應便有機會最大化。
可如今,AI公司爲之努力的方向似乎不是讓AI湧現智能與技術創新,而是在各大榜單上更直觀的排名與“超越”。
03. 創新之難
眼下各家大模型的“小花招”與花樣,反映了後來者之困。在訓練大模型上慢了一拍的創業者或大廠,如何讓公衆的注意力從OpenAI中分散出一點點,本來就很難。
百度創始人李彥宏在今年3月發布文心一言時也曾坦誠表示,文心一言在內測階段還不完美,但他依然要在這個節點發布。因爲 “市場需求”——客戶、合作夥伴,都在翹首以盼,等著用。
至少,爲了上AI的牌桌,爲了回饋融資者的關注,先在窗口期交付産品自證價值,或者通過刷榜表明實力,這是當下許多AI公司無奈又現實的做法。
文心一言首頁
只是,正如人生“越想要東西越得不到”一樣,越是焦慮、著急上牌桌打出一手好牌,也許離期待的效果就越遠。
谷歌在發布新成果上已經非常謹慎,但在12月Gemini的發布時,依然露了餡。正如MIT評論所說,Gemini的發布也許便是一個迹象,表明我們已經達到炒作人工智能的頂峰。
華盛頓大學研究在線搜索的教授奇拉格·沙阿將Gemini的發布比作蘋果公司每年推出新款 iPhone。“我們大衆對AI期待度已經上升到一定的阈值,許多(小功能)小進步不會給我們留下那麽深刻的印象,因爲已經見過太多了。”
沙阿說,最終,對AI模型漸進式的改進可能不會讓普通用戶留下印象。就像品牌手機一樣,“決定使用大模型時,普通用戶更多考慮的是便利性、品牌認知度,而不是人們真正認爲,哦,這個功能更好。”
與OpenAI的競爭迫在眉睫。當下,無論是專業人士還是AI業界都意識到,一味強調模型性能超越GPT,已經無法再讓人歡呼雀躍。
市場迫切需要的,是風吹了一年的AI大模型,最終能真正改變人們生活,或者帶來生産率的提高。
《智能逆襲》劇照
Deepmind(現被谷歌收購)聯合創始人穆斯塔法·蘇萊曼近日提出,比起過去的AI測試,我們當下需要一個現代的圖靈測試來衡量AI的能力。
“我們不想知道機器本身是否智能,我們想知道它是否能夠對世界産生有意義的影響,”蘇萊曼說,“我們想知道它能做什麽。”
*與現實産生真正的互通,才是現有大模型真正的“試金石”。
如蘇萊曼建議的,“人工智能需要研究和設計産品、談判合同、開展營銷活動等等。簡而言之,它需要在最少的監督下,將一系列複雜的現實世界目標聯系在一起。”
這就像一個港口,是後來者拼盡全力可以停靠、超越的方向。
說到底,2023年的有史以來最卷的AI大模型創業,是一陣帶來無數增長機會的春風,還是轉瞬既逝的泡沫,答案還在風中飄。.....
最終,時間會告訴人們答案。
文中配圖部分來源于網絡,關注它,能讓你聽到更多真話,多一分對世界的理解。
---[作者 : 南風窗*記者 : 朱秋雨*編輯 : 向由*排版 : 菲菲/VISTA看天下]