01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

AI界新晉王者被曝抄襲、作弊、做假,臉都丟光了

2023122016:50

(原標題 : 他們抄襲,作弊,做假,卻宣稱超越)

AI大模型大戰在2023年爆發後,AI創業者不免感到有些心灰意冷——不管自己的團隊如何加班加點,好讓産品疊代面世,全世界大部分的注意力似乎都停留在一家公司,OpenAI。

後發者的焦慮有目共睹。

在2023年的最後一個月,“老大哥”谷歌熬不住了。

12月6日,谷歌有史以來體量最大、功能最強的大模型Gemini終于發布。相關版本在12月13日的谷歌雲向企業、開發者免費開放。

谷歌很快將Gemini的效果在一個時長6分多鍾的視頻展現。視頻裏,Gemini強大得仿佛人類,不僅能觀察周圍世界,及時做出反應,還會說多國語言,並實時用聲音、圖像與人類互動。

由此,谷歌追隨者高呼:“Gemini讓原生多模態(即文本、聲音、視頻等模態)真正做到絲滑融合,發展原生多模態將成爲未來主流路徑!”

*視頻發布不到一天,這位超級巨頭卻遭“打假”。

彭博專欄作家帕米·奧爾森提出,谷歌演示的視頻裏,AI似乎過于強大了。他質疑,這個視頻經過多次剪輯,AI的真實響應時間遠比展示的慢。

谷歌的演示視頻

面對質疑,谷歌向媒體證實,這個Gemini視頻的確非實時。

具體操作呢,是讓它先看到多張靜態圖像,分別做理解,隨後操作人員還會給文本提示。結合上述步驟,才有了Gemini的完美回答。



Gemini的靜態圖像引導

也就是說,所謂的“絲滑”都是剪輯的成果,“優等生”操作起來仍需多次調教。白白爲此歡呼了一場以後,現在,圍觀者說,“谷歌欺騙大衆”。

谷歌不是第一個。“作假”風波背後,是許多AI公司急于在生成式AI元年站上牌桌的急迫與焦慮。爲了令高期待的市場與投資者留下印象,各家AI公司只能卷訓練參數、卷榜單、卷新品……

如果不能讓人印象深刻,那麽,只能先耍“小花招”。

盤點AI大模型公司2023年耍的“花招”,一個奇妙的規律出現了:這些手段竟然那麽簡單,那麽相似,當下推出的産品又同樣乏善可陳。這會是AI創新最好的時代嗎?

01. 捷徑的誘惑

    “4+5 等于幾?”

    “4+5等于9,對人類來說也是非常簡單的計算。”

    “不對,我老婆說是 12。”

    “啊複雜的人際關系!這樣的話,答案肯定是 12。記住,讓老婆開心生活就會舒心。”

這是英偉達高級科學家 Jim Fan與聊天機器人Grok的對話。

12月8日,埃隆·馬斯克旗下AI初創公司xAI的産品Grok對公衆開放,一個有個性、會貧嘴的對話機器人浮出水面。

一如其“創造者”馬斯克的語出驚人,Grok愛自嘲,又會挖苦他人,還會自帶幹貨。比如,當有人問它認不認識當前大模型的主要競爭對手,它說:“我當然認識ChatGPT、Bard 和 Claude,但說實話,他們可沒我有趣。”

連在官網的自我介紹上,xAI 都進行了提醒:“Grok 在回答問題時略帶诙諧和叛逆,如果你不喜歡幽默,請不要使用它!”

xAI首頁寫著“Grok 在回答問題時略帶诙諧和叛逆,如果你不喜歡幽默,請不要使用它!”

一個劍走偏鋒的模型,非常符合極客們的“怪人”審美,本該贏在起跑線上。只是,僅在短短一天內,Grok的答案讓一切露了餡。

在面對一位安全測試程序員的專業請求時,Grok說道:“我恐怕不能滿足這個請求,因爲它違反OpenAI的用例策略。” 還有一位網友得到Grok的回複:“如果你想報告錯誤,可以通過 openai.com 的郵箱聯系我。”

就像所有叫錯老板名字的人,這讓Grok陷入了尴尬境地。很快,一位名叫Igor Babuschkin的xAI工程師出面解釋,現在的主要問題是網上充斥了ChatGPT的輸入結果,因此,當xAI使用公開網絡語料訓練時,會意外輸出一些類似ChatGPT的結果。

“但請別擔心,開發 Grok 時我們沒有使用 OpenAI 代碼。” Igor不忘在結尾強調。

Igor的解釋還是難以服衆。生成了認錯老板的“烏龍”結果可不是小事,更多業內人士傾向于認爲,xAI至少用了GPT的開源數據集進行了訓練。

畢竟,許多專業人士都清楚,對正在緊追猛趕的落後者而言,使用領跑者的成果或模仿他們的手法,是最快抵達成功的方式。



xAI在首頁展示了Grok-1和其他模型的基准測試對比

連“中國AI教父”李開複也沒躲過捷徑的誘惑。

這位互聯網的多年從業者,創新工場的掌舵人,同樣不願意錯過風口。他在2023年3月宣布組建自己的大語言模型團隊,6月公司正式運營,取名“零一萬物”。正如許多AI公司內含的宇宙格局,李開複解釋,零一即01,代表的是數字世界,從零到一乃至宇宙萬物,“寓意的是賦能萬物的雄心”。

這個他自稱“孤注一擲,透支銀行賬戶”的創業項目,成爲了中國最快晉升爲獨角獸的AI公司。在公司正式運營的5個月後,零一萬物從阿裏雲處再獲融資,估值超10億美元。晉升爲獨角獸之際,零一萬物在11月6日發布了全新成果——兩個開源大模型,Yi-34B和Yi-6B。

兩個新模型很快成爲焦點。但即便是科技從業者也沒料到,無數次表示擁抱技術理想的“教父”這次在大模型項目上折了腰。很快,Yi系列模型,被一位開源社區網友指出,模型架構與紮克伯格的Meta發布的開源大模型LLaMA完全相同,只是“其中將兩個張量重命名”。

這讓公司陷入了“套殼”爭議。



2023年12月11日,零一萬物在文章中表示,Yi-34B-Chat 微調模型在全球多個英文、中文大模型權威榜單名列前茅。圖爲AlpacaEval Leaderboard排行榜中排名(發布于2023年12月7日)/零一萬物

零一萬物在11月15日表示,他們的確使用了開源的LLaMA架構,但架構只是大模型研發的一方面。自己還做出了一系列的研發努力,比如最優數據配比方案、數據工程、細節參數等等。

“這些科學訓模的系統性工作,往往比起基本模型結構能起到巨大的作用和價值。”零一萬物表示。

上述手段雖然被開源社區允許,毫無疑問,卻違背了開源社區的精神。“站在巨人肩膀”上,借鑒、使用前人開放成果的時候,至少需主動標注來源和事先說明。一個多項成果斬獲第一的大模型,卻在事後告訴他人自己底下的巨人是誰,這讓其陷入外界的持續爭議。

02. 做題家,瘋狂刷榜

當一個政策變成目標,它將不再是一個好的政策——古德哈特定律。

零一萬物之所以站在聚光燈之下,除了創始人李開複的“光環”,還有一個原因,Yi模型在多個榜單中均分排名第一,十分搶眼。

Yi模型發布時著重強調:根據 HuggingFace 英文開源社區平台,Yi-34B預訓練模型取得了國際最佳性能指標,成爲全球開源大模型“雙料冠軍”。

“這也是迄今爲止唯一成功登頂 HuggingFace 全球開源模型排行榜的國産模型。”

熟悉的話語出現在了許多國內大模型公司,以及前述巨頭——谷歌的身上。

12月發布新成果時,谷歌在新聞稿裏驕傲地介紹,在32個衡量大模型的權威測試中,Gemini在30個中都超過了GPT-4。

更驚喜的是,在考驗57個學科的MMLU測試中,Gemini得了90分,“這是第一個超過人類專家的大模型”。



Gemini與其他大模型在文本基准測試中的對比表現

附上這些排名,讓一個大模型看上去堅不可摧:這些AI的測試都由國際權威AI機構或者學術組織主導,題目包含從人文社科再到數學、理工等多個大類的綜合知識。比如,谷歌引以爲傲的MMLU,是一個由伯克利大學主導的評測,囊括閱讀理解、大學數學以及物理和社會科學等57項測驗。

*但如果說,這些題目,是可以事先得知的呢?

9月,中國人民大學與伊利諾伊大學香槟分校聯合推出了一個研究,指出大模型排名不一定可靠。他們還起了一個很紮眼的標題,“不要讓你的大模型只會欺騙評測榜單”。

*論文指出,當前火熱的大模型領域讓人們只關心測試的排名,但其公平性和可靠性存疑。

主要的問題是數據汙染和泄露,例如,GPT-3 的預訓練語料庫中包含了 Children's Book Test 數據集,LLaMA-2 也提取了 BoolQ 數據集網頁內容。而這些數據集也是許多測試的內容。

研究人員接著發現,數據的重合和泄漏會導致大模型跑出誇張的成績,一些小模型甚至因此可以超越其10倍體量的模型。



Gemini/androidayuda

據科技媒體《品玩》報道,北京智源研究院副院長林詠華曾透露,當下世界大模型評測C-Eval、MMLU以及CMMLU等幾個測評集,已經被各路模型過度訓練。一些測評榜單完全可以靠定向的訓練數據拔高分數。

而不少知名評測集,秉著公平透明的原則,數據集是對外公開的。這就好比高考變開卷了,還給了大模型提前“複習”的時間。

依靠刷題來奪得的排名,正如零一萬物“借鑒”開源架構般,沒有觸犯任何規則。但結果便是,一些在某個榜單上名列前茅、達到“超越GPT”的水平的大模型,在一些其他榜單上卻遠遠落後。

經常參與數據集評測的複旦大學計算機系教授張奇表示,之所以出現一個模型在不同評測的結果差很多,是因爲“評測從單點維度進行”。不同的學術評測集都有自己的側重點。

比如Meta最常選用的GSM8K和MMLU,兩者的評測內容完全不同,前者考小學水平的數學,後者是多學科的高級競賽。

也就是說,所謂某某榜單的大模型冠軍,經常可能是“跛腳”的偏科選手。


《終結者》劇照

更重要的是,“刷題”冠軍一定程度上,與人們歡呼、期盼的大模型有所違背。當ChatGPT去年底發布時,人們驚訝的是AI大模型湧現的智能,一種閱覽無數知識和資料後”上知天文下知地理”的泛化性。

這種泛化性讓業界興奮不已——這意味著如果一個通用大模型可以完成各種開放式任務,經濟效應便有機會最大化。

可如今,AI公司爲之努力的方向似乎不是讓AI湧現智能與技術創新,而是在各大榜單上更直觀的排名與“超越”。

03. 創新之難

眼下各家大模型的“小花招”與花樣,反映了後來者之困。在訓練大模型上慢了一拍的創業者或大廠,如何讓公衆的注意力從OpenAI中分散出一點點,本來就很難。

百度創始人李彥宏在今年3月發布文心一言時也曾坦誠表示,文心一言在內測階段還不完美,但他依然要在這個節點發布。因爲 “市場需求”——客戶、合作夥伴,都在翹首以盼,等著用。

至少,爲了上AI的牌桌,爲了回饋融資者的關注,先在窗口期交付産品自證價值,或者通過刷榜表明實力,這是當下許多AI公司無奈又現實的做法。



文心一言首頁

只是,正如人生“越想要東西越得不到”一樣,越是焦慮、著急上牌桌打出一手好牌,也許離期待的效果就越遠。

谷歌在發布新成果上已經非常謹慎,但在12月Gemini的發布時,依然露了餡。正如MIT評論所說,Gemini的發布也許便是一個迹象,表明我們已經達到炒作人工智能的頂峰。

華盛頓大學研究在線搜索的教授奇拉格·沙阿將Gemini的發布比作蘋果公司每年推出新款 iPhone。“我們大衆對AI期待度已經上升到一定的阈值,許多(小功能)小進步不會給我們留下那麽深刻的印象,因爲已經見過太多了。”

沙阿說,最終,對AI模型漸進式的改進可能不會讓普通用戶留下印象。就像品牌手機一樣,“決定使用大模型時,普通用戶更多考慮的是便利性、品牌認知度,而不是人們真正認爲,哦,這個功能更好。”

與OpenAI的競爭迫在眉睫。當下,無論是專業人士還是AI業界都意識到,一味強調模型性能超越GPT,已經無法再讓人歡呼雀躍。

市場迫切需要的,是風吹了一年的AI大模型,最終能真正改變人們生活,或者帶來生産率的提高。


《智能逆襲》劇照

Deepmind(現被谷歌收購)聯合創始人穆斯塔法·蘇萊曼近日提出,比起過去的AI測試,我們當下需要一個現代的圖靈測試來衡量AI的能力。

“我們不想知道機器本身是否智能,我們想知道它是否能夠對世界産生有意義的影響,”蘇萊曼說,“我們想知道它能做什麽。”

*與現實産生真正的互通,才是現有大模型真正的“試金石”。

如蘇萊曼建議的,“人工智能需要研究和設計産品、談判合同、開展營銷活動等等。簡而言之,它需要在最少的監督下,將一系列複雜的現實世界目標聯系在一起。”

這就像一個港口,是後來者拼盡全力可以停靠、超越的方向。

說到底,2023年的有史以來最卷的AI大模型創業,是一陣帶來無數增長機會的春風,還是轉瞬既逝的泡沫,答案還在風中飄。.....

最終,時間會告訴人們答案。

文中配圖部分來源于網絡,關注它,能讓你聽到更多真話,多一分對世界的理解。

---[作者 : 南風窗*記者 : 朱秋雨*編輯 : 向由*排版 : 菲菲/VISTA看天下]