小札自曝願開源100億美元模型!2025年AGI沒戲,能源短缺成最大瓶頸
【新智元導讀】在最新的播客訪談中,小紮又做了一把「開源英雄」,大方表示:花費100億美元研發的模型,如果對人類安全且有益的話,他會選擇開源。此外,他還表示是個悲觀主義者,因為能源瓶頸,我們離AGI還有幾十年的距離。
如果你手頭有一個價值100億美元的AI模型,通過了安全測試且讓所有人受益,你願意將它開源嗎?
這個問題會讓許多人陷入良久的思考,但小紮沒有猶豫,他的回答是——我願意!
這個驚人的言論,出自最近小紮在Dwarkesh Patel播客中的談話。
此外,這期乾貨滿滿的談話中,他還曝出了不少內幕消息,比如Meta為何會未蔔先知,在2022年就大量買進H100;為何自己會篤信元宇宙等等。
而且,跟Sam Altman、馬斯克等高歌猛進的樂觀主義者不同,小紮對於AGI的短期實現是持悲觀態度的。
在他看來,人類根本不可能在2025年之前實現AGI,因為最大的瓶頸就是能源限製。要解決能源問題,我們還需要幾十年時間。
開源價值100億美元的AI模型,我願意
當主持人Patel問道:如果Meta砸了100億美元開發出一個模型,它完全安全,甚至評估值還可以對模型微調,你會開源嗎?
小紮札堅定不移地表示:會。
主持人魯豫臉表示不信:「花了100億美元研發費用的模型,真的說開源就開源?」
小札表示,Meta會對此進行評估的,畢竟公司一向以開源英雄著稱,在開源方面有悠久的歷史,擁有PyTorch、React和開放計算等項目。
在開放計算項目中,Meta將所有服務器、網絡交換機和數據中心的設計都開源了。這樣,整個行業都以他們的設計為標準,直接讓供應鏈圍繞這種設計建立起來。
這就大大降低了價格,直接為相關人員節省了數十億美元。
而且,開源就能集思廣益,如果有人能找到更便宜的運行方法,提升10%的效率,那就能直接節省數十億甚至數百億美元,這本身就是很值錢的,因此開源好處多多。
不過,他也承認:如果模型成為產品時,情況就變得復雜了。此時,就需要仔細權衡開源在經濟上的利弊,不過,目前Meta並不處於這種情況。
這是顯而易見的,因為Meta絕對不會把Instagram的代碼開源。
* 蘋果和谷歌是糟糕的守門人
同時,小紮也痛批了競爭對手一把。
他表示,移動生態最糟糕的一點就是,我們可以開發什麽,是由蘋果和谷歌這兩個守門人把門的。
因為每當Meta構建出一些產品,這倆就會分走一大筆錢。
更讓小紮不滿的是,很多次Meta想要推出新產品或新功能,蘋果都會說不行。
小紮直呼:如果世界裏只有這幾家運行封閉模型的公司,它們將直接控製API!
就是為了打破這種局面,Meta深信自己去構建一個模型是值得的。
對此,Ate-a-Pi開玩笑道:因為紮克伯格是個好人!
當然,他確實是個好人。但更重要的是這背後商業上的考量:
1. 允許在Meta之外進行社交產品的調試:
- 社交產品總會有bug! - Meta以及所有社交平臺的產品,都需要對互動的內容進行控製(例如對孩子說有害的話) - 將技術推向市場,可以讓Meta在小規模環境中觀察到這些bug
2. Meta面臨的最大威脅是character.ai:
- AI朋友將更多、更友好、更易於獲取,超越你的現實朋友(目前被FB、Ins和WhatsApp等「控製」) - 但Meta目前還不能直接下場,因為這會讓人感到不安,尤其是在技術還未完善時,會產生一種怪異的不自然感 - Meta曾嘗試過Tom Brady和Snoop Dogg風格的AI朋友,但為了安全,有趣的互動受到了很高的限製 - 如果AI朋友的表現足夠好,小紮或許不得不「解散」他建立的社交網絡
3. 摧毀競爭對手:
- 技術或產品的早期領先可以幫助一家初創公司克服分銷上的不利 - Meta擁有終極的分銷優勢 ,而小紮不希望其他人分一杯羹 - 通過開源,他可以有效限製character.ai、OpenAI等公司收入的增長 - 這些公司必須在資本的限製下加速創新,而他並不會受到資本的限製 - 最終,防止大型競爭對手的出現
4. 分布式研發:
- 他希望其他人能夠開發出有趣的社交創意,並進行復製(此前就曾將Snap的創新融入Instagram) - 現在更甚,因為你必須給微調的Llama 3打上標註
不得不說,小紮的這波操作可謂是體現了他對社交無人能及的理解,仿佛就像來自另一個星球一樣。
除此之外,在2023年第四季度財報中,小紮也曾詳細說明過了以上內容。
簡而言之,開源可以改進我們的模型。 首先,將模型轉化為產品還需要大量工作,而且無論如何市場上都會有其他開源模型。 因此,我們認為成為開源的領導者不僅不會顯著削弱我們產品的差異化,而且還會帶來優勢。
我之前以為,面向社交、商業或媒體領域的這些工具,只需解決AI挑戰的一個子集就能交付。但現在看來,為了提供我們設想的最佳服務,模型必須具備推理、規劃、編碼、記憶等多種認知能力。 FAIR從事通用智能研究已有十多年,現在通用智能也將成為我們產品工作的重點。
寒冬已來,25年前不可能實現AGI
關於AGI的短期實現,小紮是持悲觀態度的。
在他看來,2025年之前是不可能實現AGI的,最大的瓶頸,就是能源限製。
能源將限製AI的發展,而如果要解決這些問題,可能需要幾十年時間。
雖然坐擁至少數萬塊英偉達GPU,但小紮卻覺得,單純把計算集群造大,早晚會遇到邊際效應的那一點,感覺有點在內涵Sam Altman。
在采訪中,他表示如今世界上最棘手的事情就是:雖然Llama-3的8B比Llama-2的70B更好,但指數曲線還能持續多久?
盡管如此,他也認為投資100億美元,甚至1000億美元,來建設基礎設施是值得的,或許會讓我們得到一些驚人的東西。
是的,如今GPU的供應限製,已經讓很多公司投入大量資金來構建基礎設施。
在到達某一點的時候,投入更多資本的性價比就變低了。
而且在到達這一點之前,我們就會遇到能源的限製。因為目前還沒人建立過一千兆瓦的單一訓練集群。
在過去十年中,每單位能量的原始計算量每兩年翻一番,老黃也意識到了這一點
主持人提問道:如果你有1萬億美元呢?
小紮表示,這還是取決於指數曲線會走多遠。
現在的數據中心,規模大概是50兆瓦或100兆瓦,特別大型的能達到150兆瓦。
但300兆瓦、500兆瓦甚至1吉瓦的數據中心,需要花費數年時間才建成,如果是1吉瓦,就需要一個核電廠的能源。
此外,也存在架構瓶頸。
小紮認為,如果持續給Llama-3 70B提供更多數據,或者通過token進行優化,它會持續改進。
不過,我們在此基礎上構建的東西,不可能無限進步。
也就是說,小紮基本陷入了漸進主義的陷阱,他不相信GPT-4的性能可以提升100倍,或AGI在短期內能實現。
如果GPT-5的性能是GPT-4的10到100倍,那當前的MMLU之類的基準測試,根本就不起作用。
那該如何衡量,模型創造的價值是否超過了部署成本呢?
總之,放出這種言論的小紮,現在並沒有在籌集資金。而Sam Altman、馬斯克、Dario Amodei等瘋狂籌資的大佬,都預計AI模型能力將大幅提高。
這其中有多少是真實水分,有多少是炒作需要,我們就不得而知了。
只能說,相比之下小紮目前看起來更像個老實人。
22年買入大量GPU,是未蔔先知?
在2022年公司股價遭遇重創之際,小紮還是鋌而走險,購買了大批H100。
當年第三季度財報顯示,Meta資本支出高達320億-330億美元。
其中一部分大多流向數據中心、服務器和網絡基礎設施構建,以及在元宇宙上的巨額投入。
而現在看來,他好像擁有一種未蔔先知的能力。
在采訪中,小紮解釋道,「當時Meta正大力發展短視頻工具Reels,因此需要更多的GPU來訓模型」。
「這也是我們提供服務的一次重大轉變,我們不再針對你所關註的人或頁面的內容進行排名,而是開始大力推薦『非關聯內容』的內容」。
也就是說,向用戶展示候選內容的語料庫,有時會從幾千個擴大到數億個。
若想在這一數量級數據中完成訓練推理,就需要一個完全不同的基礎設施。
「因此,我們要訂購足夠多的GPU,以滿足我們在Reels、內容排序和信息流等方面的需求。還要額外多購買一倍」。
另外,小紮曾在年初宣布,計劃到年底要部署35萬塊英偉達H100。
他透露了更多的細節,這將是一個非常大的艦隊。Meta內部將為訓練LLM打造兩個單集群,一個配備22,000塊H100,另一個集群配備24,000塊。
因為模型推理對Meta來說,是至關重要的一件大事,需要為Facebook、Ins等自家應用的用戶提供服務。
用小紮的原話來說,就是:
我們所需的推理計算與訓練的比率,可能遠高於其他從事這一領域的公司,這是因為我們所服務的社區用戶量非常龐大。
GPT-4級開源模型,今年晚些發布
小紮還提到,對於Llama 3,主要專註於使用大量代碼進行訓練。在代碼中訓練模型,有助於其在不同的領域中進行推理。
與此同時,Llama 3是專為工具使用而設計。
「我們的開發者不需要手寫所有代碼,就可以讓模型使用谷歌並進行搜索」。
他還提到了,下一代模型Llama 4將針對智能體行為而打造。
其實,整個AI圈更加期待的是,媲美GPT-4級別的開源模型Llama 3-405B能夠發布。
小紮稱,4050億參數的Llama 3將具備更強的多模態能力,支持多種語言,以及更大的上下文窗口,並計劃在今年晚些時候推出。
就目前訓練結果而言,405B已經在大規模多任務語言理解的基準測試(MMLU)中,取得了大約85分的成績。
其實Llama3發布三天後,已經有1000個微調模型在Hugging Face上發布。
1000個微調Llama 3模型,中文占8個
HF的創始人Clement Delangue非常期待,下周結束前,或許會有1萬個開源Llama3變體上線。
其中,網友@meng__shao總結了,截止目前中文的微調模型已達到6個。
目前,最小版本的額Llama-3 8B已經在改變世界,不僅能在消費級設備上運行,還開辟了大量領域的應用。
那麽,未來的Llama模型,或許是能夠解決用戶所有用例的Llama 10發布那天,是否足以取代現實中的程序員?
小紮表示,「我不確定我們是否正在取代人類程序猿,因為Meta正在給人們提供工具來做更多的事情」。
而且衡量人類智力不僅只有單一的閾值,因為每個人都有不同的技能。我認為,在某種程度上,人工智能可能會在大多數方面超過人類,這取決於模型的強大程度。但這個過程,是循序漸進的。
對元宇宙的信仰從何而來
雖然燒了300億美元不止,但小紮對元宇宙似乎依然沒有放棄。
主持人提出了一個尖銳的問題:就是市場對你大加指責,你也要堅定去做元宇宙。這種篤定,究竟來源於什麽?是什麽樣的價值觀或直覺,讓你如此篤信元宇宙?
小紮表示,自己只是單純喜歡建造東西。
他喜歡圍繞人們的交流、表達和工作來構建產品,這跟他大學時的專業有關。他學的是計算機科學和心理學,而建造元宇宙,就是兩門專業的交叉點。
這是一種深刻的內驅力,讓他覺得自己如果不做點新東西,就像犯了錯一樣。
而且,無論身處何處,元宇宙都能讓你感受到與人的聯結,在小紮看來,這是一個殺手鐧。
技術的一個教訓是,要盡可能將物理約束領域的東西轉移到軟件中,因為軟件更容易構建和叠代。
不是每個人都有數據中心,但很多人都可以寫代碼,並且使用和修改源代碼。
而元宇宙版本的軟件,就是實現現實的數字存在。在社交、溝通、醫療行業等,元宇宙都會作用巨大。
而且,在為AI投資1000億美元,或者為元宇宙投入巨額資金時,商業計劃就能表明:如果產品奏效,這是很好的投資。
即使在生活中,小紮也是這樣的。在考愛島,他建了一個牧場,負責設計所有建築。
「如果要養出世界上最好的牛,該怎麽設計呢?這就是我。」
參考資料:https://twitter.com/8teAPi/status/1781480713394737238
https://the-decoder.com/why-meta-ceo-mark-zuckerberg-is-willing-to-give-away-a-10-billion-ai-model/
---[責任編輯:郜雪丹/新智元報導*編輯:編輯部/來源: 新智元]