全球首個「開源GPT-4」出世！Llama 3震撼發布，Meta AI免登錄可用

2024041916:09

【新智元導讀】蟄伏許久，Meta剛剛扔出了重磅炸彈：大家期待已久的Llama 3，用了24000塊GPU訓練，一亮相便登上開源大模型鐵王座。8B和70B取得同規模參數下開源領域的SOTA，推理編碼大幅提升，代碼和權重全開源！而且，400B的Llama 3，也在路上了。

LLM界的「真·Open AI」，又來整頓AI圈了！

業內驚呼：首個開源GPT-4級的模型，終於來了！開源模型追上閉源模型的歷史性一刻，或許就在眼前了？

一石激起千層浪，Llama 3才剛剛發布沒幾小時，就破紀錄地登頂了Hugging Face排行榜。

這次，Meta共開源了Llama 3 8B和Llama 3 70B兩款模型，分別有預訓練和指令微調兩個版本。

小紮、LeCun也紛紛在第一時間開啟了宣傳模式：

Llama 3是在由24000塊GPU組成的定製集群上，使用15萬億個token訓練的。

甚至就連最小8B版本，有時都能打敗大出一個數量級的Llama 2 70B！

值得期待的是，在未來幾個月，Llama 3還將推出更多版本

不過，雖然上下文長度相較之前實現了翻倍，但依然只有8K。

順帶提一句，Llama 3已經可以在網頁版Meta AI用上了，還是免登錄那種。

對此，Hugging Face聯創兼CEO表示：「Llama 1和Llama 2現在已經衍生出了30,000個新模型。我迫不及待地想看到Llama 3將會給AI生態帶來怎樣的沖擊了。」

400B性能野獸，刷新開源SOTA

然而，8B和70B版本的Llama 3，還只是開胃菜，更大的還在後面呢！

真正的性能野獸——Llama 3 400B不久便要解禁，目前還在訓練中。

其中，預訓練版本在推理挑戰測試集ARC-Challenge上，拿下了96的高分。

而指令微調版的Llama 3 400B更是在數學（GSM-8K）、代碼（Human-Eval）、大規模多任務語言理解基準（MMLU）上，表現非常亮眼。

這些數據是什麽概念？

英偉達高級科學家Jim Fan做了一個對比圖，與Claude 3 Opus、GPT-4-2024-04-09和Gemini在同基準數據中的結果：

看得出，Llama 3 400B已經在多語言推理任務、代碼能力，可與GPT-4、Claude 3相匹敵。

更亮眼的是，它在所有能力上，均打敗了Gemini Ultra 1.0。

還有一個更詳細的數據對比圖，自己體會。

一時間，全網陷入了瘋狂。

網友：首個「開源GPT-4」來了

Karpathy精辟地總結道，400B模型將會是「首個開源GPT-4級別的模型」。

Jim Fan感慨道：

即將推出的Llama 3 400B將成為一個分水嶺，即社區將獲得開源重量級的GPT-4模型。它將改變許多研究工作和草根創業公司的計算方式。 Llama 3 400B還在訓練中，希望在接下來的幾個月裏會有更好的表現。有了如此強大的後盾，我們可以釋放出更多的研究潛能。期待整個生態系統的建設能量激增！

OpenAI研究科學家Will Depue也表達的同樣的看法，非常期待一款開源GPT-4級別的模型——Llama 3 400B，未來的可能性無窮無盡！

昨天剛剛發布的Mixtral 8×22B刷新SOTA之後，沒想到，卻被Llama 3 70B碾壓了。

開源模型的SOTA，當屬於Llama 3 400B。

吳恩達的生日，卻收到一份別致的「禮物」。

Meta在博客中預告了，接下來幾個月，將發布多個新功能的模型，包括多語言對話、更長上下文，以及整體能力提升。

一旦Llama 3完成訓練，技術報告將直接發布。

Meta重回開源模型「鐵王座」

在性能上，8B和70B顯著優於Llama 2，取得了SOTA。

預訓練模型和指令微調模型在8B和70B的參數規模上取得了如此先進的性能，都是得益於預訓練和訓練後的優化改進。

而Meta的研究團隊，還對訓練後優化過程進行了改進，這就大大降低了錯誤拒絕執行任務的比率，提高了模型輸出與人類意圖的一致性，還讓模型響應的多樣性也增加了。

同時，模型的邏輯推理、代碼生成和指令遵循等能力也都大幅提升，讓Llama 3成為了一個可控性更強的模型。

與近乎同等規模預訓練的開源模型相比，Llama 3 8B完全打敗了Mistral，以及Gemma。不過推理能力，比Gemma-7B弱一些。

與閉源Gemini Pro 1.0，以及開源Mixtral 8×22B相比，Llama 3-70B在多項基準測試中拔得頭籌。

再來看看，Llama 3兩個參數版本與Llama 2-7B、13B、70B的預訓練模型對比。

毋庸置疑，Llama 3 8B肯定是要超越Llama 2 7B，甚至碾壓了Llama 2 13B。

Llama 3 70B要比Llama 2 70B，尤其在推理（MMLU、ARC-Challenge）、AGIEval基準上上，實現了巨大提升。

指令微調版本比較，Llama 3 8B同樣超越了開源的Gemma 7B，以及Mistral 7B Instuct。

70B版本的Llama 3在推理（MMLU）、數學（GSM-8K）、甚至代碼（HumanEval）基準上，比Gemini Pro 1.5和Claude 3 Sonnet更加亮眼。

再來看看與自家Llama 2指令微調不同參數版本的性能對比。

Llama 3 8B與70B都要比相對同等參數的Llama 2，得到了很大的提升。

而在Llama 3的開發過程中，Meta不僅關註基準測試，還致力於優化模型在真實場景中的表現。

為此，Meta開發了一個高質量人工評估數據集，包含1,800個提示，這些提示了涵蓋了12個關鍵的應用場景，包括詢問建議、頭腦風暴、分類、選擇題、編碼、創意寫作、信息提取、角色扮演、開放性問答、邏輯推理、改寫和總結。

為了防止Llama 3在評估數據集上過擬合，建模團隊自己也無法訪問它。

人工評估結果顯示，Llama 3 70B的表現遠勝於Llama 2、GPT-3.5、Mistral Medium和Claude Sonnet。

大模型發展到如今，再要往哪裏創新？

在整個項目中，Meta重點關註了四個關鍵要素：模型架構、訓練數據、擴大訓練規模以及指令微調。

128K token分詞器+GQA

在架構上，Meta依然為Llama 3選擇了Transformer架構。

這個架構是相對標準的純解碼器Transformer，不過相比於Llama 2做了幾個關鍵改進。

比如，Llama 3使用了一個具有128K個token的分詞器，可以更有效地編碼語言，這就顯著提高了模型性能。

而為了提高Llama 3模型的推理速度，Meta在8B和70B兩種規模上都采用了分組查詢註意力（Grouped Query Attention，GQA）機製。

此外，Meta還在8,192個token的序列上訓練模型，並通過掩碼確保自註意力機製不會跨越文檔邊界。

15萬億token訓練，7倍於Llama 2

同時，大型高質量的訓練數據集也至關重要。

為了預訓練數據，團隊投入了大量資源。

最終，Llama 3在超過15萬億個token上進行了預訓練，而這些token都是從公開可用的來源收集的。

它的訓練數據集比Llama 2的大7倍，並且包含4倍多的代碼。

為了應對多語言場景，Llama 3的預訓練數據集中有超過5%是高質量的非英語數據，涵蓋了30多種語言。

同時，為了讓訓練數據具有足夠高的質量，Meta開發了一系列數據過濾管道。

這些管道包括使用了啟發式過濾器、NSFW過濾器、語義去重方法和文本分類器，用來預測數據質量。

在這個過程中一個有意思的點就是——

前幾代的Llama 在識別高質量數據方面居然出奇得好，因此，Meta使用Llama 2來生成了用於訓練Llama 3的文本質量分類器的訓練數據。

此外，為了評估在最終的預訓練數據集中混合來自不同來源的數據的最佳方式，Meta還進行了大量實驗。

最終，Meta就能夠選擇一個數據組合，讓Llama 3在STEM、編碼、歷史知識等各種使用場景中，都能表現良好。

Scaling Law依舊是王道

為了有效利用預訓練數據，團隊在擴大預訓練規模上，投入了大量精力。

針對下遊基準評估，Meta開發了一系列詳細的縮放定律。這就保證團隊能夠選擇最佳的數據組合，同時最佳地利用訓練計算資源。

而縮放定律可以幫助團隊在實際訓練模型之前，預測最大模型在關鍵任務上的性能，這是至關重要的，因為這就能確保，模型在各種使用場景和能力方面，都有出色的表現。

在這個過程中，團隊對縮放行為觀察到了有了幾個有趣的新現象。

比如，雖然一個8B參數模型的Chinchilla最優訓練計算量，對應於約2000億個token，但Meta發現，即使在模型接受了兩個數量級以上的數據訓練後，模型性能仍在繼續提高！

而8B和70B參數的Llama 3在接受了高達15T個token的訓練後，繼續呈對數線性提高。

更大的模型可以用更少的訓練計算，來匹配這些較小模型的性能，不過，由於小模型在推理過程中的效率更高，因此反而更受青睞。

為了訓練最大的Llama 3模型，團隊結合了三種並行化方式：數據並行、模型並行和流水線並行。

由此，團隊達到了最高效的實現：在同時使用16K個GPU訓練時，每個GPU的計算利用率超過了400 TFLOPS。

團隊在兩個定製的24K GPU集群上進行了訓練。為了最大限度地提高GPU正常運行時間，Meta還開發了一個先進的新訓練技術棧，可以自動進行錯誤檢測、處理和維護。

同時，Meta還大大提高了硬件可靠性和靜默數據損壞的檢測機製，開發了新的可擴展存儲系統，減少了檢查點和回滾的開銷。

而這些改進，讓總體的有效訓練時間超過了95%。

和與Llama 2相比，這些改進直接讓Llama 3的訓練效率提高了大概三倍！

創新指令微調

同時，團隊也對指令微調進行了創新。

Meta采用的後訓練方法，是監督微調（SFT)、拒絕采樣、近端策略優化（PPO）和直接策略優化（DPO）的組合。

Meta發現，在SFT中使用的提示和在PPO與DPO中使用的偏好排序，對對齊模型的性能的影響完全超出了預期。

Llama 3在性能上取得的最大改進，就是歸功於對這些數據的仔細策劃，並且對人類標註者提供的標準進行了多輪質量保證。

而通過PPO和DPO從偏好排序中學習，Llama 3在推理和編碼任務上的性能也大大提高了。

如果問Llama 3一個很難回答的推理問題，它有時竟然能產生正確的推理過程。

這個過程中的難點在於，它知道如何得出正確答案，但不知道該如何選擇。但通過在偏好排序上進行訓練，就能讓模型學會如何選擇正確答案。

更安全

在部署上，團隊采用了一種新的系統級方法。

Meta將Llama模型設想為一個更廣泛系統的一部分，讓開發者坐在駕駛座上。Llama模型將作為系統的基礎部分，開發者在設計時會考慮最終的目標。

在模型安全上，指令微調起了重要作用。

通過內部和外部努力，團隊對指令微調模型進行了安全測試。

紅隊方法會利用人類專家和自動化方法來生成對抗性提示，試圖引發有問題的響應，比如化學、生物、網絡安全、其他風險領域相關的濫用風險。

在這個過程中，團隊讓Llama Guard模型，成為安全的基礎，並且可以根據應用需求進行微調。

新的Llama Guard 2使用MLCommons 分類法。此外，CyberSecEval 2在其前作的基礎上進行了擴展，增加了評估LLM濫用代碼解釋器的傾向、攻擊性網絡安全能力和對提示註入攻擊的敏感性的措施。

最後，引入的Code Shield也增加了對生成的LLM不安全代碼的推理時過濾的支持。這樣就能降低不安全的代碼建議、代碼解釋器的濫用等。

另外，Meta還更新了負責任使用指南（RUG），建議根據適合應用的內容指南，檢查和過濾所有輸入和輸出。

此外，雲服務提供商也會提供內容審核API等工具，鼓勵開發者進行負責任地部署。

網頁版Meta AI免登錄，即可聊

與此同時，今天Meta還放出了網頁版Meta AI，由最新Llama 3加持，號稱是全球頂尖的AI助手之一。

整個頁面UI設計非常簡潔，不僅可以對話，還支持生圖功能。

與ChatGPT-3.5免註冊登錄類似，與Meta AI聊天功能，進入網頁隨時隨地即可開啟，無需登錄。

傳送門：https://www.meta.ai/

不過，作圖的話，是個例外。

其實，Meta AI助手在去年的Connect大會上，小紮首次做了預告。

而現在，全世界更多的人可以通過前所未有的方式與之互動。

不僅僅在網頁上能聊，Meta AI還集成到了自家旗下社交應用中，比如Facebook、Ins、WhatsApp和Messenger。

接下來，一起感受下，Meta AI助手帶來的與眾不同的魅力吧。

想要組織周末短途旅行，卻來不及做出行計劃？不用擔心！

Meta AI首先會根據要求提出三個關於旅行問題，再去量身定製一份旅行清單！

- 目的地：您要去哪裏？

- 持續時間：您將旅行多少天？

- 旅行類型：是海灘度假、城市探險、戶外探險還是其他？

又或是你在數學問題上苦苦掙紮？需要讓工作郵件顯得更專業？Meta AI都可以提供幫助！

甚至，你可以登錄以保存自己與Meta AI的對話，以供將來參考。

讓Llama 3畫一幅自畫像。

Ins、Facebook等APP無縫集成

正如前面所說，Meta AI也可以在Facebook、Ins、WhatsApp和Messenger的搜索中使用。

這樣的優勢在於，可以隨時訪問來自網絡的實時信息，無需在不同應用程序之間切換。

舉個栗子，假設你正在Messenger群聊中計劃一次滑雪之旅。

直接通過Messenger的搜索，可以讓Meta AI查找從紐約到科羅拉多的航班，並找出時間段人最少的周末去旅行——所有這些都無需跳出Messenger即可完成。

當你正在刷Facebook，看到一個感興趣的帖子，附有一張冰島北極光圖。

你可以直接問Meta AI，「一年中什麽時候最適合觀賞極光」？

除了在網頁版，Meta AI的圖像功能還可以在WhatsApp中體驗。

當你在搜索框開始輸入prompt，便會看到一個浮現的圖像，會隨著你輸入的每幾個字而變化。

可以清晰看到，Meta AI如何將你的想象變為現實。

據介紹，Meta AI生成的圖像更加清晰、質量更好，而且在圖像中融入文字的能力也得到了提升。

不論是專輯封面設計、婚禮指示牌、生日裝飾，還是服裝搭配靈感，Meta AI都可以生成相應的圖像，以前所未有的速度和質量將你的想象變為現實。

它甚至會提供有用的提示和建議，提供改進圖像的思路，讓你可以在初始點的基礎上不斷叠代。

這還不是全部......

當你找到一張自己喜歡的圖片，可以讓Meta AI製作動畫，以新的風格對其進行改進，甚至將其轉化為GIF，與朋友分享。

可以看出，有了強大的Llama 3加持，Meta AI的表現比以往更要出色。

不久後，Meta AI即將在Quest頭顯中推出。---[新智元報導*編輯：編輯部/來源:新智元]

參考資料：
https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/
https://ai.meta.com/blog/meta-llama-3/
https://llama.meta.com/llama3/

我要留言

全球首個「開源GPT-4」出世！Llama 3震撼發布，Meta AI免登錄可用

專治大模型說胡話，精確率100%！華科等提出首個「故障token」檢測/分類方法

外媒科學網站摘要：為什麽惡心會讓我們失去食欲

專治大模型說胡話，精確率100%！華科等提出首個「故障token」檢測/分類方法

外媒科學網站摘要：為什麽惡心會讓我們失去食欲