01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

Llama 3 發布,亮點在於 「小」 模型

2024042016:33



重新尋找 Scaling Laws。

像一個人的學習成長一樣,每個全新的大模型,都需要從大量的文本中學習 「知識」,才有能力去解決一個個問題。

Google 訓練 70 億參數的 Gemma 開源模型,讓它 「看過」 6 萬億 Token(6 萬億個詞)的文本。微軟投資的 Mistral 訓練 73 億參數模型,「看過」 8 萬億個 Token 的文本。

用如此大規模的數據訓練參數不到 100 億的模型,已經是行業中比較重的方法。按照 DeepMind 研究人員提出的策略,如果考慮性價比,這麽大的模型,看 2000 億 Token 的文本就夠了。不少中國一線創業公司的同等規模大模型只用了 1 萬億~2 萬億個 Token 的文本。

Meta 的 CEO 馬克·紮克伯格(Mark Zuckerberg)不滿足於此,他直接把下一代開源大模型送進了 「縣中」,用更多習題拔高能力。Meta 昨夜推出的 Llama 3 系列大模型,80 億參數模型用了 15 萬億 Token 的訓練數據,比 Google 的多學了一倍還不止,是很多小公司產品的十倍。

根據 Meta 公布的數據,在 5 個常用大模型能力評估測試集上,它新發布的 80 億參數模型和 700 億參數模型,得分基本都比同級競爭對手高。尤其是 80 億參數的 Llama 3,各項評測得分大幅超過 Google 和 Mistral 開發的同級別模型,數學、編程能力翻倍。Meta 稱它們是目前 「功能最強大的、公開可用的大模型」。



    Llama 3 在部分測試數據集上得分超過競爭對手。圖片來自 Meta。

Meta 透露,他們還在訓練 4050 億參數的大模型,初步評測得分達到 GPT-4 水平。這則消息幫 Llama 3 獲得大量關註。英偉達高級研究經理 Jim Fan 說,Meta 讓開源社區得到 GPT-4 級別的大模型會是一個行業分水嶺,將改變許多研究工作和創業公司的經營狀況。

OpenAI 原資深研究科學家安德烈·卡帕蒂(Andrej Karpathy)認為,80 億參數的 Llama 3 「會非常受歡迎」,效果接近參數更多的 GPT-3.5,而且需要的算力低、反應快,甚至可以在手機、電腦上本地運行,「希望大家繼承這個趨勢,訓練和發布用更長時間訓練更小的模型。」

打破 Scaling Laws:用超出行業預期的數據和算力訓練模型

2020 年初,OpenAI 提出大模型的 Scaling Laws,認為在 Transformer 架構中,要提升大模型的效果,需要按照特定比例提高訓練大模型的數據量、模型本身的參數以及算力。

這個規律在 OpenAI 隨後發布的 GPT-3 中得到驗證,他們調整這幾個元素的配比,以更低的成本訓練出更強的模型。

OpenAI 的接連成功,讓 Scaling Laws 成為許多研究者訓練大模型的關鍵指引。按照他們發現的規律,其他訓練條件不變,大模型參數每提升 5.3 倍,訓練數據量需要提升約 1.9 倍、算力提升 10 倍,是最有性價比的方案。

2022 年,DeepMind 的研究者發布論文,認為這個比例不對,低估了訓練數據量的要求。他們認為,算力提高 10 倍,模型參數和訓練數據量各提升約 3 倍才更有性價比。DeepMind 的新比例取得更好的效果,成為從業者訓練大模型的重要參考。

現在,Meta 又進一步提高訓練數據的重要性。根據 Meta 公布的信息,他們訓練 80 億參數的 Llama 3 時,把訓練數據提到 15 萬億 Token,是 DeepMind 方案估算的 75 倍,發現模型能力達到 700 億參數 Llama 2 的水平,大幅超過競爭對手。

Meta 為此付出更多算力——用 H100 訓練了 130 萬個小時,算力成本預計超過 100 萬美元。如果用 5000 張 H100 組成的集群計算,需要不間斷訓練大概 11 天。而在 Meta 只需要 2 天多,因為它有 2.4 萬張 H100 組成的算力集群。而且有兩個。

一場小模型競賽正在進行

根據 Meta 的說法,當前版本的 Llama 3 還沒有達到性能極限。「我們一直使用的大語言模型,明顯缺乏訓練。(訓練數據量)可能需要提高 100~1000 倍,甚至更多。」 安德烈·卡帕蒂說。

OpenAI 用 GPT-3.5 和 GPT-4 證明大模型的實力後,許多公司加速追趕的同時,也在研究如何用更低的成本利用大模型。

與傳統的軟件應用不同,大模型不僅開發起來費錢,運行起來(推理)也會消耗大量算力資源。大模型想要處理用戶輸入問題,基本要挨個處理文字中的每個字,處理 100 個字的問題,基本就要運行 100 遍大模型。

英偉達把它當作 GPU 銷量增長的空間,但對於想用大模型改造業務、創造新商業機會的公司,卻是負擔。發布 Llama 3 時,Meta 宣布把它整合到旗下每天有數十億人使用的 Instagram、Facebook 等產品中,如果用參數較大的模型,推理成本根本無法承受。

想要降低成本,最直接的方法是訓練參數更小的模型,讓用戶的手機、電腦直接在本地運行,分擔平臺的壓力。

怎麽讓更小的模型有更好的效果,成了大模型公司們的競爭點。過去一年,Google 每次發布大模型,都會推出參數較小的模型。Anthropic 發布 Claude 3 系列時也采用類似的做法。不過它們沒有詳細公布小模型的參數,以及如何讓小模型有更好的能力。

根據 The Information 報道,微軟選擇利用 GPT-4 生成高質量數據,訓練更小的模型,以降低部署大模型應用的成本。

Meta 訓練 Llama 3 的方法截然不同,但最適合它。為了應對 TikTok 的競爭,Meta 在 2022 年采購了大量 H100,用於訓練更強的內容推薦模型,為它奠定算力優勢。

為了訓練 Llama 3,Meta 動用了兩個 2.4 萬張 H100 組成的訓練集群,今年計劃把 H100 數量推到 35 萬張——每張 30000 美元。大部分互聯網巨頭也只有數萬張 H100,而且不少還會對外出租。

Meta 接下來大概率會沿著相同的方向,繼續做更小的模型。「80 億參數的模型,對於很多場景來說還不夠小。」 紮克伯格接受采訪說,「我很想看到一個 10 億參數,甚至 5 億參數的模型,看我們能用它做些什麽。」---[題圖來源:視覺中國/文: 賀乾明*編輯 : 黃俊傑/來源: 晚點LatePost]