全球最強開源模型一夜易主,1320億參數推理飙升2倍!
【新智元導讀】就在剛剛,全球最強開源大模型王座易主,創業公司Databricks發布的DBRX,超越了Llama 2、Mixtral和Grok-1。MoE又立大功!這個過程只用了2個月,1000萬美元,和3100塊H100。
全球最強開源模型,一夜易主!
剛剛,超級獨角獸Databricks重磅推出1320億參數的開源模型——DBRX。
它采用了細粒度MoE架構,而且每次輸入僅使用360億參數,實現了更快的每秒token吞吐量。
這種獨特的MoE架構,讓DBRX成爲開源模型的SOTA,推理速度比LLaMA 2-70B快了2倍!
最重要的是,訓練成本直接砍半!只用了1000萬美元和3100塊H100,Databricks就在2個月內肝出了DBRX。
比起Meta開發Llama2所用的成本和芯片,這只是很小一部分。
DBRX在語言理解、編程、數學和邏輯方面輕松擊敗了開源模型LLaMA2-70B、Mixtral,以及Grok-1。
甚至,DBRX的整體性能超越GPT-3.5。尤其在編程方面,完全擊敗了GPT-3.5。
並且,DBRX還爲開放社區和企業提供了僅限于封閉模型的API功能。現在,基本模型(DBRX Base)和微調模型(DBRX Instruct)的權重,已經在Hugging Face開放許可了。
從今天開始,Databricks客戶就可以通過API使用DBRX。它在Macbook Pro上都可跑,LLM很快能爲個人設備提供支持了。
Pytorch之父Soumith Chintala對最新開源模型DBRX也是非常看好。
從Mistral、到Grok-1,再到DBRX,MoE架構的模型正在占領開源界。
而Databricks的員工激動地表示,過去3個月,朋友們周末約我都說「不行,這周不行我有事,但是又不能說有啥事」的日子終于結束了,DBRX就是我們加班加點搞出來的一頭「怪獸」。
還有網友表示,「如果實驗室繼續開源大型MoE模型,英偉達可能就需要推出最強Blackwell架構的消費級GPU了」。
全球最強開源模型易主
DBRX是一種基于Transformer純解碼器的大模型,同樣采用下一token預測進行訓練。
它采用的是細粒度專家混合(MoE)架構,也就是具有更多的專家模型。
是的,這次立大功的,依然是MoE。在MoE中,模型的某些部分會根據查詢的內容啓動,這就大大提升了模型的訓練和運行效率。
DBRX大約有1320億個參數,Llama 2有700億個參數,Mixtral 有450億個,Grok有3140億個。
但是,DBRX處理一個典型查詢,平均只需激活約360億個參數。
這就提高了底層硬件的利用率,將將訓練效率提高了30%到50%。不僅響應速度變快,還能減少所需的能源。
而與Mixtral、Grok-1等其他開源MoE模型相比,DBRX使用了更多的小型專家。
具體來說,DBRX有16個不同的專家,在每層爲每個token選擇4個專家。Mixtral和Grok-1有8個專家,一個路由網絡在每層爲每個token選擇2個專家。
顯然,DBRX提供了65倍的專家組合可能性,能夠顯著提升模型質量。
此外,DBRX還使用了旋轉位置編碼(RoPE)、門控線性單元(GLU)和分組查詢注意力(GQA),並使用tiktoken存儲庫中提供的GPT-4分詞器。
DBRX模型在12萬億Token的文本和代碼進行預訓練,支持的最大上下文長度爲32k。
研究人員估計,這些數據比用來預訓練MPT系列模型的數據至少好2倍。
這個新的數據集,使用全套數據庫工具開發,包括用于數據處理的ApacheSpark™和Databricks筆記本,用于數據管理和治理的Unity Catalog,以及用于實驗追蹤的MLFlow。
團隊使用了「課程學習」(curriculum learning)進行預訓練,並在訓練過程中改變數據組合,大大提高了模型質量。
那麽,DBRX究竟表現如何?
擊敗2.4倍參數Grok-1
如下表1,在綜合基准、編程和數學基准以及MMLU上,DBRX Instruct刷新了開源AI的SOTA。
綜合基准
研究人員在兩個綜合基准上對DBRX Instruct和其他開源模型進行了評估,一個是Hugging Face的Open LLM Leaderboard,另一個是Databricks Model Gauntlet。
Databricks Model Gauntlet由30多項任務組成,涵蓋了6個類別:世界知識、常識推理、語言理解、閱讀理解、符號問題解決和編程。
就綜合基准來看,DBRX Instruct超越了所有聊天、指令調優的模型。
編程和數學基准
DBRX Instruct在編程和數學方面尤爲突出。
它在HumanEval以及GSM8k上,得分均高于其他開源模型。
在編程基准上,DBRX Instruct得分爲70.1%,Grok-1爲63.2%,LLaMA2-70B Chat爲32.2%。在數學基准上,DBRX Instruct爲66.9%,Grok-1爲62.9%,LLaMA2-70B Base爲54.1%。
盡管Grok-1的參數是DBRX的2.4倍,但DBRX在編程和數學方面的性能,均超越了排名第二的Grok-1。
在HumanEval上,DBRX Instruct(70.1%)甚至超過了CodeLLaMA-70B Instruct(67.8%),這是一個專門爲編程構建的模型。
在語言理解測試基准MMLU方面,DBRX Instruct得分高于所有模型,爲73.7%。
全面超越GPT-3.5
另外,與閉源模型GPT-3.5相比,DBRX Instruct的性能全面超越了它,還可與Gemini 1.0 Pro和Mistral Medium相較量。
具體來說,DBRX Instruct在MMLU的常識知識(73.7% vs. 70.0%)、常識推理HellaSwg(89.0% vs. 85.5%)和WinoGrand(81.8% vs. 81.6%)方面優于GPT-3.5。
在HumanEval(70.1% vs. 48.1%)和GSM8k(72.8% vs. 57.1%)的測試中,DBRX同樣在編程和數學推理方面尤其出色。
此外,在Inflection Corrected MTBench、MMLU、HellaSwag以及HumanEval基准上,DBRX Instruct的得分高于Gemini 1.0 Pro。
不過,Gemini 1.0 Pro在GSM8k的表現上,明顯更強。
在HellaSwag基准上,DBRX Instruct和Mistral Medium得分相似,而Winogrande和MMLU基准上,Mistral Medium更強。
另外,在HumanEval、GSM8k、以及Inflection Corrected MTBench基准上,DBRX Instruct取得了領先優勢。
在Databricks看來,開源模型擊敗閉源模型非常重要。
在上個季度,團隊成員看到自家12,000多名客戶群重大轉變,即將專有模型替換爲開源模型,以提高效率。
現在,許多客戶可以通過定制開源模型來完成特定任務,從而在質量和速度上超越專有模型。
DBRX的推出,就是爲了加速這個過程。
長上下文任務質量和RAG
DBRX Instruct采用高達32K token上下文進行了訓練。
表3比較了它與Mixtral Instruct,以及最新版本的GPT-3.5 Turbo和GPT-4 Turbo API,在一套長上下文基准測試上的性能。
毫無疑問,GPT-4Turbo是執行這些任務的最佳模型。
但是,除了一個例外,DBRX Instruct在所有上下文長度和序列的所有部分的表現,都優于GPT-3.5 Turbo。
DBRX Instruct和Mixtral Instruct的總體性能相似。
利用模型上下文的最常見的方法之一是,檢索增強生成(RAG)。
在RAG中,從數據庫中檢索與提示相關的內容,並與提示一起呈現,從而爲模型提供更多信息。
表4顯示了DBRX在兩個RAG基准測試——Natural Questions和HotPotQA上的質量。
DBRX Instruct與Mixtral Instruct和LLaMA2-70B Chat等開源模型,以及GPT-3.5 Turbo相比,具有很強的競爭力。
訓練效率是非MoE模型兩倍
模型質量必須放在模型的訓練和使用效率的上下文中,在Databricks尤其如此,
研究人員發現訓練MoE模型在訓練的計算效率方面,提供了實質性的改進(表5)。
比如,訓練DBRX系列中較小的成員DBRX MoE-B(總參數爲23.5B,活躍參數爲6.6B)所需的Flop比LLaMA2-13B少1.7倍,才能在Databricks LLM Gauntlet上達到45.5%的得分。
DBRX MOE-B包含的有效參數也是LLaMA2-13B的一半。
從整體上看,端到端LLM預訓練pipeline,在過去十個月中的計算效率提高了近4倍。
2023年5月5日,Databricks發布了MPT-7B,這是一個在1T token上訓練的7B參數模型,在Databricks LLM Gauntlet上得分爲30.9%。
DBRX系列中名爲DBRX MoE-A的(總參數爲7.7B,活躍參數爲2.2B)得分爲30.5%,而FLOPS減少了3.7倍。
這種效率是一系列改進的結果,包括使用MoE架構、網絡的其他架構更改、更好的優化策略、更好的分詞,以及更好的預訓練數據。
單獨來看,更好的預訓練數據對模型質量有很大的影響。
研究人員使用DBRX預訓練數據在1T token(稱爲DBRX Dense-A)上訓練了7B模型。在Databricks Gauntlet上得分39.0%,而MPT-7B爲30.9%。
研究者估計,全新的預訓練數據至少比用于訓練MPT-7B的數據高出2倍。
換句話說,要達到相同的模型質量,所需的token數要少一半。
進而,研究人員通過在500B token上訓練DBRX Dense-A確定了這一點。
它在Databricks Gauntlet上的表現優于MPT-7B,達到32.1%。
除了更好的數據質量外,token效率提高的另一個重要原因可能是GPT-4分詞器。
推理效率
總體而言,MoE模型的推理速度,它們的總參數所顯示的要快。這是因爲它們對每個輸入使用的參數相對較少。
DBRX推理吞吐量是132B非MoE模型的2-3倍。
推理效率和模型質量通常是相互矛盾的:模型越大通常質量越高,但模型越小推理效率越高。
使用MoE架構可以在模型質量和推理效率之間,實現比密集模型更好的平衡。
通過Mosaic AI Model Serving測量,DBRX生成速度明顯快于LLaMA2-70B
比如,DBRX的質量比LLaMA2-70B更高,而且由于活躍參數量大約是LLaMA2-70B的一半,DBRX推理吞吐量最多可快2倍。
Mixtral是MoE模型改進的「帕累托最優」(pareto frontier)另一個點:它比DBRX小,質量相對較低,但實現了更高的推理吞吐量。
在優化的8位量化模型服務平台上,Databricks Foundation Model API推理吞吐量每秒多達150個token。
企業免費用
企業可以在Databricks平台上訪問DBRX,能在RAG系統中利用長上下文功能,還可以在自己的私有數據上構建定制的DBRX模型。
而開源社區可以通過GitHub存儲庫和Hugging Face訪問DBRX。
項目地址:https://github.com/databricks/dbrx
項目地址:https://huggingface.co/databricks
因爲DATABricks是完全基于數據庫來構建DBRX的,因此每個企業用戶都可以使用相同的工具和技術來創建或改進自己的定制化模型。
用戶可以通過Unity Catalog中集中管理訓練數據,使用ApacheSpark和Lilac AI提供的工具和服務進行處理和清理。
大規模的模型訓練和微調由DataBricks前不久剛剛收購的Mosaic AI提供的服務。
對齊問題,也可以通過的他們的平台和服務解決。
納斯達克,埃森哲等客戶和合作夥伴已經用上了這一套服務和工具。
收購估值13億公司,2個月肝出來
外媒Wired的一篇報道,爲我們詳述了世界最強開源模型的誕生過程。
此前,Databricks在業界已經小有名聲。
在本周一,Databricks的十幾位工程師和高管,在會議室等待著最終的結果——
團隊花費了數月時間,投入了大概1000萬美元訓練的LLM,會取得怎樣的成績?
顯然,能力測試最終結果出來之前,他們並不知道自己創造的模型有這麽強大。
「我們超越了所有模型!」隨著首席神經網絡架構師、DBRX團隊負責人Jonathan Frankle宣布這一結果,成員們爆發出熱烈的歡呼和喝彩聲。
Databrick的決策者:Jonathan Frankle,Naveen Rao, Ali Ghodsi,Hanlin Tang
是的,DBRX就是這樣超越了Llama 2、Mixtral這兩個如今最流行的開源模型。
甚至馬斯克的xAI最近開源的Grok AI,也被DBRX打敗了。
Frankle開玩笑說:如果收到馬斯克發出的一條刻薄的推特,我們就鐵定成功了。
最令團隊感到驚訝的是,DBRX在多項指標上甚至接近了GPT-4這個機器智能的巅峰之作。
毫無疑問,DBRX現在爲開源LLM設立了全新的技術標准。
獨角獸重振開源界
通過開源DBRX,Databricks進一步推動了開源運動,加入了Meta對抗OpenAI和谷歌的開源大潮。
不過,Meta並沒有公布Llama 2模型的一些關鍵細節,而Databricks會將最後階段做出關鍵決策的過程全部公開,要知道,訓練DBRX的過程,耗費了數百萬美元。
艾倫人工智能研究所的CEO AliFarhadi表示,AI模型的構建和訓練,亟需更大的透明度。
Databricks有理由選擇開源。盡管谷歌等巨頭過去一年裏部署了AI,但行業內的許多大公司,還還沒有在自己是數據上廣泛使用大模型。
在Databricks看來,金融、醫藥等行業的公司渴望類似ChatGPT的工具,但又擔心將敏感數據發到雲上。
而Databricks將爲客戶定制DBRX,或者從頭爲他們的業務量身定做。對于大公司來說,構建DBRX這種規模模型的成本非常合理。
「這就是我們的大商機。」
爲此,Databricks去年7月收購了初創公司MosaicML,引入了Frankle在內的多名技術人才。此前,兩家公司內都沒人構建過如此大的模型。
內部運作
Databricks首席執行官Ali Ghodsi
OpenAI等公司,執著地追求更大的模型。但在Frankle看來,LLM重要的不僅僅是規模。
怎樣讓成千上萬台計算機通過交換機和光纜巧妙地連接在一起並且運轉起來,尤其具有挑戰性。
而MosailML公司的員工,都是這門晦澀學問的專家,因此Databrick去年收購它時,對它的估值高達13億美元。
另外,數據對最終結果也有很大影響,或許也是因此,Databricks並沒有公開數據細節,包括數據的質量、清洗、過濾和預處理。
Databricks副總裁、MosaicML創始人兼CEO Naveen Rao表示:「你幾乎可以認爲,這是模型質量的重中之重。」
價值數百萬美元的問題
有時候,訓練一個龐大AI模型的過程不僅考驗技術,還牽涉到情感上的抉擇。
兩周前,Databricks的團隊就遇到了一個涉及數百萬美元的棘手問題:如何充分利用模型的潛能。
在租用的3072個強大英偉達H100 GPU上訓練模型兩個月後,DBRX在多個基准測試中已經取得了卓越的成績。但很快,他們可以使用的時間只剩下了最後一周。
團隊成員在Slack上互抛主意,其中一個提議是制作一個專門生成計算機代碼的模型版本,或者是一個小型版本供業余愛好者嘗試。
團隊還考慮了不再增加模型的大小,轉而通過精心挑選的數據來提升模型在特定功能上的表現,這種方法稱爲課程學習。
或者,他們可以繼續按原計劃擴大模型的規模,希望使其變得更加強大。
最後這種做法被團隊成員親切地稱爲「隨它去」選項,似乎有人對此格外情有獨鍾。
雖然討論過程中大家都保持了友好,但隨著各位工程師爲自己青睐的方案力爭上遊,激烈的觀點交鋒不可避免。
最終,Frankle巧妙地將團隊的方向引向了以數據爲中心的方法(課程學習)。兩周後,這個決定顯然帶來了巨大的回報。
然而,對于項目的其他預期成果,Frankle的判斷就沒那麽准確了。
他原本認爲DBRX在生成計算機代碼方面不會有特別突出的表現,因爲團隊並沒有將重點放在這一領域。
他甚至信心滿滿地表示,如果自己判斷錯誤,就會把頭發染成藍色。
然而,周一的結果卻顯示,DBRX在標准的編碼基准測試上勝過了所有其他開源AI模型。
「我們的模型代碼能力非常強。」他在周一的成果發布會上說道,「我已經預約了今天去染發。」
風險評估
最後還有一個問題,就是開源模型的風險。
DBRX是迄今最強的開源大模型,任何人都可以使用或修改。
這是否會帶來不可預知的風險,比如被網絡犯罪或者生化武器濫用?
Databricks表示,已經對模型進行了全面的安全測試。
Eleuther AI的執行主任Stella Biderman說,幾乎沒有證據表明開源會增加安全風險。「我們並沒有特別的理由相信,開放模型會比現有的封閉模型大幅增加風險。」
此前,EleutherAI曾與Mozilla以及其他約50個組織和學者一道,向美國商務部長雷蒙多發出了一封公開信,要求她確保未來的人工智能監管爲開源AI項目留出足夠的發展空間。
信中專家們相信,AI開源有利于經濟增長,因爲它們有助于初創企業和小企業接觸到這項突破性的進展,還有助于加速科學研究。
而這也是Databricks希望DBRX能夠做出的貢獻。
Frankle說,DBRX 除了爲其他人工智能研究人員提供了一個新的模型和構建自己模型的有用技巧外,還有助于加深對AI實際工作原理的理解。
Databricks團隊計劃研究模型在訓練的最後階段是如何變化的,也許能揭示一個強大的模型是如何湧現出額外能力的。---[新智元報導*編輯:編輯部/來源: 新智元]
參考資料:
https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/
https://twitter.com/databricks/status/1772957294805856265?t=yM4Rma8C9RQPCmf0YoopMw&s=19
https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm