01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

最強開源大模型再度易主,這家初創公司是如何做到的?

2024032921:47

在 Claude 3 Opus 將 GPT-4 挑落馬下的同時,又是一款「最強開源大模型」來了。

當地時間 3 月 27 日,美國初創公司 Databricks 突然公布了旗下開源大語言模型 DBRX,號稱是全球迄今爲止最強的開源大模型,參數規模達到 1320 億,表現更是超越 Meta 的 Llama2、「歐洲新秀」Mistral AI 的 Mixtral,以及馬斯克旗下 xAI 公司剛剛開源的 Grok-1。

更重要的是,他們只花了 2 個月和 1000 萬美元,在性能全面超越 GPT-3.5 的同時,訓練時間和成本都只有 GPT-3.5 的一小部分。

不過公允來說,這當然不是一種合理的比較。一方面是 GPT-3.5 發布時的技術和算力成本,都很難和今時今日相提並論;另一方面是,DBRX 采用了與很多大模型不同的:

Mixture of Experts 專家混合架構。

「刷新」開源大模型性能,DBRX 驗證了大模型訓練的另一條路

Databricks 說 DBRX 大模型是全球最強,並非空穴來風。

首先,DBRX 在語言理解、編程和數學等核心能力的基准測試上,很輕松就擊敗了 Llama2-7B、Mixtral 以及 Grok-1。包括在開源基准測試 Gauntlet 的 30 多個測試中,DBRX 也優于所有對比模型。



圖/ Databricks

另外,不只是開源大模型,DBRX 在大部分基准測試中的表現也超越了 GPT-3.5,甚至在多個測試中非常接近公認第一梯隊的 GPT-4。

最後也是關鍵的,盡管 DBRX 擁有 1320 億參數,Llama 2 的參數規模是 700 億,Mixtral 是 450 億,Grok 則達到了 3140 億,但在實際運行中,DBRX 平均只激活約 360 億參數來進行推理。

這也讓 DBRX 擁有了更快的生成速度和更低的推理成本,簡而言之就是更好的使用體驗和性價比。

而做到這一切的基礎,在于前文提到的專家混合框架。

衆所周知,算力、數據和算法是人工智能的三要素。在算法上,谷歌團隊于 2017 年發布的 Transform 架構至今依然是所有大模型的底層架構。DBRX 則在 Transform 架構的基礎,采用了一種最早于 2022 年年底提出的專家混合架構,事實上包括前面提到的 Mistral AI 也在去年推出了基于該架構的 Mixtral 8x7B。



提出專家混合架構的論文,圖/ arXiv

在該架構下,根據具體詢問的內容和問題,模型只會激活不同的「專家」子模塊進行推理,在吞吐量一定的情況下,可以更快地完成推理、給出回答。換言之,DBRX 的參數規模將近 Llama-70B 的兩倍,性能更強也更聰明,同時實際的推理速度和成本也都來得更好:

讓大模型的性能和速度變得「魚和熊掌,可以兼得」。

再加之訓練的最後階段,Databricks 的開發團隊還將重點轉向數據,采用「課程學習」的方式提高了 DBRX 的性能。

最終,「我們將開源大模型推向了新的技術水平,」Databricks 首席神經網絡架構師兼 DBRX 構建團隊負責人 Jonathan Frankle 說。

值得一提的是,Jonathan Frankle 在接受《連線》雜志采訪時還透露,盡管他們相信專家混合框架的潛力,但在 DBRX 真正訓練出來並完成基准測試之前,其實也不敢笃定最後的效果,甚至根本沒想到 DBRX 還有在代碼生成上的優勢。

但不論如何,DBRX 都可能改變大模型的叠代和應用方式,更可以確定的是,開源大模型之爭,還在繼續加劇。

開源大模型:從 Meta 獨占鳌頭,到百家爭鳴

前段時間,央視報道指出國産大模型之路面臨的三大挑戰,其中之一就是大多數國産模型基于 Meta 的 Llama 大模型,缺乏自主性。

其實不僅在國內,去年 7 月 Llama2 宣布「免費可商用」推出後,一舉成爲了全球開發者首選的開源大模型。畢竟只要經過簡單的微調就能直接應用,何樂而不爲。

不過 AI 行業的變化來得又快又凶猛:

    先是 Mistral AI 發布 Mistral-7B,宣告全面超越更大參數規模的 Llama2-13B; 不久後,阿裏宣布開源 720 億參數的大語言模型通義千問 Qwen-72B,性能超越標杆 Llama2-70B,號稱最強中文開源模型; 稍晚,谷歌也通過發布 Gemma 開始進入開源大模型的競爭,憑借 70 億參數碾壓 Llama2-13B(130 億參數)。

現在我們又看到了,Databricks 也帶著最新發布的 DBRX 加入了這場開源大模型之爭。

打造 DBRX 的團隊,圖/ Databricks

其實如果從業務層面,這幾家開源大模型並沒有太大的矛盾,比如 Databricks 作爲一家面向企業的初創公司,打造 DBRX 的根本目的還是爲企業客戶定制大模型。按照官方的說法,從發布之日開始,企業客戶就能在 Databricks 平台上利用 RAG 系統中的長上下文功能,用自己的私有數據構建一個自定義的 DBRX 模型。

但開源大模型之爭的根源在于:不管開發者還是用戶,都更傾向于最好的開源項目,群聚效應可能遠比閉源大模型來得明顯。

換句話說,最好的開源大模型往往會吸引閉源大模型之外的絕大部分廠商、開發者和用戶,並基于此推動大模型的快速叠代和生態擴張。如果類比起來,就像是智能手機早期,Android 在一衆移動操作系統(iOS 除外)中脫穎而出,並一舉成爲蘋果之外廠商、開發者和用戶的共同選擇,隨後走上了體驗改進和生態擴張的快車道。

戰爭還在繼續

顯而易見,大模型的戰爭還在繼續,就算是 OpenAI 也不敢一刻放松技術上的領先優勢。君不見在最新的 Chatbot Arena 聊天機器人排行榜中,Claude 3 Opus 在經過時間洗禮和群衆檢驗後已經超越了 GPT-4。


Chatbot Arena 對戰圖,圖/ Hugging Face

開源大模型的戰爭當然也在繼續,不管是谷歌、Meta、阿里,還是 Mistral AI、Databricks 以及更多的開源大模型廠商,都還在繼續進行叠代,提高性能、提高效率。畢竟誰也無法笃定在這場快速變化的技術革命中,能不能守住甚至擴大優勢。

Meta Llama2 雖然今天被連續吊打,但別忘了,紮札克伯格已經預告了正在訓練的 Llama3。按照雷科技之前的推算,我們可能在 7 月就能看到一場「復仇戰」,屆時 DBRX 能不能守擂成功:我很好奇。---來源: 钛媒體-