獨家 | 中國國內首個開源千億參數MoE大模型來了，對標馬斯克的Grok

2024040215:47

馬斯克宣布開源大模型Grok後，國內也將迎來首個開源的千億參數MoE（混合專家）大模型。近日，「市界」獨家獲悉，國內獨角獸企業APUS（麒麟合盛）聯合新旦智能訓練的大模型APUS-xDAN 大模型4.0（MoE）將于近日宣布開源。

據「市界」了解，APUS-xDAN 大模型4.0（MoE）是國內首個千億以上參數MoE架構的開源大模型，參數規模爲1360億，這也是目前國內參數規模最大的開源模型。此前國內開源的大模型中，參數規模最大的是阿裏720億參數的千問72B，參數規模爲720億。

此外，「市界」獲悉，APUS-xDAN 大模型4.0（MoE）還是國內首個支持在4090低端算力上訓練的千億參數開源大模型，通過MoE架構和算法優化實現了對低端算力芯片的適配。

“馬斯克的Grok至少要8張H100才能運行，大部分中小企業其實沒有那麽多資源，而4090是一個消費級顯卡，成本比較低，在國內也更容易獲得，大部分企業和機構都能用來訓練。”APUS董事長兼CEO李濤對「市界」表示。

據《參考消息》報道，美國方面修訂了五個月前出台的相關規定，旨在使中國更難進口美國的高端人工智能芯片。

針對這一現狀，李濤和新旦智能創始人成一鵬均提到，對低端算力的支持，是這次APUS-xDAN大模型4.0（MoE）的最大突破，能夠很大程度上應對算力卡脖子問題。

這次開源的APUS-xDAN大模型4.0（MoE）背後，站著兩家企業，分別是成立十年的獨角獸企業APUS和一家初創人工智能企業新旦智能，模型由雙方共同訓練，並且APUS投資了新旦智能。

資料顯示，APUS是一家成立于2014年的人工智能企業，由360前副總裁李濤于2014年創辦，2022年之前主要做出海業務。

2022年底開始，APUS正式轉型人工智能和大模型，2023年4月，APUS正式發布了APUS通用大模型，據李濤向「市界」披露，目前APUS的大模型團隊超過百人。李濤還提到，目前開源的APUS-xDAN大模型4.0（MoE）的綜合性能已經可以實現GPT-4 的90%。

▲圖源/APUS-xDAN 大模型4.0（MoE）

作爲一家人工智能企業，李濤提到，APUS大模型的另一個優勢是算法語料比較多元化，國內大模型玩家很多都依賴于中文語料進行訓練，對于其他語言的算法語料覆蓋遠遠不足。而APUS的産品和服務目前已經覆蓋了全球200多個國家，用戶數量達到24億+，算法語料更加多元。

李濤表示，APUS目前爲止是國內大模型行業商業化最好的企業之一，已經落地醫療、電商、網信大模型，除了To C領域以外，在ToG和ToB領域探索了多樣化的應用場景。

而新旦智能目前成立不到一年時間，由成一鵬創立于2023年5月，成立後不久，就分別用7B、30B模型在大模型榜單MT-Bench上登頂TOP1。2024年3月初，新旦智能宣布完成千萬級別天使輪融資，背後的投資方就是APUS和AI行業投資人周弘揚。

據新旦智能創始人成一鵬向「市界」介紹，目前新旦智能的團隊規模爲十余人，由一群來自清華、伯克利、騰訊、Meta等機構和企業的工程師組成，成員包括全球頂尖的開源AI社區知名開發者Wing （目前全球最受歡迎的AI訓練系統作者）, 以及開源社區最受歡迎的AI數據組織Founder Austin。

據成一鵬介紹，新旦智能的多模態智能體在LLM領域已經完成了對GPT3.5 Turbo的超越，很多指標和GPT4只有不到10%的差距，例如MMLU（74.7%）比較通用的推理分析指標， GSM 8K 數學指標（82.5%），差距大概只有 9%。然後在部分領域，他們已經超過了GPT4，例如智能體的這個擬人性指標（MT bench ）已經超越GPT 4 約 3% 。

“可以簡單理解爲，我們現在擁有一個智商上正在逼近GPT4，同時情商還很高的大腦裝配在了自己的智能體上。”成一鵬表示。

這次開源的APUS-xDAN大模型4.0（MoE）另一個突破點，是填補了國內千億大模型在開源領域的空白，目前國內千億規模以上的大模型基本都不開源，包括百度的文心一言、華爲的盤古大模型等。而參數規模是衡量模型複雜度的重要指標，更大的參數往往可以讓大模型在處理複雜任務時表現更好，具有更高的准確性和泛化能力。---[作者 : 曾廣*編輯 : 董雨晴*運營 : 劉珊/來源: 市界]

我要留言

獨家 | 中國國內首個開源千億參數MoE大模型來了，對標馬斯克的Grok

4月2日外媒科學網站摘要：著名學者反對馬斯克大規模火星殖民計劃

阿里1号AI「员工」上岗，007写代码助攻大廠程序员！.....

4月2日外媒科學網站摘要：著名學者反對馬斯克大規模火星殖民計劃

阿里1号AI「员工」上岗，007写代码助攻大廠程序员！.....