獨家 | 中國國內首個開源千億參數MoE大模型來了,對標馬斯克的Grok
馬斯克宣布開源大模型Grok後,國內也將迎來首個開源的千億參數MoE(混合專家)大模型。近日,「市界」獨家獲悉,國內獨角獸企業APUS(麒麟合盛)聯合新旦智能訓練的大模型APUS-xDAN 大模型4.0(MoE)將于近日宣布開源。
據「市界」了解,APUS-xDAN 大模型4.0(MoE)是國內首個千億以上參數MoE架構的開源大模型,參數規模爲1360億,這也是目前國內參數規模最大的開源模型。此前國內開源的大模型中,參數規模最大的是阿裏720億參數的千問72B,參數規模爲720億。
此外,「市界」獲悉,APUS-xDAN 大模型4.0(MoE)還是國內首個支持在4090低端算力上訓練的千億參數開源大模型,通過MoE架構和算法優化實現了對低端算力芯片的適配。
“馬斯克的Grok至少要8張H100才能運行,大部分中小企業其實沒有那麽多資源,而4090是一個消費級顯卡,成本比較低,在國內也更容易獲得,大部分企業和機構都能用來訓練。”APUS董事長兼CEO李濤對「市界」表示。
據《參考消息》報道,美國方面修訂了五個月前出台的相關規定,旨在使中國更難進口美國的高端人工智能芯片。
針對這一現狀,李濤和新旦智能創始人成一鵬均提到,對低端算力的支持,是這次APUS-xDAN大模型4.0(MoE)的最大突破,能夠很大程度上應對算力卡脖子問題。
這次開源的APUS-xDAN大模型4.0(MoE)背後,站著兩家企業,分別是成立十年的獨角獸企業APUS和一家初創人工智能企業新旦智能,模型由雙方共同訓練,並且APUS投資了新旦智能。
資料顯示,APUS是一家成立于2014年的人工智能企業,由360前副總裁李濤于2014年創辦,2022年之前主要做出海業務。
2022年底開始,APUS正式轉型人工智能和大模型,2023年4月,APUS正式發布了APUS通用大模型,據李濤向「市界」披露,目前APUS的大模型團隊超過百人。李濤還提到,目前開源的APUS-xDAN大模型4.0(MoE)的綜合性能已經可以實現GPT-4 的90%。
▲圖源/APUS-xDAN 大模型4.0(MoE)
作爲一家人工智能企業,李濤提到,APUS大模型的另一個優勢是算法語料比較多元化,國內大模型玩家很多都依賴于中文語料進行訓練,對于其他語言的算法語料覆蓋遠遠不足。而APUS的産品和服務目前已經覆蓋了全球200多個國家,用戶數量達到24億+,算法語料更加多元。
李濤表示,APUS目前爲止是國內大模型行業商業化最好的企業之一,已經落地醫療、電商、網信大模型,除了To C領域以外,在ToG和ToB領域探索了多樣化的應用場景。
而新旦智能目前成立不到一年時間,由成一鵬創立于2023年5月,成立後不久,就分別用7B、30B模型在大模型榜單MT-Bench上登頂TOP1。2024年3月初,新旦智能宣布完成千萬級別天使輪融資,背後的投資方就是APUS和AI行業投資人周弘揚。
據新旦智能創始人成一鵬向「市界」介紹,目前新旦智能的團隊規模爲十余人,由一群來自清華、伯克利、騰訊、Meta等機構和企業的工程師組成,成員包括全球頂尖的開源AI社區知名開發者Wing (目前全球最受歡迎的AI訓練系統作者), 以及開源社區最受歡迎的AI數據組織Founder Austin。
據成一鵬介紹,新旦智能的多模態智能體在LLM領域已經完成了對GPT3.5 Turbo的超越,很多指標和GPT4只有不到10%的差距,例如MMLU(74.7%)比較通用的推理分析指標, GSM 8K 數學指標(82.5%),差距大概只有 9%。然後在部分領域,他們已經超過了GPT4,例如智能體的這個擬人性指標(MT bench )已經超越GPT 4 約 3% 。
“可以簡單理解爲,我們現在擁有一個智商上正在逼近GPT4,同時情商還很高的大腦裝配在了自己的智能體上。”成一鵬表示。
這次開源的APUS-xDAN大模型4.0(MoE)另一個突破點,是填補了國內千億大模型在開源領域的空白,目前國內千億規模以上的大模型基本都不開源,包括百度的文心一言、華爲的盤古大模型等。而參數規模是衡量模型複雜度的重要指標,更大的參數往往可以讓大模型在處理複雜任務時表現更好,具有更高的准確性和泛化能力。---[作者 : 曾 廣*編輯 : 董雨晴*運營 : 劉 珊/來源: 市界]