01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

搞 AI 的是真沒錢了

2024040615:31


4月5日上午,一個來自MIT、普林斯頓等研究機構的華人團隊發布了自己的大模型JetMoE,宣布用10萬美元的訓練成本,就可以訓練出媲美LLaMA2級別的大模型——後者成本高達數十億美元。賈揚清第一時間進行了轉評贊,直指其核心在于MoE 架構。

此前,MoE架構始終是一個位于輿論水面下的大模型技術,人們醉心于大模型的技術突破,而以吃瓜的心態看待其背後的成本問題。但當StabilityAICEO及核心團隊相繼離職,公司被曝每月運營成本高達800萬美元以上,完全入不敷出時,大家才真正的認識到:不是中國AI圈窮,而是全球AI圈都真的沒錢了——大模型就像個“碎鈔機”,無論矽谷公司,還是中國公司,都難以承受。

因此,MoE作爲一種可以降低運營成本、提升訓練效率的架構,驟然成爲全世界大模型公司的關注重點。

去年12月,MistralAI發布8x7B-MoE模型,成爲全球首個開源的MoE大模型;今年1月,Minimax宣布發布國內首個MoE大語言模型abab6;在接下來的幾個月,Google、APUS、達觀、階躍星辰等企業以及馬斯克,都紛紛發布了自己的MoE模型。考慮到研發周期的問題,至少在GPT-4剛發布的時間(2023年3月),有遠見的公司就已經確定了MoE的架構方向。

即便是 OpenAI,當下對其GPT-4技術猜測的主流觀點也認爲,他們一定采用了MoE架構。

* MoE不太省心,但確實可以降本

MoE架構的中文名稱是混合專家架構,是神經網絡的一種架構模式。它將神經網絡拆分成多個專家子網絡,面對一次輸入,既可以指定某一位“專家”來回答,也可以要求多位“專家”回答,甚至全部參與回答,最終依據權重綜合給出結果。

這使得MoE架構的可擴展性優秀,開發者可以在一個巨型模型上,繼續增加參數量,進行橫向擴展。同時因爲MoE可以選擇只啓用部分專家子模型,也在保持性能的同時,降低了推理成本。另外MoE架構允許數據在多個專家模型之間進行分配和並行處理,因此可以提高模型的訓練和推理速度。

聽起來全是優點,但是MoE架構的訓練難度很大。

一個最主要的問題是,MoE架構很難保證每個“專家”都能得到充分訓練。決定了哪些“專家”,以多大權重參與回答的核心部件是門控網絡(GateNetwork)。如果門控網絡傾向于選擇某些特定的“專家”,可能會導致其他“專家”得不到充分的訓練,從而造成訓練不穩定。而且在MoE架構中,不同的“專家”可能會被分配到不同數量的輸入樣本。如果某些“專家”被分配的樣本過多或過少,可能會導致負載不平衡,影響模型的訓練效率和最終性能。

但對于全球AI企業,尤其是中國企業而言,這已經是兩年來的最好局面了——至少我們可以用軟件技術解決問題,而不是看著芯片和賬戶幹著急。

從實際情況來看,國內MoE架構的産品進展也較爲樂觀。

MiniMax作爲最早發力MoE架構的主兒,一直在幹悶聲發大財的事兒,投資人看重的有場景、有客戶等幾個要點,MiniMax都具備。根據其官方爲數不多的、對外透露的信息顯示,金山辦公、小紅書、騰訊、小米、閱文集團都是其客戶。盡管這類大客戶很可能同時采購了多個基礎模型服務,但依然顯示出MiniMax進展好像不錯。今年3月,阿裏被曝參與MiniMax下一輪融資,領投6億,據稱紅杉也承諾將參與本輪融資。某種程度上,這也代表著頭部資本對MoE這一技術路線的認可。

而就在4月1日,APUS(麒麟合盛)放出的信息更加露骨地說明了這一問題——其聯合新旦智能訓練的大模型APUS-xDAN大模型4.0(MoE)將于近日宣布開源。

在早期放出的信息中,APUS重點提到了兩點:

●參數規模爲1360億,國內開源模型中參數規模最大;

●是國內首個支持在4090低端算力上訓練的千億參數開源大模型;

說白了,便于橫向擴展,是事實,但可能不是主要因素,物美價廉,才是核心。

* 不玩MoE,就搞小模型

這種降本的決心貫徹的有多徹底,再看看不搞MoE架構的廠商就知道了。

面壁智能2月份發布了自己的端側模型Minicam,官方稱該模型以2B的尺寸可以超越Mistral-7B,媲美Llama2-13B。虎嗅3月邀請了面壁智能曾國洋參與AI內參會聊到該模型,曾國洋表示,現在業內普遍沒有將小尺寸模型的潛力挖掘幹淨,面壁追求的是如何實現更合理的訓練,而不是單純的堆模型參數量。

從産品定位上來講,當然可以說這是做端側模型的應有之義。但從成本價角度而言,這也是除開MoE架構外的又一次降本嘗試。CEO李大海在面壁的發布會上重點聊過這個問題:成本是大模型的隱形競爭力。面壁MiniCPM在端側的部署中,可以支持CPU推理,同時發布的量化版本,可以做到壓縮75%,性能基本無損。如果使用骁龍855芯片,成本約600元人民幣,按照運行5年計算,每秒7.5tokens,那麽170萬tokens的推理成本需人民幣1元。成本爲Mistral-Medium的百分之一。

小模型這套路能走多遠,是否因爲短期的苟且,導致在AGI層面的發展繼續落後?如果之前還存在這個疑惑,那麽AIPC、AI手機熱潮的興起,多少給大家增加了些信心。

盡管現在AIPC、AI手機是噱頭成分居多,真正在C端有決定意義的價值點較少。但這趟列車已經綁定了太多的人:高通、英特爾、三星、聯想……以及一系列基礎模型廠商、模型中間件廠商。某種意義上,這是“元宇宙Plus”版的概念列車,必須找到終點,也必須駛到終點。與當年元宇宙的情況不同的是,大模型當下的技術發展曲線,仍在陡峭上升中——

至少在GPT-5發布前,所有的商業故事,都會如約講下去。---[出品 : 虎嗅科技組*作者 : 王一鵬*頭圖 : 視覺中國/來源: 虎嗅]