當大模型從技術走向應用，MoE架構成「新寵」

2024060413:33

AI大模型帶來的浪潮已經席卷全球，時至今日幾乎所有的科技企業都在AI大模型方面有所布局。

隨著這一輪AI技術的快速發展，我們不難看出，AI已經從「卷」技術走向「卷」應用的階段，如果說2023年是生成式AI元年的話，那麽2024年必將是生成式AI企業側應用落地的元年。

大模型從卷參數走向性價比

回看2023年，各大廠商爭先恐後的發布各自大模型產品，而當產品發布後，幾乎所有人關註的焦點都在參數有多大上。彼時，人們似乎不約而同都在以參數的大小衡量大模型產品的好壞。

生成式AI「鼻祖」發布的GPT-3.5據報道可達1750億個參數，而後續推出的GPT-4雖然未知參數，但顯然要比GPT-3.5更高；中國移動發布的「九天智能基座」大模型也擁有千億級別參數；通義千問最新開源的模型達到1100億參數； Google AI 發布了 Pathways Language Model (PaLM)，擁有 5400 億個參數，在各種自然語言處理基準測試中取得了最先進的結果；浪潮信息發布的「源1.0」1大模型具有2457億參數......

而隨著參數數量的增加，也意味著訓練模型需要更多的計算資源和訓練時間。訓練一個擁有數十億甚至數百億參數的 LLM，往往需要大量的計算設備和電力消耗。此外，龐大的參數也帶來更高的模型復雜度，對模型的訓練和調優也提出了更大的挑戰。

以一個5000億參數的大模型為例，訓練這個大模型需要2萬張H100的數據中心集群，需要大概10億美元的建設成本，而每年訓練所消耗的電費將達到5.3億元人民幣，無論對哪個企業而言，這都將是一筆難以估算與接受的開銷。

在此背景下，AI大模型要想在企業側大規模落地應用，企業就需要更多的考慮到算力效率，從模算效率層面，整體評估與衡量模型的精度和開銷。對此，浪潮信息人工智能首席科學家吳韶華告訴鈦媒體APP，算力效率越高，意味著單位算力投入的情況下，模型精度回報越高，造成的算力浪費現象越小，對模型的訓練非常有利。而所謂模算效率，正是追求並實現「模型能力更強且算力消耗更少」的技術方式。

浪潮信息人工智能首席科學家吳韶華

「假設擁有很高的模算效率，我們基於更多token訓練更到參數量模型就成為可能，」吳韶華對鈦媒體APP進一步指出，「尤其是在企業側應用的過程中，模型訓練、推理的整體成本會隨著模算效率的提升而降低，也就進一步降低了企業應用AI的成本門檻。」

MoE架構或成AI大模型最優解

就如同互聯網的發展一般，消費級的產品只是技術出現在人們眼前的渠道，而真正的技術價值還得看企業級的應用。AI大模型在這點上與彼時的互聯網相似。隨著「產業AI化」進程的推進，企業需要找到一個能「用得起」的大模型產品。這時候MoE架構的出現，就成為了現階段企業應用大模型的最佳技術展現形式。

對此，吳韶華告訴鈦媒體APP，當算力以及訓練數據發展變緩，或者成本變高的時候，我們需要另外一種可以讓模型能力繼續進行擴展（scale）的創新方式。「基於此，今天，更好地利用一定規模的算力和數據構建更大規模、資源消耗更少、性能更好的大語言模型，是產業面臨的核心問題。」吳韶華強調。

而MoE（Mixture of Experts，混合專家模型）恰好就滿足了人們對於更大規模、更低消耗，更低算力資源占用的願景。MoE本質上是一種高效的scaling 技術，用較少的計算資源實現更大的模型規模，從而獲得更好的模型性能表現。

MoE作為一種由專家模型和門控模型組成稀疏門控製的深度學習技術，由多個專家模型組成，每個子模型都是一個局部模型。門控功能「稀疏性」的引入讓MoE在處理輸入數據時只激活使用少數專家模型，大部分專家模型處於未激活狀態。

換言之，只有擅長某一特定領域的模型會被派遣，為用戶提供最專業的服務，而其他模型則原地待命，靜待自己擅長的領域到來。這種「稀疏狀態」作為混合專家模型的重要優勢，進一步提升了模型訓練和推理過程的效率。

吳韶華告訴鈦媒體APP，MoE模型的一個顯著優勢——能夠在遠少於稠密模型所需的計算資源下進行有效的預訓練。「這意味著在相同的計算預算條件下，可以顯著擴大模型或數據集的規模。特別是在預訓練階段，與稠密模型相比，混合專家模型通常能夠更快地達到相同的質量水平。」吳韶華表示。

據了解，近日浪潮信息全新發布的「源2.0-M32」（簡稱M32）正是基於MoE架構的開源大模型，「M32包含了32個專家的MoE大語言模型，參數量400億並大幅提升了模型算力效率，」吳韶華告訴鈦媒體APP，「M32憑借特別優化設計的模型架構，在僅激活37億參數的情況下，取得了和700億參數LLaMA3相當的性能水平，所消耗算力僅為LLaMA3的1/19。」

基於MoE架構，M32延用源2.0非均勻流水並行的方法，綜合運用流水線並行+數據並行的策略，為硬件差異較大訓練環境提供了一種高性能的訓練方法，模算效率得到了大幅提升。

其實從今年以來各大廠商發布的大模型產品上就不難看出，MoE架構已經成為當下大模型產品的主流架構之一，今年初，深度求索團隊發布了開源的160億參數專家模型DeepSeek MoE，而OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型也都采用了MoE架構。

相比於Dense模型，MoE無論在可擴展性，計算效率、訓練效率，還是靈活性、專業化、容錯率等方面都有著出色的表現，這也讓MoE架構成為企業側應用大模型的不二選擇。

模更強，算更優性能、成本全都要！

顯然，在模算效率方面，基於MoE架構開發的M32大模型擁有非常明顯的優勢，這讓企業在使用M32大模型的過程中，算力資源的浪費更少，成本更低，在這個追求降本增效的背景下，MoE更適合企業側部署大模型。

不過對於企業而言，「既要，又要」的想法肯定是每個企業都追求的，企業當然不希望降低成本是以犧牲性能作為代價的。這時候，作為大模型提供商來說，就需要平衡好性能與成本之間的天平。

以最近剛剛發布的M32為例，吳韶華告訴鈦媒體APP，基於對性能的考慮，此次發布的M32使用了全新的門控網絡——Attention Router，負責調度各個token到不同專家模型上進行混合計算，「Attention Router是一種專家間協同性的度量方法，」吳韶華指出，「在計算過程中可以將輸入樣本中任意兩個token通過一個計算步驟直接聯系起來，解決了傳統的門控機製中，選擇兩個或多個專家參與計算時關聯性缺失的問題。」

Attention Router網絡結構通過創造一種專家間協同性的度量方法，能夠使得專家之間協同處理數據的水平和效能大為提升，從而實現以更少的激活參數，達到更高的智能水平。

除此之外，大模型在企業側應用過程中，不可避免的要解決幻覺的問題，大模型在企業側並不像是在消費端，消費側的模型只要參數夠大，數據量夠大，即便有一些質量不佳的數據，偶爾產生一些「幻覺」問題也是可以接受，而企業側的應用並不是這樣。

在企業側，大模型需要精度更高，準確率更高，甚至對於有些行業而言，0.01%的錯誤拒絕率都是難以容忍的。這就對企業側應用大模型產品提出了更高的要求。

對於鈦媒體APP提出的幻覺方面的擔憂，浪潮信息人工智能與高性能應用軟件部AI軟件架構師Allen Wang認為，對於大模型幻覺問題，業內目前已經有很多方式方法進行避免，「業內比較常見的事通過模型的微調、小樣本學習，或者外掛知識庫的形式，能有效解決大模型幻覺的問題。」Allen Wang如是說。

另外，Allen Wang也進一步告訴鈦媒體APP，不久前，浪潮信息也剛剛發布了EPAI 企業大模型開發平臺，包含各種增強式技術及模塊化的技術，很大程度上可以幫助企業處理幻覺問題。以微調數據舉例，EPAI所擁有覆蓋範圍廣泛的1億+基礎數據，也為提升模型精度做出了極大的貢獻。」Allen Wang強調，「未來，M32也將與EPAI企業大模型開發平臺一同，助力企業實現更快的技術叠代與高效的應用落地。」

除此之外，業內也有不少大模型廠商在嘗試通過技術降低大模型出現幻覺的可能性。在前不久的IBM Think 大會上，IBM宣布正在 Hugging Face 和 GitHub 上開源其 Granite 大模型系列，包括其最先進的代碼大模型，這些模型在多項行業基準上超越比之規模更大的模型。

同時還與紅帽共同推出一個開源新方法InstructLab, 通過社區參與企業級的知識型數據與技能型數據的分類和表達，並通過合成數據-驗證的方式後，對企業的基礎模型進行微調。InstructLab 首次實現了對預訓練 LLM 的修改。「這是一項首創的大模型對齊技術（LAB），可將開源社區的資源直接引入大語言模型，讓企業在應用大模型的時候只需要極少的數據，就可以達到更大的準確率。」IBM中國系統實驗室CTO孟繁晶告訴鈦媒體APP。

而通過以浪潮信息與IBM為代表的各大布局企業側大模型產品最新的舉措也不難看出，平臺化的大模型產品已經成為當下企業應用大模型產品的最佳方式。這種開源的方式，可以接入更多的基礎大模型與專家大模型，並在企業使用的時候，在確保提供高可用的大模型解決方案的同時，還能進一步降低企業使用大模型的成本門檻與技術門檻，真正做到簡單、易用。

搭建好大模型平臺之後，下一步各大廠商就需要一方面在原有產品上不斷進行模型的優化，開發新的版本，提供更高模算效率，更強性能的基礎大模型；另一方面，如何在平臺上提供更多的工具和軟件供企業側的開發者選擇使用，以及這些工具的易用性和可用性將成為接下來各大大模型廠商角逐的重要賽道。---（鈦媒體/作者:張申宇*編輯:蓋虹達）

*AI升級IoT產研效率：10分鐘產品智能化、14天量產 | 創新場景*

圖片系AI生成

痛點

塗鴉智能發現，IoT生態系統碎片化帶來的問題很多。很多情況下，大量的開發方案分散在平臺端、APP端、設備端、嵌入式端等不同平臺上，這導致一款智能產品的開發，至少需要半年甚至更久的時間。

而物聯網產品的開發需要多個團隊協同，也涉及工程、設計、采購、市場營銷等職能部門，他們會擁有不同的權限。行業內很多產品會借助外部方案進行開發，這就涉及到了數據隔離的問題，在過去，如果僅通過人工操作來進行數據的分享和隔離，整個操作流程將非常繁瑣和復雜。

解決方案

引入生成式AI能力來簡化這一流程，用戶無需了解平臺的具體功能，就能快速配置產品。具體方案方面，以Amazon Bedrock為大模型基座，結合行業數據和領域算法，對外提供統一開放的Agents運行平臺；模型方面，通過API調用了Anthropic Claude 3模型進行文本翻譯、意圖識別和決策；采用Amazon OpenSearch作為向量檢索引擎，使用Amazon SageMaker進行開源模型的訓練與微調，支持企業私域內容生成、物體識別等場景。此外，亞馬遜雲科技生成式AI實驗室與架構師團隊也參與進行模型微調的指導與優化。

通過搭建Agents平臺，塗鴉智能正圍繞四個方面深化落地：一是企業內部研發提效；二是面向內部協同提效；三是面向B端對IoT平臺進行全面升級，推出AI助手「T-Smart」；四是面向C端提供個人家庭智能助理服務。

成效

T-Smart雲開發者平臺助手支持客戶通過文字指令進行產品開發、方案配置等多種開發流程，並為開發者提供基於AI生成產品資料的功能。開發者原來分鐘級的開發流程，縮短到以文本指令秒級創建和配置，同時，開發者原本需要數天時間自行整理和書寫的電子說明書等產品資料，變為可以直接生成。數據顯示，平臺可幫助客戶實現10分鐘完成產品智能化，14天實現量產。

「關於創新場景50」場景不是案例，它更加精準、也更加抽象。數字化就是創新場景的不斷疊加和叠代。在此背景下，鈦媒體重磅推出「創新場景50」評選，每年遴選並解讀50個全行業與業務深度融合的創新性場景及其解決方案，並在鈦媒體年度ITValue Summit 數字價值年會上隆重頒獎、深度交流。---來源: 鈦媒體-

我要留言

當大模型從技術走向應用，MoE架構成「新寵」

大模型卷向下半場：價格戰之後如何成為真正「剛需」

2024過半，AI卷到哪兒了？

大模型卷向下半場：價格戰之後如何成為真正「剛需」

2024過半，AI卷到哪兒了？