01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

萬卡算力和萬億參數大模型時代,AI存儲何時爆發 ?| ToB産業觀察...

2024112100:14



             * 萬卡算力和萬億參數大模型時代,AI存儲何時爆發 ?| ToB産業觀察 * ---圖片系AI生成

當前,大模型最顯著的特征之一就是參數量呈指數級增長。

根據Scaling Law(尺度定律)的規則,人工智能神經網絡的參數量越多,模型越大,對于知識的總結歸納和推理泛化能力就越強。

因而,從ChatGPT出現驗證了“湧現”能力,到如今的兩年裏,業內首要關注的就是算力,怎樣突破硬件算力,怎樣以盡可能少的Token數量訓練好一個模型。

但在這一顯著挑戰之外,數據量猛增帶來的數據存儲,可能是僅次于算力的另一大技術難點。

大模型“卷”向存儲

年初,一位長期關注AI大模型應用的CTO與钛媒體APP交流中表示:“企業使用外部數據訓練大模型,長文本是關鍵思路之一。

但問題是,長文本處理特別消耗內存和硬件,因爲模型訓練和推理的內存變大,模型效果才能更好。這也導致在其每次查詢的成本高于GPT-4,而後者基于微調。這不是ToB企業能夠負擔得其起的。”

他對钛媒體APP解釋 :微軟提出了大模型的“不可能三角”,如果希望模型的微調能力很強,那麽模型參數就不會很大,或者小樣本的學習能力不會很強。

長文本的邏輯是,讓小樣本學習的能力變強,同時放棄微調,這樣模型參數肯定就會相應擴大。

彼時,正值國內長文本熱潮。

除了最早的Kimi,阿里巴巴、百度、360等衆多廠商相繼宣布進軍長文本,從最初的可處理200萬字上下文,迅速擴張至1000萬字長文本能力。而在這股熱潮中,也同樣遺留了諸多待解決的問題。

根據技術博客Medium上一位AI工程師Szymon Palucha的記錄 : 以阿里開源的Qwen2-7B(7億參數)大模型爲例。

目前GPU顯存大小基本在80GB(以英偉達A100爲例),那麽如果拿不到更好的A100時,他根據公式 :參數模型內存=7B*32位=7B*32/8字節=28B字節=28GB,測算出運行該模型至少還需要28GB內存,這還不算推理過程中對存儲産生的額外開銷。

爲此,最簡單的辦法是降低參數精度,因爲現在多數大模型可以半精度使用,而不會顯著影響准確性。

這意味著大模型在實際運行時,需要一定的內存或存儲空間來存儲和處理數據,大模型所需的內存量會根據上下文窗口的大小而變化。

窗口越大,所占用的內存也就越多。

钛媒體注意到,這也是當下大模型應用廠商在破解算力問題之外,遇到的另一大技術困難點,去年還沒有太多人關注——數據量猛增帶來的數據存儲、內存帶寬、時延等一系列問題。

並且隨著需求的爆發,已經帶來一些技術側産品側的演進。

支持萬卡算力和萬億參數LLM,存儲兩道檻

目前全球的科技巨頭都在布局萬卡算力集群和萬億參數規模的大模型訓練,對于這些集群而言,高性能的計算、存儲和網絡缺一不可。

從存儲層面來看如何提供支撐 ?一是要至少達到TB級帶寬、百萬級IOPS的存儲性能,未來可能會演變爲數十TB、上億級IOPS的需求;二是要提升數據跨域調度、數據安全、數據可持續性訪問等能力。

回顧過去兩年間大模型帶來的存儲挑戰,可以從三個階段總結 :

2022年初 :大模型爆發初期,國內有超過100家的大模型公司開始迅速進行市場布局。

在這個階段,模型訓練追求的就是“快”,通過IT基礎設施的方案優化,有效地提升GPU效率,加速模型的訓練並得到市場認可,即可搶占市場先機。

爲此,模型訓練的數據加載、模型訓練過程中的斷點續訓要盡可能地降低對計算時間的占用,在萬卡算力集群萬億參數的大模型的快速訓練時,小于1分鍾斷點續訓,需要存儲提供TB級的帶寬,同時小模型的訓練推理則對IOPS提出更高要求,存儲系統需提供超過百萬級的IOPS。

2023年底到2024年初 :隨著模型在各行業落地的需求,在很多的行業場景裏,行業數據缺少積累,過去分散在各終端、地域數據的誇協議、誇地域高效率共享整合。

這就要求存儲具備數據跨域調度,通過異構納管實現全局命名空間管理,提升數據彙集、分析的效率。

2024年下半年開始 :模型的真實落地,對數據質量要求更高,語料公司需要將數據彙集並進行精加工。

大模型的行業化落地過程中,爲了提升通用模型的專業化能力,訓練出精度更高的模型,要求有更高質量的數據集。

爲得到高質量數據,原始數據要經過粗加工、精加工等多個作業環節。這個階段,對數據的安全存儲和數據可持續性訪問提出了更高要求。

浪潮信息存儲産品線副總經理劉希猛指出,模型參數量、訓練數據量、GPU算力、網卡性能、GPU規模近些年均在飛速增長,原有存儲不足以應對AI的快速發展。

無論是海量訓練數據加載、PB級檢查點斷點續訓,還是高並發推理問答等,存儲性能直接決定了整個訓練推理過程中的GPU利用率。

特別在萬卡集群規模下,較差的存儲性能會嚴重增加GPU閑置時間,導致模型落地困難、業務成本劇增。

因此,現代存儲已經由傳統的數據載體和數據倉儲,轉化爲AI發展的關鍵組件。

存儲系統正逐漸演進到提供更高的吞吐量,更低的時延,更高效的數據管理。

AI存儲何時爆發 ?

既然針對AI場景的存儲系統在前幾年並沒有得到太多重視,從需求側,何時會迎來新的爆發點 ?“過去一年,存儲的增量市場基本全部來自于AI場景。”劉希猛對钛媒體解釋。

如果將未來的AI市場分爲大致兩類 :一類是AI産業化的市場,在AI産業化進程中,更多的關注點可能集中在了模型訓練,緊隨其後的是語料生産,然後是算法優化。

那麽,存儲首先就會在模型訓練、語料生産領域産生價值,特別是語料,從今年開始就已有迹象,並在接下來兩年裏實現快速增長。

在劉希猛看來,從目前來看,大模型訓練中最緊缺的是數據,各行業在可能都會開始著手收集各自領域的數據,並進行相應的數據加工處理。

算力方面,盡管有人認爲算力建設已接近泡沫階段,甚至有些用力過猛。這一判斷可能在一定程度上具有方向性的正確性。接下來,算力的發展可能會進入一個相對平穩的階段。

第二類是産業的AI化,即大模型真正落地到行業並産業實際價值,可以觀察到一些領域已經先行一步。例如,金融領域的量化交易、證券交易,在科研領域,AI也開始被用來輔助科研工作。

此外,制造業也是AI應用的一個重要領域。這兩方面都會對AI存儲市場帶來比較好的促進作用。

劉希猛還指出,當前AI存儲面臨的挑戰尚未完全解決,若繼續向前發展,其實還是要從性能、效率以及可靠性三方面入手。

一是高性能,以解決混合AI負載對存儲讀寫帶寬、IOPS,以及低時延的要求;

二是高效率,通過存儲支持文件、對象、大數據等非結構化協議融合互通,全局命名空間等,減少多份數據重複存儲,以及數據誇協議、誇區域、誇系統調度檢索的問題;

三是高韌性,通過故障的快速恢複、故障前的精准預測降低系統異常時的性能影響,以及服務的連續性,同時強化數據保護與安全防護能力,保證數據的完整、一致、持續可訪問。

目前國內外在建千卡集群、萬卡集群,且未來可能還會出現更大規模的集群。

想要達到同等算力,若是采用國産GPU,可能需要不僅達到十萬卡規模,而是更爲龐大的集群。

隨著集群規模的擴大,除了存儲本身面臨的挑戰外,還將帶來存儲整體方案的挑戰。這涉及從存儲到前端網絡,再到算力節點的整個鏈條。

其中,網絡的選擇成爲一個關鍵問題。

國內之所以更多地使用RoCE網絡,是因爲國內的集群規模需求更大,而IB網絡在擴展規模上有所限制。

RoCE網絡與存儲及上層之間的協同性,尤其是超大規模集群的協同性上,可能會成爲新的關注點。

钛媒體注意到,RDMA(Remote Direct Memory Access)全稱遠程內存直接訪問技術,是一種數據傳輸技術。

目前算力集群對網絡的建設在2022年之前基本會選擇“二層虛擬網絡”,隨著AI應用的爆發,2023年至今已經在嘗試智能無損網絡和以太網,並且往往圍繞性能、成本、生態系統和兼容性等方面進行權衡。

RoCE就是一項基于以太網的RDMA技術。

甲骨文公司中國區技術咨詢部高級總監嵇小峰與钛媒體APP交流中同樣指出,大規模集群除了GPU數量多之外,同時具備網絡低延時和高帶寬的特性。

從基礎設施角度來看,大量GPU集中部署會帶來供電和冷卻方面的巨大挑戰。

同時,在訓練過程中,對存儲的需求同樣至關重要。

因爲訓練往往涉及成千上萬塊GPU的協同作業,一旦有少數GPU(如一塊或兩塊)出現故障,整個訓練進度可能會因此延誤。

例如,今年9月亮相的Oracle Zettascale算力集群,目前可提供13萬多顆GPU,相當于可提供2.4 ZFLOPS的雲端算力。

爲進一步增強網絡的低延遲和高帶寬,Oracle采用支持兩種網絡協議 :InfiniBand和RoCEv2,這是一種增強版的以太網。

這兩種技術均具備一種核心繞行機制,能讓網絡流量避開常規路徑中必須穿越的某些組件,以實現更迅速的傳輸至目標地。

這樣的設計促進了數據更快地抵達GPU,進而提升了處理效率。

隨著AI存儲需求的不斷湧現,包括GPU、模型架構、存儲解決方案及網絡技術的各大廠商,正紛紛加速布局,力求在構建超大規模集群的浪潮中搶占先機。---(钛媒體/作者 :  楊麗,編輯 :  蓋虹達)



                                    * 全球最大 AI Agent 生態系統來了 !適配超1800個模型 *

[智東西11月20日消息],在昨日開始的微軟Ignite大會上,微軟宣布已建立全球規模最大的企業級AI Agent生態系統。

企業用戶現在可以通過Azure AI目錄訪問超過1800個AI模型,用于支持各類AI Agent的部署和運行。

微軟的Copilot Studio平台目前已支持用戶創建自主Agent,並正式進入預覽階段。

同時,微軟還發布了5款預構建AI Agent,包括 :SharePoint自定義個性化Agent、員工自助服務Agent處理HR和IT任務、Facilitator Agent自動記錄會議筆記、Interpreter Agent提供9種多語言實時翻譯,以及Project Manager Agent幫助自動化項目管理流程。



此外,微軟研究團隊近期基于企業Autogen框架推出了Magnetic-One系統,該系統采用Agent等級結構,將管理Agent與專業Agent分工協作,未來或實現數百萬AI Agent的無縫協作。

一、超10萬家企業使用,兩類Agent全覆蓋

自Copilot Studio發布以來,已有超過10萬家企業使用該平台創建或編輯AI Agent。

微軟的Copilot Studio能夠與1400多個企業系統和數據源集成,包括SAP、ServiceNow和SQL數據庫等。



一些早期用戶已經看到了效果。例如,麥肯錫通過自動流程規劃Agent將項目接收流程從20天縮短至2天;Pets at Home在不到兩周內完成了防欺詐Agent的部署,年均節省數百萬美元。

此外,Nsure、標准銀行、湯森路透、維珍貨幣、Clifford Chance和蘇黎世等企業也在使用Copilot Studio提升運營效率。

1、自主Agent:支持自帶知識與自帶模型

根據國際數據公司(IDC)的預測,在未來兩年內,越來越多的企業將會開發定制化的AI工具。

從Salesforce和Snowflake這樣的科技巨頭到CrewAI、Sema4.ai等新興公司,市場上正在湧現出大量旨在提升企業運營效率的AI平台。

現在,微軟的自主Agent已正式進入公共預覽階段,企業可以通過Copilot平台創建並使用自己的AI Agent。

在Copilot Studio中,用戶可以通過預設模板(如銷售訂單處理或交易加速)快速構建自己的Agent;如果需要更高級的功能,還可以使用目前處于預覽階段的Agent SDK進行開發。

通過這個SDK,開發者可以打造與微軟服務深度整合的多渠道Agent,並將其部署在多個平台上使用。

此外,微軟還整合了Azure AI Foundry與Copilot Studio,支持用戶自定義知識庫(目前爲預覽版)和自帶模型(目前爲個人預覽版)。

這意味著用戶可以利用自定義搜索索引作爲Agent的知識來源,也可以從Azure AI目錄中選擇超過1800個模型,微軟表示未來這一數字還會繼續增加。



2、預構建Agent :爲人力資源、翻譯、項目管理而設計

針對企業中一些常見且重複的任務,微軟推出了5款新的預構建Agent,能夠自動化處理各種業務流程,從日常操作到項目管理。

例如,SharePoint中的Agent允許用戶創建個性化Agent,實時提問並與同事共享,便于互動;員工自助服務Agent幫助員工查詢福利、工資、設備請求等HR和IT任務;Facilitator Agent在Teams和聊天中實時記錄會議筆記,並提供信息摘要;Interpreter Agent爲Teams會議提供最多九種語言的實時翻譯;Project Manager Agent能自動化管理項目流程,從創建計劃到任務分配、進度追蹤等。

此外,微軟還推出了Azure AI Foundry SDK。該SDK提供了低代碼工具鏈,讓開發者能夠自定義、測試、部署和管理Agent。開發者可以從25種預構建模板中選擇,並通過SDK將Azure AI與GitHub或Copilot Studio等應用集成。



二、構建Agent等級結構,微軟或擴展數百萬AI Agent

微軟業務應用程序和平台首席副總裁Charles Lamanna提出了“Agent網格”概念,這是微軟AI Agent戰略的核心。該網格將是一個互聯系統,多個AI Agent協作完成複雜任務,而不是單獨運行。

目前,微軟的Copilot Studio主要支持基于聊天觸發的Agent。例如,在企業場景中,銷售Agent可以觸發庫存Agent檢查庫存情況,隨後庫存Agent通知客戶服務Agent更新客戶信息。這一系統由三部分組成:自主Agent、編排層和實時監控工具。

自主Agent能夠檢測事件並觸發動作,無需人工幹預;編排層協調多個專業Agent的工作,確保各個Agent之間能夠無縫協作;實時監控工具提供Agent工作流程的透明度,幫助企業跟蹤進展。

最近,微軟的研究團隊基于企業Autogen框架開發了Magnetic-One系統,建立了一個複雜的Agent等級結構。在這個系統中,管理Agent負責任務的全局調度,專業Agent專注于執行具體工作。

據VentureBeat報道,微軟在Agent開發方面的技術能力已經與Anthropic和谷歌等公司相當。微軟還計劃將這一架構應用到例如OmniParser等工具中,以提升Agent解析用戶界面元素的能力。目前,這些研究正在向生産環境過渡,但具體時間和實施細節尚未公布。



▲Magnetic-One系統結構(圖源:微軟)

這一架構的設計旨在解決企業在擴展AI Agent數量時遇到的問題:如何在保持系統可控的前提下,從數百個Agent擴展到數百萬個Agent。通過編排層的協調能力,企業可以更高效地管理多Agent系統的發展。

此外,微軟的戰略也反映在其定價模式中。與其他AI供應商按token收費的方式不同,Copilot Studio基于交換的消息數量進行定價。這種模式更關注實際的業務成果,而非計算資源的使用量。

三、微軟暫時領先,但定價與實施面臨挑戰

在AI Agent領域,微軟憑借先發優勢和廣泛的用戶基礎暫居領先位置,數以億計的員工正在使用其生産力套件。



其他科技公司也在積極布局這一領域。例如,Salesforce推出了Agentforce平台,已經構建了約1萬個Agent,ServiceNow也推出了自家的AI Agent解決方案。然而,這些平台起步相對較晚,缺乏微軟那樣的企業覆蓋率。

不同公司采用了多樣化的戰略。

OpenAI專注于API服務,尚未開發完整的企業AI Agent框架;Crew等新興公司提供實驗性框架,但規模尚不足以支持大規模企業應用;LangChain的模塊化框架主要用于實驗性開發,而非企業部署;亞馬遜通過SageMaker等平台專注于開發者群體,策略較爲單一;谷歌雖然有多個AI平台,但缺乏統一的Agent框架。

與這些競爭者相比,微軟的解決方案更加全面。它通過企業級安全措施、低代碼開發工具、預構建模板和專業SDK,可支持不同企業團隊的需求。

此外,微軟將其AI Agent深度集成到公司應用和分析數據庫中,使Agent能夠直接訪問企業數據,無需單獨配置檢索增強生成(RAG)。

雖然微軟取得了一定優勢,但AI Agent技術仍處于發展初期,存在諸多技術與實施上的挑戰。

首先,模型可能産生錯誤信息(“幻覺”問題),或導致Agent出現無意義的循環操作,帶來額外的時間和成本消耗。

其次,定價與實施難度成爲許多客戶的顧慮。微軟的Copilot定價基于消息交換數量,但在實際部署中可能帶來一定成本壓力,而低代碼工具的靈活性能否滿足多樣化需求也需要時間檢驗。

此外,企業AI Agent領域可能會長期保持碎片化趨勢。

很多財富500強公司可能采取多供應商策略——既使用微軟的Copilot Agent提升效率,也爲更敏感的應用場景選擇其他框架,以降低風險。

結語 :從概念到企業IT實踐,AI Agent結局未定

AI Agent技術正在從概念走向企業實踐,微軟在這一領域已占據領先地位。

通過Copilot Studio和Azure AI,微軟提供了一個整合多個模型、支持定制化部署的企業級解決方案。

這一平台使得企業能夠更高效地實現自動化,並通過低代碼工具加速Agent的創建和部署。

然而,AI Agent仍處于發展初期,面臨技術碎片化和實施複雜度等挑戰。

盡管微軟目前占有市場主導地位,但未來競爭格局仍不確定,其他科技公司可能會在産品優化和市場適配方面迎頭趕上。

AI Agent能否成爲企業IT架構的核心部分,仍需進一步觀察。---[來源 :微軟、VentureBeat/編譯 :  汪越*編輯 :  Panken/來源 :  智東西 ]