01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

OpenAI面臨多個挑戰:人才流失、財務壓力與競爭對手的追趕

2024081915:44

自去年首席執行官奧爾特曼(SamAltman)被OpenAI董事會解雇又重新聘用後,OpenAI人事動蕩愈演愈烈。

今年以來,已有多位高層先後離職。截至目前,OpenAI的11位聯合創始人中僅剩3位,他們分別是:奧爾特曼、語言和代碼生成團隊負責人紮倫巴(WojciechZaremba)和處於休假的總裁布羅克曼(GregBrockman)。

在人工智能領域有巨大影響力的OpenAI緣何留不住這些創始人?

釋放這些信號

本月初,對構建ChatGPT起到重要作用的舒爾曼(JohnSchulman)宣布離開OpenAI,投奔競爭對手Anthropic。他表示,「我決定在Anthropic尋求研究AI對齊這一目標,並與深入研究我感興趣主題的人一起進行研究。」而去年新加入的產品負責人、消費者產品副總裁鄧(PeterDeng)也官宣離職。

上海交通大學副教授、生成式人工智能研究組負責人劉鵬飛在接受第一財經采訪時表示:「舒爾曼這些高級研究人員的離職表明,OpenAI可能不再是頂尖AI科學家的首選,其他專注於AI安全的公司(如Anthropic)或新創立的公司正在吸引人才。這可能標誌著AI研究生態系統的多元化。」



值得注意的是,在去年罷免風波中堅定地和奧爾特曼站在一起的布羅克曼也幾乎同時宣布將休假至年底,並表示「任務遠未完成,我們還需要建立一個安全的AGI(通用人工智能)」。

對此,中歐國際工商學院決策科學與管理信息系統教授譚寅亮在接受第一財經采訪時表示,業內普遍將布羅克曼此舉解讀為即將離職,因為OpenAI前聯合創始人卡帕西(AndrejKarpathy),也是在休長假後離職的。

譚寅亮表示,舒爾曼和布羅克曼近日的動作釋放了兩個信號:第一,OpenAI內部管理存在問題,優秀科學家可能繼續出走,其他AI企業和OpenAI的發展差距可能逐漸消失;第二,GPT5和下一代模型的發展有可能遇到了瓶頸,技術領域可能要思考ScalingLaws(規模化定律)是否已經接近了盡頭。

「等到下個月,美國企業的競業禁止性條款被全面廢止,AI人才流動被徹底解綁,OpenAI的人才流失問題可能更加嚴重。」他說。

*「叛變者」開啟新時代

根據行業研究機構統計,OpenAI已有近75名核心員工離職,創立了約30家人工智能初創公司。人工智能公司Anthropic的創始人、CEO阿莫迪(DarioAmodei)7月在一檔節目中表示,人工智能模型公司即將獲得超萬億美元的收入。而萬億規模的人工智能市場中,OpenAI及其出走員工創業可占據超一半。

阿莫迪兄妹曾任OpenAI研究副總裁和安全政策副總裁。2020年,他們因不滿OpenAI在安全問題尚未解決的情況下就直接發布GPT-3而離職,同時也帶走了前政策負責人克拉克(JackClark)和研究員卡普蘭(JaredKaplan)等參與打造GPT-3的14位研究人員。

公司2021年以來已從谷歌、亞馬遜等科技巨頭處籌集了至少70億美元資金。6月推出的聊天機器人最新版本Claude3.5Sonnet,被認為在整體表現上與OpenAI的GPT-4o相當或更佳。

而由OpenAI前研究科學家斯瑞尼瓦斯(AravindSrinivas)2022年8月創立的人工智能搜索公司Perplexity,目前估值已超30億美元。該公司表示其上個月的查詢次數為2.5億次,是去年全年查詢次數的一半。爆發式增長讓Perplexity被視為谷歌旗下的Geimini和OpenAI的SearchGPT的強勁對手。

今年7月,OpenAI聯合創始人、特斯拉CEO馬斯克也「拿到了最後一張船票」,宣布了其人工智能公司xAI的成立,以「了解宇宙的真實本質」。

譚寅亮表示:「創始人出走的情況在硬科技領域還是比較常見的,而且矽谷興起之初就開始盛行這種『出走』文化。最出名的就是『仙童八叛逆』,這八位從仙童離職後,創立了包括英特爾、AMD等一大批早期科技企業,正是這一批企業,使舊金山成為矽谷。

在人工智能時代,為大模型奠基的論文《AttentionIsAllYouNeed》的八位論文作者目前也全部離開了谷歌,創立了自己的公司。」

他表示:「個人的創業規劃、企業發展過程中出現的種種理念分歧,都可能成為創始人離開的原因。不過有些時候離開也不一定是壞事,正是這些『叛變者』開啟了全新的領域和時代。」

* 安全性是OpenAI繞不過去的話題

然而不可否認的是,在創始人們的離職聲明中,「安全」與「對齊」也是高頻詞匯。

除舒爾曼之外,OpenAI聯合創始人、首席科學家蘇茨克維爾(IlyaSutskever)和超級對齊團隊負責人雷克(JanLeike)於5月宣布離職。雷克更是在社交媒體X上控訴「安全文化和流程已經讓位於閃亮的產品」。

隨後,蘇茨克維爾於今年6月宣布創立了一家新人工智能公司SafeSuperintelligenceInc.(SSI)並表示「安全的超級智能是我們唯一的關註點」。雷克則加入了OpenAI的競爭對手人工智能公司Anthropic,「繼續超級對齊的使命」。

對此,譚寅亮表示:「在人工智能領域,『對齊』(AIAlignment)指的是確保AI系統的行為與人類的價值觀、意圖和預期目標保持一致。

簡單來說,就是讓AI更好按照人的要求做事、人的價值觀思考。奧爾特曼在安全部分確實做得不夠,本來承諾給到超級對齊團隊20%的算力資源,但是最終被偷換概念,成了整個安全團隊瓜分這20%。對於一批有初心的科學家來說,安全是他們的堅持。」

今年7月末,OpenAI還把安全部門高級主管馬蒂(AleksanderMadry)調離了安全崗位,並給他重新分配了「AI推理」(AIreasoning)的工作。而本月初,馬斯克再次對OpenAI及奧爾特曼提起訴訟,指控OpenAI將利潤和商業利益置於公共利益之上,背離了創立公司時造福全人類的初衷。

南開大學講席教授、中國公司治理研究院院長李維安在接受第一財經采訪時表示:「在傳統創業中,很多跳槽是由於沒有得到與所創造的價值相應的報酬、股份或職位等待遇問題,但OpenAI的聯合創始人的離開大多並不是這個原因。」

他表示,OpenAI的創始人基本不持有股份,從人工智能治理角度來看,創始人們離開的原因主要是治理理念的沖突,即人工智能治理是向善還是向利。

* 挑戰者Anthropic

從雷克到舒爾曼,Anthropic不斷吸引著OpenAI的核心成員。

該公司最近還聘請了今年4月因涉嫌泄露信息而被解雇的OpenAI的前研究員伊斯梅洛夫(PavelIzmailov)。在OpenAI擔任技術人員兩年多的比爾斯(StevenBills)上個月也表示他已離開OpenAI,加入Anthropic的對齊團隊。

劉鵬飛表示,Anthropic從創立之初就將AI安全和對齊作為核心使命,這種專註使得它能夠將更多資源和註意力集中在對齊問題上,可能為研究人員提供一個更純粹的研究環境。

此外,對於像舒爾曼這樣的資深研究者來說,在一個較新、規模相對較小的公司工作,可能意味著更大的影響力和更多塑造公司方向的機會,這對於那些希望在職業生涯中期尋求新挑戰的研究者來說非常有吸引力。

李維安表示:「Anthropic在公司治理結構上的創新體現了在商業和安全之間更好的平衡,這可能也是它能不斷吸引人才跳槽過去的理由。」

他解釋稱:「為了在AI向善和AI向利之間取得平衡,在治理結構上,Anthropic專門成立了一個由社會知名人士組成的信托委員會對董事進行監督,他們有權罷免違背科技向善宗旨的董事會成員。此外,為了保障制度的執行,Anthropic還設置了一類特殊的T類股票,由信托成員持有。」

今年5月,阿莫迪更是在一場峰會上表示:「我們有七位聯合創始人。三年半過去了,我們所有人都還在公司。」

而對於OpenAI面對的挑戰,譚寅亮表示:「放眼其他AI企業,Claude的模型在某些領域已經超過了GPT,當大家都在Transformer這條既定路線上賽跑,終點和路徑其實都是很清晰的。目前看,如果科學家們持續出走,OpenAI存在的先發優勢並不是不可超越。」

「8月馬斯克也重啟了對OpenAl的訴訟。財務方面,OpenAI公司一年的虧損可能高達50億美元,現金流在未來一年內有可能耗盡。內憂外患之下,今年對於OpenAI來說應該是很艱難的。」他說。---來源: 第一財經資訊-



*大模型終端部署新趨勢:硬件直接支持混合矩陣乘法*

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:[email protected][email protected]

在人工智能領域,模型參數的增多往往意味著性能的提升。但隨著模型規模的擴大,其對終端設備的算力與內存需求也日益增加。

低比特量化技術,由於可以大幅降低存儲和計算成本並提升推理效率,已成為實現大模型在資源受限設備上高效運行的關鍵技術之一。

然而,如果硬件設備不支持低比特量化後的數據模式,那麽低比特量化的優勢將無法發揮。

為了解決這一問題,微軟亞洲研究院推出了全新的數據編譯器 Ladder 和算法 T-MAC,使當前只支持對稱精度計算的硬件能夠直接運行混合精度矩陣乘法。

測試結果表明,Ladder 在支持 GPU 原本不支持的自定義數據類型方面,最高提速可達 14.6 倍;T-MAC 在搭載了最新高通 Snapdragon X Elite 芯片組的 Surface AI PC 上,使 CPU 上運行的大模型吞吐率比專用加速器 NPU 快兩倍。

此外,研究員們還設計了 LUT Tensor Core 硬件架構,這種精簡設計使硬件能夠直接支持各種低比特混合精度計算,為人工智能硬件設計提供了新思路。

大模型已經越來越多地被部署在智能手機、筆記本電腦、機器人等端側設備上,以提供先進的智能及實時響應服務。但包含上億參數的大模型對終端設備的內存和計算能力提出了極高的要求,也因此限製了它們的廣泛應用。

低比特量化技術因其能顯著壓縮模型規模,降低對計算資源的需求,成為了大模型在端側部署和實現高效推理的有效手段。

隨著低比特量化技術的發展,數據類型日益多樣化,如 int4、int2、int1 等低比特數據,使得大模型在推理中越來越多地采用低比特權重和高比特權重計算的混合精度矩陣乘法(mixed-precision matrix multiplication,mpGEMM)。

然而,現有的 CPU、GPU 等硬件計算單元通常只支持對稱計算模式,並不兼容這種混合精度的矩陣乘法。

混合精度矩陣乘法與傳統的矩陣乘法有何不同?

在傳統的矩陣乘法中,參與運算的兩端數值是對稱的,例如 FP16*FP16、int8*int8。但大模型的低比特量化打破了這種對稱性,使乘法的一端是高比特,另一端是低比特,例如在 1-bit 的 BitNet 模型中實現的 int8*int1 或 int8*int2,以及浮點數與整數的混合乘法 FP16*int4。

為了充分發揮低比特量化的優勢,讓硬件設備能夠直接支持混合精度矩陣乘法,確保大模型在端側設備上的高速有效運行,微軟亞洲研究院的研究員們針對現有 CPU、GPU 計算算子和硬件架構進行創新:

    * 推出了數據類型編譯器 Ladder,支持各種低精度數據類型的表達和相互轉換,將硬件不支持的數據類型無損轉換為硬件支持的數據類型指令,在傳統計算模式下,使得硬件能夠支持混合精度的 DNN(深度神經網絡) 計算;

    * 研發了全新算法 T-MAC,基於查找表(Lookup Table,LUT)的方法,實現了硬件對混合精度矩陣乘法的直接支持,軟件層面,在 CPU 上的計算相比傳統計算模式取得了更好的加速;

    * 提出了新的硬件架構 LUT Tensor Core,為下一代人工智能硬件設計打開了新思路。

Ladder:自定義數據類型無損轉換成硬件支持的數據類型

當前,前沿加速器正在將更低比特的計算單元,如 FP32、FP16,甚至 FP8 的運算集成到新一代的架構中。

然而,受限於芯片面積和高昂的硬件成本,每個加速器只能為標準的數據類型提供有限類型的計算單元,比如 NVIDIA V100 TENSOR CORE GPU 僅支持 FP16,而 A100 雖然加入了對 int2、int4、int8 的支持,但並未涵蓋更新的 FP8 或 OCP-MXFP 等數據格式。

此外,大模型的快速叠代與硬件升級的緩慢步伐之間存在差距,導致許多新數據類型無法得到硬件支持,進而影響大模型的加速和運行。

微軟亞洲研究院的研究員們發現,盡管硬件加速器缺乏針對自定義數據類型的計算指令,但其內存系統可以將它們轉換為固定位寬的不透明數據塊來存儲任意數據類型。

同時,大多數自定義數據類型可以無損地轉換為現有硬件計算單元支持的更多位的標準數據類型。例如,NF4 張量可以轉換成 FP16 或 FP32 以執行浮點運算。

基於這些發現,研究員們提出了一種通過分離數據存儲和計算來支持所有自定義數據類型的方法,並研發了數據編譯器 Ladder,以彌合不斷出現的自定義數據類型與當前硬件支持的固有精度格式之間的差距。

Ladder 定義了一套數據類型系統,包括數據類型之間無損轉換的抽象,它能夠表示算法和硬件支持的各種數據類型,並定義了數據類型之間的轉換規則。

當處理低比特算法應用時,Ladder 通過一系列優化,將低比特數據轉譯成當前硬件上最高效的執行格式,包括對計算和存儲的優化 —— 將算法映射到匹配的計算指令,並將不同格式的數據存儲到不同級別的存儲單元中,以實現最高效的運算。



圖 1:Ladder 的系統架構

在 NVIDIA A100、NVIDIA V100、NVIDIA RTX A6000、NVIDIA RTX 4090 和 AMD Instinct MI250 GPU 上運行的 DNN 推理性能評估顯示,Ladder 在原生支持數據類型上超越了現有最先進的 DNN 編譯器,並且在支持 GPU 原本不支持的自定義數據類型方面表現出色,最高提速可達 14.6 倍。

Ladder 是首個在現代硬件加速器上運行 DNN 時,可以系統性地支持以自定義數據類型表示低比特精度數據的系統。這為模型研究者提供了更靈活的數據類型優化方法,同時也讓硬件架構開發者在不改變硬件的情況下,支持更廣泛的數據類型。

T-MAC:無需乘法的通用低比特混合精度矩陣乘計算

為了讓現有硬件設備支持不同的數據模式和混合精度矩陣乘法,在端側部署大模型時,常見的做法是對低比特模型進行反量化。

然而,這種方法存在兩大問題:首先,從性能角度來看,反量化過程中的轉換開銷可能會抵消低比特量化帶來的性能提升;其次,從開發角度來看,開發者需要針對不同的混合精度重新設計數據布局和計算內核。

微軟亞洲研究院的研究員們認為,在設備上部署低比特量化的大模型,關鍵在於如何基於低比特的特點來突破傳統矩陣乘法的實現。

為此,研究員們從系統和算法層面提出了一種基於查找表(LUT,Look-Up Table)的方法 T-MAC,幫助低比特量化的大模型在 CPU 上實現高效推理。

T-MAC 的核心思想在於利用混合精度矩陣乘法的一端為極低比特(如 1 比特或 2 比特)的特點。它們的輸出結果只有 2 的 1 次方和 2 的 2 次方種可能,這些較少的輸出結果完全可以提前計算並存儲在表中,在運算時,只需從表中讀取結果,避免了重復計算,大幅減少了乘法和加法的運算次數。

具體而言,T-MAC 將傳統的以數據類型為中心的乘法轉變為基於位的查找表操作,實現了一種統一且可擴展的混合精度矩陣乘法解決方案,減小了表的大小並使其停留在最快的內存單元中,降低了隨機訪問表的成本。這一創新為在資源受限的邊緣設備上部署低比特量化大模型鋪平了道路。



圖 2:T-MAC 示意圖

在針對低比特量化的 Llama 和 1 比特的 BitNet 大語言模型的測試中,T-MAC 展現出了顯著的性能優勢。

在搭載了最新高通 Snapdragon X Elite 芯片組的 Surface Laptop 7 上,T-MAC 讓 3B BitNet-b1.58 模型的生成速率達到每秒 48 個 token,2bit 7B Llama 模型的生成速率達到每秒 30 個 token,4bit 7B Llama 模型的生成速率可達每秒 20 個 token,這些速率均遠超人類的平均閱讀速度。

與原始的 Llama.cpp 框架相比,其提升了 4 至 5 倍,甚至比專用的 NPU 加速器還快兩倍。

即使是在性能較低的設備上,如 Raspberry Pi(樹莓派)5,T-MAC 也能使 3B BitNet-b1.58 模型達到每秒 11 個 token 的生成速率。T-MAC 還具有顯著的功耗優勢,在資源受限的設備上可以達到相同的生成速率,而它所需的核心數僅為原始 Llama.cpp 的 1/4 至 1/6。

這些結果表明,T-MAC 提供了一種實用的解決方案,使得在使用通用 CPU 的邊緣設備上部署大語言模型更為高效,且無需依賴 GPU,讓大模型在資源受限的設備上也能高效運行,從而推動大模型在更廣泛的場景中的應用。

LUT Tensor Core:推動下一代硬件加速器原生支持混合精度矩陣乘法

T-MAC 和 Ladder 都是在現有 CPU 和 GPU 架構上,實現對混合精度矩陣乘法的優化支持。盡管這些軟件層面的創新顯著提升了計算效率,但它們在效率上仍無法與能夠直接實現一個專門查找表的硬件加速器相比。

研究員們認為,最理想的方法是重新設計硬件加速器,讓 CPU、GPU 等能夠原生支持混合精度矩陣乘法,但這一目標面臨三大挑戰:

    * 效率:設計和實現方式必須具有成本效益,通過優化芯片的利用面積,最大限度地提高低比特數據的計算效益。

    * 靈活性:由於不同的模型和場景需要不同的權重和激活精度,因此硬件中的混合精度矩陣乘法設計必須能夠處理各種權重精度 (如 int4/2/1) 和激活精度 (如 FP16/8、int8) 及其組合。

    * 兼容性:新設計必須與現有的 GPU 架構和軟件生態系統無縫集成,以加速新技術的應用。

為了應對這些挑戰,微軟亞洲研究院的研究員們設計了LUT Tensor Core,這是一種利用查找表直接執行混合精度矩陣乘法的 GPU Tensor Core 微架構。

一方面,基於查找表的設計將乘法運算簡化為表預計算操作,可直接在表中查找結果,提高計算效率。另一方面,這種方法也簡化了對硬件的需求,它只需用於表存儲的寄存器和用於查找的多路選擇器,無需乘法器和加法器。同時,LUT Tensor Core 通過比特串行設計實現了權重精度的靈活性,並利用表量化實現了激活精度的靈活性。

此外,為了與現有 GPU 微架構和軟件堆棧集成,研究員們擴展了 GPU 中現有的 MMA 指令集,加入了一組 LMMA 指令,並設計了一個類似於 cuBLAS 的軟件堆棧,用於集成到現有的 DNN 框架中。

研究員們還設計了一個編譯器,用於在具有 LUT Tensor Core 的 GPU 上進行端到端的執行計劃。這些創新方法可以讓 LUT Tensor Core 被無縫、快速地采用。



圖 3:LUT Tensor Core 微架構概述

在 Llama 和 BitNet 模型上的測試顯示,LUT Tensor Core 可以提供高達 6.93 倍的推理速度,且只占傳統 Tensor Core 面積的 38.7%。在幾乎相同的模型精度下,這相當於 20.7 倍的計算密度和 19.1 倍的能效提升。

隨著人工智能大模型規模和復雜性的不斷增長,LUT Tensor Core 有助於進一步釋放低比特大語言模型的潛力,推動人工智能在新場景中的應用。

「查找表方法引領了計算範式的轉變。在過去,我們依賴於矩陣乘法和累加運算,而在大模型時代,得益於低比特量化技術,查找表方法將成為主流。

相較於傳統的浮點運算或矩陣乘法,查找表方法在計算上更輕便高效,而且在硬件層面上更易於擴展,能夠實現更高的晶體管密度,在單位芯片面積上提供更大的吞吐量,從而推動硬件架構的革新。」 微軟亞洲研究院首席研究員曹婷表示。

低比特量化的長尾效應:為具身智能帶來新可能

低比特量化技術不僅優化了大模型在端側設備上的運行效率,還通過減少單個參數的 「體積」,為模型參數的擴展(Scale up)提供了新的空間。這種參數擴展能力,使模型擁有了更強的靈活性和表達能力,正如 BitNet 模型所展示的,從低比特模型出發,逐步擴展至更大規模的訓練。

微軟亞洲研究院的 T-MAC、Ladder 和 LUT Tensor Core 等創新技術,為各種低比特量化大模型提供了高效能的運行方案,使得這些模型能夠在各種設備上高效運行,並推動科研人員從低比特角度設計和優化大模型。

其中部分技術已經在微軟必應(Bing)搜索及其廣告業務等搜索大模型中發揮作用。隨著對內存和計算資源的降低,低比特大模型在機器人等具身智能系統上的部署也將成為可能,可以使這些設備更好地實現與環境的動態感知和實時交互。

目前,T-MAC 和 Ladder 已經在 GitHub 上開源,歡迎相關研發人員測試應用,與微軟亞洲研究院共同探索人工智能技術的更多可能。---來源: 機器之心Pro-