拿CPU搞AI推理，誰給你的底氣？

2024032812:21

大模型的訓練階段我們選擇GPU，但到了推理階段，我們果斷把CPU加到了菜單上。

量子位在近期與衆多行業人士交流過程中發現，他們中有很多人紛紛開始傳遞出上述的這種觀點。

無獨有偶，Hugging Face在官方優化教程中，也有數篇文章劍指“如何用CPU高效推理大模型”：

而且細品教程內容後不難發現，這種用CPU加速推理的方法，所涵蓋的不僅僅是大語言模型，更是涉獵到了圖像、音頻等形式的多模態大模型。

不僅如此，就連主流的框架和庫，例如TensorFlow和PyTorch等，也一直在不斷優化，提供針對CPU的優化、高效推理版本。

就這樣，在GPU及其他專用加速芯片一統AI訓練天下的時候，CPU在推理，包括大模型推理這件事上似乎辟出了一條“蹊徑”，而且與之相關的討論熱度居然也逐漸高了起來。

至于爲什麽會出現這樣的情況，與大模型的發展趨勢可謂是緊密相關。

自從ChatGPT問世引爆了AIGC，國內外玩家先是以訓練爲主，呈現出一片好不熱鬧的百模大戰；然而當訓練階段完畢，各大模型便紛紛踏至應用階段。

就連英偉達在公布的最新季度財報中也表示，180億美元數據中心收入，AI推理已占四成。

由此可見，推理逐漸成爲大模型進程，尤其是落地進程中的主旋律。

爲什麽Pick CPU做推理？

要回答這個問題，我們不妨先從效果來倒推，看看已經部署了CPU來做AI推理的“玩家”用得如何。

有請兩位重量級選手——京東雲和英特爾。

今年，京東雲推出了搭載第五代英特爾® 至強® 可擴展處理器的新一代服務器。

首先來看這款新服務器搭載的CPU。

若是用一句話來形容這個最新一代的英特爾® 至強® 可擴展處理器，或許就是AI味道越發得濃厚——

與使用相同內置AI加速技術（AMX，高級矩陣擴展）的前一代，也就是第四代至強® 可擴展處理器相比，它深度學習實時推理性能提升高達42%；與內置上一代AI加速技術（DL-Boost，深度學習加速）、隔輩兒的第三代至強® 可擴展處理器相比，AI推理性能更是最高提升至14倍。

到這裏，我們就要詳細說說英特爾® 至強® 內置AI加速器經曆的兩個階段了：

第一階段，針對矢量運算優化。

從2017年第一代至強® 可擴展處理器引入高級矢量擴展 512（英特爾® AVX-512）指令集開始，讓矢量運算利用單條CPU指令就能執行多個數據運算。

再到第二代和第三代的矢量神經網絡指令 (VNNI，是DL-Boost的核心)，進一步把乘積累加運算的三條單獨指令合並，進一步提升計算資源的利用率，同時更好地利用高速緩存，避免了潛在的帶寬瓶頸。

第二階段，也就是現階段，針對矩陣運算優化。

所以從第四代至強® 可擴展處理器開始，內置AI加速技術的主角換成了英特爾® 高級矩陣擴展（英特爾® AMX）。它特別針對深度學習模型最常見的矩陣乘法運算優化，支持BF16（訓練/推理）和INT8（推理）等常見數據類型。

英特爾® AMX主要由兩個組件組成：專用的Tile寄存器存儲大量數據，配合TMUL加速引擎執行矩陣乘法運算。有人把它比作內置在CPU裏的Tensor Core，嗯，確實很形象。

這麽一搞，它不僅做到在單個操作中計算更大的矩陣，還保證了可擴展性和可伸縮性。

英特爾® AMX在至強® CPU每個內核上並靠近系統內存，這樣一來可減少數據傳輸延遲、提高數據傳輸帶寬，實際使用上的複雜性也降低了。

例如現在若是將不超過200億參數的模型“投喂”給第五代至強® 可擴展處理器，那麽時延將低到不超過100毫秒！

其次再看新一代京東雲服務器。

據介紹，京東與英特爾聯合定制優化的第五代英特爾® 至強® 可擴展處理器的Llama2-13B推理性能(Token 生成速度)提升了 51%，足以滿足問答、客服和文檔總結等多種AI場景的需求場景。

△Llama2-13B推理性能測試數據

對于更高參數模型，甚至是70B Llama2, 第五代英特爾® 至強® 可擴展處理器仍可勝任勝任。

由此可見，CPU內置AI加速器發展到現在，用于推理已能保證在性能上足夠應對實戰需求了。

像這樣建立在通用服務器基礎上的AI加速方案，除了可用于模型推理之外,還能靈活滿足數據分析、機器學習等應用的需求，誇張點說，一個服務器就能完成AI應用的平台化和全流程支持。

不僅如此，用CPU做AI推理，也存在CPU與生俱來的優勢，例如成本，還有更爲重要的——部署和實踐的效率。

因爲它本身就是計算機的標准組件，幾乎所有的服務器和計算機都配備了CPU，傳統業務中也已然存在大量的基于CPU的現成應用。

這意味著選擇CPU進行推理，既容易獲取，也不需要導入異構硬件平台的設計或具備相關的人才儲備，還更容易獲得技術支持和維護。

以醫療行業爲例，過去CPU已廣泛用于電子病曆系統、醫院資源規劃系統等，培養出成熟的技術團隊，也建立了完善的采購流程。

以此爲基礎，醫療信息化龍頭企業衛甯健康，就利用CPU構建了能夠高效、低成本部署和應用的WiNEX Copilot落地方案，這個方案已深度集成到衛甯新一代的WiNEX産品中，任何一家已采用該系統的醫院，都能迅速上崗這種“醫生AI助手”。

僅其一項病曆文書助手功能，就可以在8小時內，也就是在醫生下班後的時間裏處理近6000份病曆，相當于三甲醫院12位醫生一天工作量的總和！

而且也正如我們剛才所提到的，從Hugging Face所提供的優化教程來看，只需要簡單的幾步，就可以讓CPU快速部署用于高效推理。

優化簡單、上手快，便是CPU真正在AI應用落地過程中的又雙叒一個優勢了。

這意味著任何或大或小的場景中，只要基于CPU的優化實現了一個單點的成功突破，那麽它很快就可以實現精准且快速的複制或擴展，結果就是：能讓更多用戶能在相同或相近的場景中，以更快的速度、更優的成本把AI應用落到實地。

畢竟英特爾不僅是一家硬件公司，同時也擁有著龐大的軟件團隊。在傳統深度學習時代就積累了大量優化方法和工具，如OpenVINO™ 工具包就在工業、零售等行業廣泛應用。

到了大模型時代，英特爾也深入與主流大模型如Llama 2、Baichuan、Qwen等深度合作，以英特爾® Extension for Transformer工具包爲例，它就能讓大模型推理性能加速達40倍。

加之現在大模型所呈現的明顯趨勢就是越發地開始卷應用，如何能讓層出不窮的新應用“快好省”地落下去、用起來成了關鍵中的關鍵。

因此，爲什麽越來越多的人會選擇CPU做AI推理，也就不難理解了。

或許，我們還可以再引用一下英特爾CEO帕特·基辛格2023年底接受媒體訪問時所說的話，來鞏固一下各位的印象：

“從經濟學的角度看推理應用的話，我不會打造一個需要花費四萬美元的全是H100的後台環境，因爲它耗電太多，並且需要構建新的管理和安全模型，以及新的IT基礎設施。”

“如果我能在標准版的英特爾芯片上運行這些模型，就不會出現這些問題。”

AI Everywhere

回看2023年，大模型本身是AI圈絕對的話題中心。

但2024年剛開始，明顯能感覺到的趨勢就是各類技術進展，各行業應用落地進展都在加快，呈現一種“多點開花”的局面。

在這種局面下，可以預見的是還將有更多AI推理需求湧現，推理算力在整個AI算力需求中所占的比例只會增加。

比如以Sora爲代表的AI視頻生成，業內推測其訓練算力需求其實比大模型少，但推理算力需求卻是大模型的成百上千倍。

而AI視頻應用落地需要的視頻傳輸等其他加速優化，也是CPU的拿手好戲。

所以綜合來看，CPU在整個英特爾AI Everywhere願景下的定位也就明確了：

補足GPU或專用加速器覆蓋不到或不足的地方，爲更多樣和複雜的場景提供靈活的算力選擇，在強化通用計算的同時，成爲AI普及的重要基礎設施。

最後讓我們打個小廣告：爲了科普CPU在AI推理新時代的玩法，量子位開設了《最“in”AI》專欄，將從技術科普、行業案例、實戰優化等多個角度全面解讀。

我們希望通過這個專欄，讓更多的人了解CPU在AI推理加速，甚至是整個AI平台或全流程加速上的實踐成果，重點就是如何更好地利用CPU來提升大模型應用的性能和效率。

這次我們以CPU內置的AI加速引擎爲核心，介紹了CPU在AI推理中的應用價值與潛力。

而上一期，我們介紹了除直接加速AI推理之外，CPU身上還有哪些特性與能力，能讓它成爲AI應用落地或推理時代不可或缺的力量。---[金磊夢晨發自 : 凹非寺*量子位 : 公衆號 QbitAI/來源: 量子位 ]

https://www.intel.cn/content/www/cn/zh/events/accelerate-with-xeon.html?cid=soc&source=Wechat&article_id=5326#introtext_1036911030_818293015

參考鏈接：
[1]https://huggingface.co/docs/transformers/v4.34.0/en/perf_infer_cpu
[2]https://huggingface.co/docs/transformers/en/perf_infer_cpu
[3]https://mp.weixin.qq.com/s/85FopWzLOVi5a8x5AocYlw
[4]https://developer.aliyun.com/article/1424070?spm=5176.26934562.main.2.4a33333aPN4UBS

我要留言

拿CPU搞AI推理，誰給你的底氣？

8天美國行，走進MIT人工智能實驗室、Brainco、西點軍校

在傳統與現代之間

8天美國行，走進MIT人工智能實驗室、Brainco、西點軍校

在傳統與現代之間