大模型out了,小模型(SLM)爆火,撕開99%企業市場?
對於獵豹移動CEO傅盛來說,他今年最呼籲的一件事情,正在成為潮流——小模型逐漸成熟,成為企業落地商業化主力軍,這令他十分開心。
可能很多人會困惑,大模型(LLM)正火的當下,什麽是小模型(SLM)?目前,市場通常將參數規模遠少於GPT-4或Llama-13B的千億大語言模型,一般參數只有1.5B、3B、7B的模型稱為小大模型。
要說小模型現在有多火,僅僅7月下半月,4家科技公司紛紛推出自己的小模型。
Hugging Face 推出了高性能的小型語言模型 SmoLLM,包括 135M、360M 和 1.7B,能夠直接在瀏覽器中運行; OpenAI 緊隨其後發布了GPT-4o mini,直接讓GPT-3.5 Turbo成為歷史; Mistral AI 與英偉達合作推出了擁有 12 億參數的 Mistral Nemo,多語言支持、128K 上下文,性能優於L3 8B和Gemma 2 9B; 蘋果也不甘示弱,發布了70億參數的小模型 DCLM-7B,並立即將其全部開源。
如果將時間線再往前推到今年上半年,可以發現小模型市場早已經開始「神仙打架「,比如微軟4月發布了Phi-3、谷歌2月發布了Gemma-7B等。
半年6款知名的小模型發布,行業掛起了小模型的旋風。
而此前國內小模型的忠實擁躉,可能只有獵豹移動和面壁智能。不同於其他大廠有大小系列模型覆蓋,2023年獵豹直接發布了中小模型Orion-14B,應用於企業私有化模型落地。
盡管小模型市場競爭不激烈,但前趕集網技術總監、小晨科技創始人 蒯義剛告訴鯨哥:企業部署私有大模型,服務的海外客戶最常見的模型是GPT-3.5 turbo,國內的百度文心多一些。
現在情況大變,無論GPT3.5還是GPT-4,已經成企業市場的「舊愛」了,這些參數小能力大的小模型憑借超高性價比,一時成為市場的新寵。2024年會成為SLM元年嗎?
* 參數不如大模型,小模型憑啥火了?
在Scaling Law(尺度定律)的信仰下,一直向著萬億大模型進軍的科技巨頭們,紛紛轉向了小模型賽道,在市場看來可能有3大原因:
* 第一大原因就是大模型實在太貴了。
* 對於開發者而言,訓練大模型和燒錢無異。 蒯義剛就說道:「好的大模型也十分貴,GPT-4的使用成本是GPT-3.5的10倍。 」
最先進的大模型,這麽貴的原因,首當其沖的就是硬件訓練成本,GPU、TPU和CPU集群都是基本軍備。前有OpenAI用了25,000塊A100芯片訓練GPT-4,後有馬斯克宣布要用10萬塊H100組成超級AI訓練集群。其次就是能源消耗,有數據顯示,全美AI數據中心的耗電量足以點亮整個紐約市。此外,人力成本、訓練數據成本也都是一筆不小的開銷。
而隨著模型的參數數量呈指數級增長,訓練成本也在急劇上升。Anthropic首席執行官Dario Amodei在一檔播客節目中表示,目前正在開發的人工智能模型的訓練成本高達10億美元。但未來三年AI模型的訓練成本將上升到100億美元甚至1000億美元。至於GPT-4o「僅僅1億美元的開發成本,已經不值一提。
主流AI模型的訓練和推理成本
這種成本上的巨大負擔,讓巨頭們紛紛放下參數執念,投身小模型。
小語言模型可以理解是大語言模型的濃縮版本,參數更少,設計更精煉,自然需要更少的數據、訓練時間以及硬件成本。
比如可能僅僅聚焦於法律問題上的小模型,參數不到100億,那它的訓練成本往往可能不到1000萬美元。
而且小模型的性價比不僅體現在訓練端,對於用戶來說也是如此。
由於小模型訓練成本低、並且在相應過程中消耗的算力更少,因此小模型的使用價格也顯得更加親民可人。
目前OpenAI的GPT-4o的百萬Tokens輸入和輸出價格分別是5美元和15美元,而GPT-4o mini的百萬Tokens輸入價格僅為15美分,輸出價格僅為60美分,價格速降了96%~97%。
從Artificial Analysis的統計中可以清晰看到大模型與小模型的成本差距。OpenAI CEO 山姆奧特曼對此的形容是:通往智能的成本已經「too cheap to meter」(便宜到無法計量 )。
第二,除了便宜,小模型的性能也已經拉滿。
最新發布的GPT-4o mini,在lmsys(測評榜單)的較量中展現出了超強實力,不僅與GPT-4o的滿血版本並列榜首,還將Claude 3.5等強勁對手甩在身後。
lmsys的排名機製是由用戶自主出題,隨機抽取兩個模型進行一對一的較量。這種機製有效防止了模型通過「刷題」來獲得虛高的評分,主打一個真實。
分數不代表一切,實際使用體驗也是效果不錯。
據OpenAI公布的案例顯示,GPT-4o mini已與Ramp和超人等公司進行了合作,反饋發現在執行從收據文件中提取結構化數據,或在提供線程歷史記錄時,生成高質量電子郵件響應等任務時,GPT-4o mini的表現明顯優於GPT-3.5 Turbo。
更令人期待的是,GPT-4o mini 的API 現已支持文本(且大幅改善了非英文的效率)和視覺,未來還將支持文本、圖像、視頻和音頻輸入和輸出。
不僅是GPT-4o mini,其他幾家的小模型也是爭奇鬥艷。
主流小模型價格能力評價
被譽為「歐洲版 OpenAI」的 Mistral AI 旗下小模型Mistral NeMo,從整體性能上也在多項基準測試中,擊敗了Gemma 2 9B和Llama 3 8B。並且該模型專為全球多語言應用而設計,在英語、法語、德語、葡萄牙語、中文方面等方面表現尤為突出。
而蘋果這次推出DCLM-7B 模型,在MMLU基準上的5-shot準確率達到了64%,與Mistral-7B和Llama 3 8B不相上下,但計算量只有後者的六分之一。在53個自然語言理解任務上,它的平均表現也可以與Llama 3 8B相媲美。
此外,蘋果這波格局了一把。不僅模型本身開源,連訓練數據集都一並公開,讓人們可以完整復現他們的工作。
第三、小模型除了性價比杠杠的,也憑借著小巧的身姿進入了更多的應用場景。
大模型在使用場景上有很多局限。比如智能手機、物聯網設備等邊緣設備,通常具有有限的計算能力和存儲空間,無法承載大型語言模型,而這時候小模型則可以完美嵌入。
又比如在對實時性有嚴格要求的應用領域,例如實時圖像分析、語音識別和動態推薦系統,小模型由於參數少,能夠迅速地進行推理,以極短的延遲滿足用戶的即時需求。
* 性價比超高,為何小模型現在才爆?
小模型有這麽多優點,為什麽巨頭們現在才開始「真香」反轉呢?
Open AI的產品主管Olivier Godement解釋,這單純是「純粹的優先級」問題。之前公司專註於GPT-4這類大模型上,隨著時間的推移,OpenAI才關註到開發者對於小模型的需求。
但也有觀點認為,大模型是通往小模型的必經之路。
大型模型的訓練就像是海綿吸水,盡可能把所有數據、信息囊括其中。而這樣做,有利有弊。大型模型在海量數據的依托下,能夠更好、更準確的處理新新任務,但同樣也可能因為學的太雜,而出現不同知識的重疊、混合和沖突。
而小模型則是站在大模型的肩膀上進一步優化。小模型接收的數據,則是由超大模型進行清洗的高質量數據。比如對於GPT-4o mini進行訓練的數據,就是由GPT-4進行清洗的。
而這種先做大模型,再進一步瘦身的訓練模式正在成為新趨勢。科技巨頭們對於不再一味求大,而是求精。
在2023年4月,OpenAI的首席執行官Sam Altman宣布了大型AI模型時代的結束。他指出,數據質量是AI訓練的關鍵成功因素,並且認為關鍵問題是人工智能系統如何從更少的數據中學到更多的東西。而這個觀點也得到微軟、Hugging Face等其他玩家的認可。
而這種不斷精簡優化的過程則會不斷形成正循環。每一代模型都會幫助生成下一代的訓練數據,直到獲得「完美的訓練集」。
未來,和階梯式上升的小模型質量形成對比的,則是不斷下降的小模型價格。
傅盛曾在WAIC中說道,「千億參數大模型一年私有化授權費用就是幾千萬,到今天應該還是,然後私有化部署以後,買服務器的費用最低成本160萬(當時的價格)」。
大模型太貴了。 蒯義剛也和AI鯨選社說道,他們現在私有化部署一般是四五十萬,為了成本考量幾乎不太做微調。他們作為落地服務商沒有賺太多,大頭還是大模型企業的授權費用。
現在企業使用大模型成本可能會大幅降低了。AI Grant 的兩位合夥人 Daniel Gross 和 Nat Friedman在訪談中, LLM成本在質量不變差的情況下,每年可以降低 90% 的情況。
OpenAI也確實基本在證明了這件事。OpenAI 基本是以每 3 個月作為一個周期,總會有其中至少一個模型成本下降 60% ,或者成本下降至少 60% 的情況下,質量還更高了。而一個模型基本上一年會經歷兩次的降本增效,每次降低 60%,兩次過後就剛好是比之前降低了 90% 左右。
GPT-4o mini就是這種邏輯的成果體現。而且隨著高質量數據集以及訓練方式的改進,這些小模型有些能力甚至更突出。
正如 AI Grant 所說,沒理由認為更小的模型不會有更好的表現。「最近這些 9B 的模型已經震撼到我們了,沒有任何數學證明 3B 做不到同樣的效果。如果 3B 做到了,沒理由不運行在本地,那麽那時候除了一些電耗問題外,我們更多的肯定是在做本地處理 + 雲端模型的路由。」
換言之,未來將不斷湧現越來越多更精簡、更高效、更便宜的小模型。未來就像OpenAI創始成員及研究科學家Andrej Karpathy所發言,未來大模型的尺寸競爭趨勢即將逆轉,尺寸競爭正在倒退。
* 企業落地 最愛,小模型加速商業化
「企業專用大模型,百億參數就夠了。」是傅盛過去一年經常說的話。
但實際上,2023年將小模型向垂直方向微調,打造出媲美大模型的效果,效果並沒有那麽好,百億參數沒那麽夠。
但現在情況不一樣了,gpt-4o-mini 在很多場景中不用微調,都不比Chat-4 turbo差。
有AI創業者反饋:「gpt-4o-mini 的效果真的不錯。首先是速度非常快,比 4o 快多了,幾乎不需要等待,就可以讀取結果了。其次是實際的表現,GPT-4o-mini 目前僅在復雜場景中還需借力,只有比較復雜一點的編程沒有搞定。「日常的需要搜索引擎+blog 或者教程才能解決的任務,基本GPT-4o-mini 都可以完成的不錯。」
在大模型的托舉之下,小模型正在用更加輕盈的姿態落地。HuggingFace CEO Clem Delangue 甚至指出,多達 99% 的使用場景可以通過 SLM 來解決,並預測 2024 年將是 SLM 元年。
蒯義剛說道,最近有家此前做了醫療和房地產領域的客戶,都是用的大模型。4o-mini發布那天,他看了下資料,比GPT-3.5 Turbo更好的性能,更長的輸出,多模態支持 ,更低的費用,以及更好的非英語語言的支持,感覺是天賜的好模型。
「最近談的一個招聘客戶,預計就是使用4o-mini。」生意預計會好做,也讓他的笑聲多了起來。
但他也提到,看行業分析,未來大模型、小模型會相輔相成落地企業的部署。
這意味著模型生態向著流動、精準進一步發展。而從使用場景上,大模型、小模型也將分工明確。
大模型將繼續在需要廣泛知識基礎和高級認知能力的領域中發揮其核心作用;而小模型則以其輕巧的身形和高效的性能,在成本敏感、對響應時間有嚴格要求的應用場景中大放異彩。
正如Forrester Research的資深AI分析師Rowan Curran所比喻:「並非時刻都需要跑車,有時一輛小型貨車或皮卡車更為合適。未來的模型應用不會單一,而是根據不同需求選擇最適宜的工具。」
甚至,未來大、小模型之間會出現任務的上下級協作。
DeepMind、普林斯頓大學和斯坦福大學的研究人員近日提出了一項名為 LATM(LLMs As Tool Makers)的創新框架,即讓大型語言模型生成自己的軟件工具來處理新任務。
它帶來了一種全新的大、小模型的分工形式。即將需要具備高強度算力才能實現的工具製造過程可以分配給功能強大、資源密集型的模型,例如 GPT-4;而將相對簡單的使用工具過程分配給輕量級、經濟高效的模型,也就是小模型。這種模式既節省成本又保證性能。
如今市場上,99%的企業實際上還沒有部署大模型進業務,小模型風靡後,輔以大模型托底,這一巨大的市場會不會在2024年被撕開?---(文: AI鯨選社/來源: 鈦媒體)