把大模型裝進手機,總共分幾步?
年初ChatGPT爆火的時候,我去上海參加華爲春季新品發布會,用一頁keynote提到了大模型技術與手機硬件的結合。雖然只有短短的一兩分鍾,但我專門發了一條朋友圈,看好自然語言交互能力在手機上的應用。
當時我就有預感,大語言模型跟手機結合,應該會很快。
時間拉回到現在,蘋果、三星,以及“華米OV”國産手機廠商,都先後宣布了落地大模型。對手機來說,有沒有大模型,已經不是一道選擇題了,而是一道必答題。
提起這段故事,不是想說我們預判有多准,做科技觀察不是玄學算命,一切都是有規律可循的。2023即將尾聲,但大模型手機的熱鬧方興未艾,是時候總結性地聊一聊,手機和大模型結合的深層邏輯,目前各家的差異化打法和挑戰是什麽,以及未來會如何發展。
2023,手機大模型的基建元年
首先有必要解釋一下,爲什麽我們會預判,大模型與手機的結合,是一種必然?
了解手機市場近況的讀者應該知道,在輝煌了十余年之後,移動智能終端已經陷入了某種瓶頸,增長低迷、缺少亮點,廠商創新如同擠牙膏,開發者巧婦難爲無米之炊,可施展的創意空間有限。與此同時,一個用戶身邊至少環繞著三四個移動設備,每天要爲繁瑣交互,付出大量的隱形勞動,甚至有人不勝其煩,開始嘗試“數字戒斷”。
可以說,移動數字服務的供需雙方,都在期待一種新的變革技術,可以讓移動智能終端生態化繁爲簡、重塑體驗。而在今天的技術世界中,大模型是最佳選項。
大語言模型的強大理解和生成能力,各種功能用同一個模型基座和自然語言交互來獲取,可以改變手機的多個基本能力,說是重新定義手機,也不爲過。
讓大模型跑在手機上,成了手機廠商的必爭之地,開發者所需要的機會窗口,也是重新點燃用戶熱情的一種必然選項。
大家今年都聽說了“百模大戰”,但跟主要在雲端訓練、web調用的通用大語言模型不同,高度集成化的手機,端側算力、OS操作系統、應用並發、UI交互等一系列軟硬件,都有自身的特性,也給大模型落地帶來了不少限制。
結合華米OV等頭部廠商的行動方略來看,我們預判,2023將是手機大模型的基建元年。
大模型落地手機,基建工程剛剛開始,後面會有更多好戲可看。具體來說,廠商必須搞定:
1.三座基建。
2.一個入口。
3.一群人。
我們就從這三個層面,來看看目前,各家的情況都怎麽樣?有哪些共同挑戰和差異化思路?
第一步 端側部署,三個基建
大語言模型的參數量動辄百億、千億,其訓練和推理過程,需要耗費大量計算資源,對于手機這樣的移動智能終端來說,SoC芯片的算力是遠遠達不到數據中心萬卡集群的規模的,怎麽支撐大模型的端側運算呢?
就算勉強帶起來了,大模型占據過多的手機工作內存,搶占其他應用的資源,會不會出現卡頓或快速掉電?
本地計算不足,引入雲計算又會産生很多問題,比如大模型在雲上分析處理個人數據,會不會暴露我的隱私啊?
要在端側部署,手機和大模型都要進行一番改造。
首先,模型層。
目前主要有兩條路線。
一是把大模型做小,也就是在端側引入輕量級大模型,通過量化、剪枝、蒸餾等壓縮技術,調整模型結構和參數大小,以適配端側芯片的內存和算力特點,沒網也能用,以榮耀、小米爲代表。
榮耀Magic6搭載的,是自研的7B端側AI大模型(即70億參數規模),雷軍在2023年度演講宣布“小米全面擁抱大模型”,主攻的是輕量化和本地部署,目前訓練出1.3B和6B參數規模的大模型。
二是把大模型做多,提供不同參數量級的大模型,來支撐不同場景、不同任務,雲端協同,以vivo、OPPO爲代表。
11月vivo發布的自研AI大模型矩陣,其中包括十億、百億、千億三個不同參數量級的5款大模型。其中,10億量級模型是主要面向端側場景打造的專業文本大模型,70億模型是面向手機打造的端雲兩用模型,700億模型是面向雲端服務的主力模型。
同樣采用矩陣方式的,還有OPPO的安第斯大模型(AndesGPT),包括從10 億至千億多種不同參數規模的模型。
我在VDC大會,實地體驗了基于藍心大模型的“vivo看見”,可以在完全沒有網絡的情況下,爲視障群體提供物品實時識別,辨認出植物、二維碼、公交卡等物體,響應很及時,手機的發熱和續航也在可接受範圍內,確實能解決視障群體出行在外時感知外界環境的實際需求。
這個功能讓我很受觸動,還特地發了條朋友圈分享。
不過,産品人員也直言,這種完全斷網、本地計算的大模型應用,對手機芯片的性能要求很高,目前只能在部分旗艦機型上落地。
其次,芯片層。
大模型再小,也是“大”模型,一味壓縮可能會降低模型性能和輸出質量,導致識別精准度、生成內容下降。所以,大模型落地,硬件的升級,尤其是手機移動芯片,是必不可少的先決條件。
根據目前得到的信息,vivo和聯發科、高通等都有聯合研發合作,來加速優化手機端側的AI推理性能,小米也透露,再跟芯片公司(高通和聯發科)共同推動端側大模型的落地。此外,今年麒麟芯片回歸,與華爲鴻蒙操作系統、盤古大模型可以實現深度的協同優化。
必須承認,大模型應用才剛剛開始,與移動芯片的協同調校也才邁出了第一步,未來手機要承載視頻、圖像類AIGC任務,絕大多數用戶應該是都不願意上傳到雲端的,所以本地AI計算硬件的優化調校,接下來會是手機廠商的競爭力之一。
然後,系統層。
最終,高效可用的大模型應用,一定是端雲協同的,來兼顧體驗與隱私。這就帶來了一些問題,比如數據和業務上雲,如何保障用戶的隱私和數據安全?基于大模型的AI應用,是否會影響手機性能、續航等使用感?要解決這個問題,必須從底層操作系統上下功夫。
其中,華爲旗艦手機通過HarmonyOS 4系統接入盤古大模型,鴻蒙系統作爲底層源代碼全部自己寫出來的OS,加上微內核架構,將核心的操作系統服務和安全服務分離,以及安全芯片和隔離技術,從軟硬件全方位的安全保障機制。
此外,OPPO的ColorOS,小米澎湃OS,vivo藍心大模型與其手機系統OriginOS 4,也都成爲自研大模型的落地土壤。
而大模型能否與操作系統深度融合,以及操作系統自身的流暢、安全、智能,決定了大模型後續表現的關鍵。
據vivo的一位工作人員分享,除了基座模型本身的性能質量之外,大量的工程化細節也是必不可少的。要讓操作系統快速執行用戶的指令,不僅需要大模型對輸入的語音/文本,通過思維鏈進行目標拆解,而且需要大模型深入理解手機技能,對幾百個技能進行智能編排,自動選擇和調用相應的API,這樣才能自動執行複雜任務,把複雜留給自己,把簡單交給用戶。
不難看出,底層模型、芯片、操作系統,是大模型端側部署,必不可少的三座基礎設施。同時也應該看到,下一階段的手機市場,是高技術、高難度、高投入、高風險的,需要紮紮實實的“硬功夫”,競爭將變得嚴酷,玩家也會變得更少。
第二步 觸達用戶,一個入口
大模型火了一整年,大廠、媒體和創業者心心念念的超越ChatGPT、對標GPT4,到了普通讀者那裏,似乎還是不明就裏:大模型究竟怎麽改變我的生活呢?
那麽,把智能手機變成“阿拉丁神燈”怎麽樣?
看過童話故事的讀者知道,燈中乾坤大,藏著無數資源和寶藏,但不需要阿拉丁費心琢磨,他只需要說出願望,都有“燈神”爲他將一切事務安排妥當。大模型的理解、創造能力,賦能給手機語音助手,就將它們變成了一個個“燈神”。
接入大模型能力的語音助手,是手機廠商觸達用戶的直接路徑。
目前來看,大模型到手機,就幹三件事:一是利用大語言模型的自然對話能力,改變終端交互體驗;二是利用大模型的理解能力,提供個性化的服務,熟悉用戶的日常偏好、習慣,更懂用戶;三是借助大模型的創造能力,進行摘要提取、文案生成、圖像制作,提高生産力……
而上述能力,基本都是通過語音助手來一步直達的。
比如華爲的智慧助手小藝,接入盤古大模型的底層能力,在智慧交互、高效生産力提升和個性化服務三個方向上獲得增強。
vivo藍心大模型與手機系統OriginOS 4結合,打造了首款全局智能輔助“藍心小V”,可以通過自然交流,幫用戶完成很多複雜任務,化繁爲簡。
基于OPPO安第斯大模型的新小布助手,以及升級了小米AI大模型的小愛同學,也都上線了測試版、體驗版。
萬物智聯時代,智能終端用戶會面臨設備大爆炸、信息大爆炸、服務大爆炸,如果一切都需要用戶自己進行查找,猶如大海撈針,這對每一個人的耐心、時間、數字信息素養等,都提出了很高的要求。而大模型與智能助手的融合,就是解藥。
智能助手可以調度手機、耳機、汽車、平板、智慧屏、電腦PC、智能家居等物聯網設備,是用戶和AIoT之間的最短路徑。
而依靠大模型的加持,智能助手的分析理解能力、知識水平、記憶水平、生成能力,都大大得到了提升,讓手機廠商說了多年的“千人千機”真的可實現、可感知。
但很長一段時間以來,用戶並沒有覺得智能助手是不可或缺的,有的人還會覺得跟智能助手對話很尴尬、人工智障等,甚至覺得有點雞肋。
毫不誇張地說,大模型好不好用,普通用戶不一定關心,但智能助手好不好用,一句對話就能試出差距,將是接下來手機廠商的競爭焦點。
總結一下,僅有大模型還不夠,智能助手才是觸達用戶的最短路徑,也是手機廠商的必爭之地。
第三步 應用繁榮,一群開發者
在手機和用戶已經具備了接入大模型的前提條件之後,下一步就是如何讓開發者真正走入大模型的世界。
今天,在華爲、vivo、OPPO等廠商的發布會上,我看到的基于大模型的AI應用已經不少,但都偏向于示範,比如自然語言的智慧搜索、一句話生成圖像、AI作曲等。這些功能對于大衆用戶來說,還是太過于基礎了。
就拿火爆的AIGC應用來說,生成最美證件照、爲寵物作畫、制作漫畫頭像、寫一段小紅薯分享文案、賽博菩薩、拍圖做數學題、生成智能手表壁紙……都是需求極爲細分的。手機廠商不能,也不應該,將這些AI應用都全部自己幹了,這就必須引入千千萬萬開發者,去發揮創意,去基于大模型做無數小而美的AI應用。
但是,從開發端到市場端,大模型AI應用的路看似很有誘惑力,但對于開發者來說,還是面臨著技術、學習成本、市場壓力等各種顧慮,需要廠商強有力的技術體系、工具平台、賦能方案以及商業勢能的加持。
目前,我們能看到幾種生態策略:
鴻蒙的技術之路。爲全場景智慧的市場空間,以及鴻蒙分布式系統的産業容納能力,對開發者的吸引力還是很大的。華爲已經准備開啓全新的HarmonyOS NEXT,全面啓動鴻蒙原生應用。
vivo的開源之路。Vivo走上了一條開源共建之路,70億藍心大模型成爲業界首個中文開源大模型,開源的好處是可以吸引群體智慧,更適合在技術探索期,進行廣泛、不設邊界的探索,從而催生出更多更新更好的創意應用。vivo也發布了對應的微調框架以及大模型開發套件BlueKit,爲開發者提供全方位的支持。
OPPO的夥伴之路。此前OPPO公布了2023 OPPO開發者大會的內容前瞻,其中潘塔納爾系統能力向開發者全面開放,支持一次開發、多形態多模態多入口的快速適配,並提供相應的工具資源,幫助開發者快速接入泛在服務,吸引更多合作夥伴來提供多元化的智能服務。
可以肯定,接下來大模型越來越多、手機基礎軟硬件逐步成熟、平台能力工具接口更加完善,基于大模型的移動AI應用會變得越來越普及,這時候各家應用生態能拉開差距的,就只有開發者的數量和質量——開發者能釋放出多少精彩的想象力,手機的使用價值就有多大。
開發者生態,是移動互聯時代的護城河,這一定律在AI大模型時代也同樣適用。
對于手機廠商來說,幸運的是,大模型手機才剛剛開始,應用開發者不希望錯過機遇窗口,還有時間積攢籌碼。
總結一下,2023是大模型手機的修煉之年,三座基建、一個入口、一群人,都逐漸彙聚在端側,變化或許在瞬息之間。
當大模型的殺手級應用步入手機,讓用戶發出“哇”的尖叫。這個大模型手機的“aha時刻”,說明移動互聯網的下一個春天,真的來臨了。-(文 : 腦極體/钛媒體)