不做Sora背後 :百度的多模態路線是什麽?
當ChatGPT掀起國內“百模大戰”,百度率先交卷文心一言。
Sora再掀視頻生成風潮,卻傳出李彥宏內部講話“Sora無論多麽火,百度都不去做”。
一時間,困惑、不解、爭議,紛至沓來。
面對這些聲音,在剛剛結束的百度世界大會會後采訪中,李彥宏公開回應。
他不僅重申了不做Sora的決定,並且說明了百度是如何運用和發展多模態的。
在大會發布中,李彥宏發布了百度從年初開始重點攻克的iRAG技術,這項技術旨在解決AI領域最棘手的”幻覺”問題。有趣的是,這個開始正好是在Sora風正熱之時。
百度的選擇背後原因,到底是什麽?
△百度2024世界大會現場
加速解決幻覺問題
先從iRAG技術看。它所解決的是圖片生成的幻覺問題。
在年初,不做Sora,轉頭將資源放在幻覺解決上。爲什麽?
結合這屆百度世界大會主題“應用來了”來理解:
幻覺已經成爲制約大模型應用大規模落地的一大絆腳石。
現代社會對計算器已有絕對的信任,只要保證輸入是對的,就可以百分百放心地把計算結果用到下一步工作流程中。
但對于已知可能存在幻覺的大模型來說,還敢給予同等的信任嗎?
△新版文小言APP繪圖
有幻覺,即意味著模型行爲不完全可控,不能完全放心的自動化工作流程,依然需要人工介入。
AI應用正面臨這樣的困境。
事實上,ChatGPT問世之後,大模型的幾個主要改進方向都是通過不同方式來解決大模型幻覺問題。
長上下文窗口,讓模型獲取更完整的輸入,減少因信息不全産生的錯誤推理。
RAG(檢索增強生成),檢索外部知識庫補充信息,彌補模型參數存儲知識的不足。
聯網搜索,獲取實時、動態的在線信息,擴展模型的知識邊界。
慢思考,通過分步推理減少直覺性錯誤,提高推理過程的可解釋性。
甚至從某種意義上說,多模態技術也是讓模型多一種信息輸入途徑,不用在“看不見”視覺信息的情況下爲了完成任務憑空編造。
所以再次總結一下,爲什麽解決幻覺問題是目前AI行業的當務之急?
從技術層面,不解決幻覺問題就難以預測和控制模型的行爲邊界。
從應用的角度來看,幻覺問題阻礙了用戶對AI産品的信任。
從産業角度,解決了幻覺問題才能擴大AI可應用的場景範圍,提高AI系統的商業價值。
再將目光轉向百度,解決AI幻覺問題,恰恰也是百度的“主戰場”。
iRAG,全稱Image-based Retrieval-Augmented Generation,是一種全新的檢索增強文生圖範式,結合了百度多年的搜索積累,幫助大幅提升圖片的生成可控性和准確性。
其核心是將百度搜索的億級圖片資源與文心大模型的生成能力相結合,通過聯合優化,讓生成圖片更加真實可信。
△百度2024世界大會現場
具體而言,iRAG先利用檢索模塊在海量圖庫中找出與文本描述最相關的若幹圖片,然後提取其視覺特征,與文本特征一並輸入到生成模塊。生成模塊在此基礎上,對圖像進行理解、重組、創新,最終輸出高質量、符合需求的全新圖片。
△文心大模型生成的大衆攬巡汽車飛躍長城
可以說,iRAG巧妙地將認知智能(檢索)與生成智能(創作)結合在一起,取長補短,相得益彰。
一方面,海量圖像的參考讓生成更”接地氣”,大幅減少了幻覺、違禁內容等問題。
另一方面,強大的生成能力讓輸出圖片更多樣、更具創意,遠非單純的拼貼、修改那麽簡單。
更重要的是,iRAG在諸多行業領域都具有廣闊應用前景,尤其能顯著降低AI生圖的創作成本。比如在影視制作、動漫設計中,iRAG可實現從文本腳本直接生成高質量的分鏡、概念圖,大幅減少中間環節的人工幹預。
多模態,不止Sora一條路
明確了幻覺問題是AI行業的優先級,百度還需要回答另一種質疑:多模態已經是公認邁向AGI的重要一步。
多模態有助于增強AI系統的感知和理解能力。通過處理視覺、語音、文本等不同模態的信息,AI可以更全面地感知環境,增強其認知和交互能力,與人類通過多種感官認知世界保持一致。
但這裏要明確的是,Sora路線並不能代表多模態技術的全部。
首先,投入做Sora代表的通用視頻生成模型投入的成本非常高昂。市場研究機構Factorial Funds報告估算,Sora模型至少需要在4200~10500塊英偉達H100 GPU上訓練1個月。而如果Sora得到大範圍應用,爲了滿足需求,需要約72萬張Nvidia H100 GPU,如果按照每片英偉達H100 AI加速卡3萬美元成本計算,72萬片需要216億美元。
而目前通用視頻生成模型在技術成熟度上距離iPhone時刻也還有較遠的距離。此前與藝術家合作短片《Air Head》後來就被指出實際有大量人工參與,估算只有約1/300的AI素材用到了最終成片里。
△圖源fxguide.com
目前市場視頻生成應用從短劇內容生産到影視特效制作,很多努力都在摸索視頻生成技術的想象空間,但尚未形成成熟的商業化方案和穩定的營收模式。
其實,對于做多模態來說,也存在Sora之外的多種路徑。
Meta首席科學家、圖靈獎得主Yann LeCun就一直堅持“世界模型”路線。他認爲生成視頻的過程與基于世界模型的因果預測完全不同,通過生成像素來對世界進行建模是一種浪費,注定會失敗。
斯坦福教授李飛飛則看重具身智能,她認爲AI僅僅看是不夠的,“看,是爲了行動和學習”。比如通過大語言模型,讓一個機器人手臂執行任務,打開一扇門、做一個三明治以及對人類的口頭指令做出反應等。
百度對多模態技術的理解,最近也在數字人場景得到集中體現。
百度從2019年起就開始布局數字人領域,涉及語音克隆、唇形同步、表情動作捕捉等一系列關鍵技術。到如今百度“曦靈”數字人、“慧播星”數字人已廣泛應用于新聞播報、直播電商等場景。
△百度慧播星電商數字人
正如李彥宏強調的,百度不做Sora,並不意味著在多模態賽道上缺席了。
數字人語音與口型、動作的同步問題,或許最終可以靠通用場景下的視頻生成實現,但需要很長時間,成本很高。
但既然可以用更簡單、成本更低的方法做到,爲什麽不先把業務跑起來呢?
首先,通用方案追求”大而全”,試圖用單一模型覆蓋所有場景,但這在技術上尚不成熟,往往帶來效果的參差不齊;而數字人聚焦特定垂直領域,可以更精准地優化模型,追求極致的人機交互體驗。
其次,視頻生成好就是固定的素材了,缺乏實時交互能力;而AI驅動的數字人卻可以實現動態多輪對話,甚至還可以根據用戶反饋實時調整狀態,更加契合真實應用的需求。
最後,視頻生成對算力和數據的要求極高,當前能夠真正駕馭的企業鳳毛麟角,商業化進程困難重重;相比之下,數字人技術門檻相對較低,且應用場景清晰,更容易形成可複制的商業模式,開啓數據飛輪。
AI大規模落地需要什麽條件?
不論是投入解決圖片幻覺問題,還是從業務需求出發發展多模態的路線,百度的目標似乎都圍繞著李彥宏所說的:讓技術被更多人用起來。
李彥宏這段時間不斷強調的一個觀點是“模型本身不産生直接價值”,只有在模型之上開發各種各樣應用,在各種場景找到所謂的PMF,才能真正産生價值。
百度需要做的,是爲個人和企業提供開發應用的基建,幫助更多人、更多企業打造出數百萬“超級有用”的應用。
長遠來看,幻覺問題的解決爲行業應用消除了障礙,使得AI技術能夠在更廣泛的領域得到應用和推廣。
用業務需要的多模態技術支持業務先跑起來,能讓更多的AI應用場景爲大家所用。
同時,大量的行業應用所産生的數據,又能爲AGI的發展提供豐富的養分,形成良性循環,推動數據飛輪的高速運轉,從而加快我們邁向AGI的步伐。--- [夢晨 發自 : 凹非寺*量子位 : 公衆號 QbitAI/來源 : 量子位 ]