GPT-4o 現貨變期貨,是什麽在拖 OpenAI 的後腿
RTC 技術是實時 AI 普及的關鍵之一。
Her,正從電影,走向現實。
今年 5 月,OpenAI 發布最新 AI 多模態大模型 GPT-4o。相比此前的 GPT-4 Turbo,GPT-4o 速度快了兩倍,成本低了一半,實時的 AI 語音互動的平均時延,相比此前版本的 2.8 秒 (GPT-3.5) 到 5.4 秒 (GPT-4),更是達到了 320 毫秒——與人類日常對話響應速度幾乎一致。
不僅是效率的提升,對話中的情感分析也成為了此次產品更新的特色之一。在與主持人的對話中,AI 可以聽出他說話時的「緊張」,並且針對性的提出了深呼吸的建議。
OpenAI,正成為大模型時代矽基的「造物主」。
然而,發布會很震撼,現實卻很骨感。產品落地上,這場大模型技術革命的發起方 OpenAI,正逐漸變得像一家「期貨」公司。
主打全能、低時延的 GPT-4o 發布後,實時音視頻功能的上線迄今仍在跳票;視頻多模態產品 Sora 發布,同樣遲遲不見開放。
但這不只是 OpenAI 一家企業的問題——ChatGPT 發布後,國內國產版 ChatGPT 多如過江之鯽,但是真正對標 GPT-4o 的,目前卻只有一個商湯的日日新 5.5,進度也同樣停留在月內公測。
為什麽發布會上,實時多模態大模型距離變革世界只有一步之遙;在真正走向產品化落地的過程中,卻總是「現貨」變「期權」?
一種新的聲音正在浮出水面:在多模態的世界裏,或許(算法)暴力無奇跡。
01, 實時語音,一條必經的AI 商業化路線---技術的成熟,正助推一個嶄新的藍海產業逐漸成型。
矽谷知名風投機構 a16z 數據顯示,全球用戶量 Top50 AI 應用中,9 款是陪伴型產品。AI 產品榜數據則顯示,今年 5 月 AI 伴侶的訪問量高達 4.32 億,同比增長 13.87%。
高需求、高增速、高市場空間,AI 陪伴,帶來的是商業模式與人機交互的雙重變革。
商業的成熟,也在反向倒逼技術的不斷進步。僅以今年上半年為節點,實時 AI 語音技術在短短六個月,就已經發生了三次叠代。
第一波技術浪潮的代表性產品是 Pi。
今年 3 月,初創企業 Inflection AI 更新了面向個人用戶的情感聊天機器人 Pi。
Pi 的產品界面非常簡潔,文本+對話框是核心交互界面,但也增加了語音讀取,電話等 AI 語音功能的設計。
實現這種語音交互,Pi 依靠的是傳統的 STT(語音識別,Speech-to-Text)-LLM(大模型語義分析)- TTS(文本到語音,Text To Speech)三步走的語音技術。其特點是技術成熟,但反應慢,缺乏對語氣等關鍵信息的理解,無法做到真正的實時語音對話。
與之同期的另一款特色產品是 Call Annie。相比 Pi,Call Annie 有完整的視頻通話體驗設計,除了接掛電話的設計之外,聽話功能還可以最小化之後切入其他 App,並支持四十多種對話角色設定。
然而它們都有著共同的技術問題——高時延與情感色彩缺乏。時延上,即是行業內最先進的 OpenAI,也會出現 2.8 秒(GPT-3.5)到 5.4 秒(GPT-4)的延遲。情感上,則會出現在交互中丟失如音調、音高、語速等信息,更無法做到輸出笑聲、唱歌聲等高級語音表達
在此之後,新一波技術的代表則是一款名叫 EVI 的產品。
這款產品在今年 4 月由 Hume AI 推出,並為 Hume AI 帶來了 5000 萬美元(約 3.62 億人民幣)的 B 輪融資。
產品設計上,Hume AI 在底層算法環節推出了 Playground 功能,用戶可以自己選擇配置選擇大模型,除了官方默認,還可以選擇像 Claude、GPT-4 Turbo 等。但不同之處是語音帶上了情感,因此在表達上,也有了節奏、語調的變化。
實現這一功能,主要依靠在傳統的 STT-LLM- TTS 三步走環節中,加入新的 SST(semantic space theory,語義空間理論)算法。SST 能通過廣泛的數據收集和先進的統計模型,精準繪製人類情感的全譜圖,揭示人類情感狀態之間的連續性,使得 EVI 具備很多擬人化的特色功能。
情感進步的代價,則是時延的進一步犧牲,與 EVI 對話,用戶需要等待的時間,相較 Pi 與 Call Annie 進一步增加。
到了 5 月中旬 GPT-4o 發布,融合多模態技術成為這一時期的技術方向標。
與過去的三步式語音交互產品相比,GPT-4o 是一款跨文本、視覺和音頻端到端訓練的新模型,這意味著所有輸入和輸出都由同一個神經網絡處理。
時延問題也因此被極大改善。OpenAI 官宣,GPT-4o 的實時語音交互,可以做到最快 232 毫秒、平均 320 毫秒的響應音頻輸入。情感上,用戶與 AI 的交互也變得越來越有智能屬性,語速變化、情感理解得到實現。
產品層面,人類與 AI 談戀愛、AI 替代盲人看世界也因此成為可能。
前不久推出語音電話功能、2024 年矽谷引人矚目的新星——Character.ai,就成為了這次技術浪潮中的最大受益者。
在 Character.ai,用戶有機會在超逼真的角色扮演中與動漫人物、電視名人和歷史人物的摹本發短信。新奇的設定帶來了產品用戶數量的暴增,根據 Similarweb 的數據,Character.ai 每秒可以處理 20000 個 AI 推理請求,5 月的訪問量高達 2.77 億。
Character.ai 和 perplexity.ai 的流量對比|圖片來源:Similarweb
與之同期,微軟、谷歌等紛紛官宣旗下的大模型將推出實時語音通話功能。
然而滴水不漏的產品設計,在現實執行中,卻總是呈現出三峽泄洪的落地效果——第三波浪潮之中,發布會上幾近「her」式的陪伴產品,在實際落地中,全部變成了「計劃」推出、即將推出、內測中。
一個毫無疑問的結論是,實時音視頻有可能成為人機互動終極形態,除了AI陪伴場景外,遊戲智能 NPC、AI 口語老師、實時翻譯等場景都有望迎來爆發,但在此之前,如何解決「發布會」到產品落地的最後一公裏,是當下行業最棘手的難題。
02, AI 實時語音,大力無奇跡
AI實時語音「大力無奇跡」,一個悲觀的說法正在矽谷悄悄蔓延。
阻力則來自技術、監管以及商業的方方面面。
技術上的反對派精神領袖,是「卷積網絡之父」楊立昆(Yann LeCun)。
在他看來:大模型技術,相比過去的各種 AI 算法,最大的特點是「大力出奇跡」。通過大數據投餵,以及動輒上億參數體量與高性能的計算集群硬件支持,算法由此可以用於處理更復雜的問題,以及更高的可擴展性。然而,我們當前對於大模型過於樂觀,尤其是多模態大模型可能就是世界模型的觀點,更是無稽之談。
比如,人有五感,才組成我們對於世界的真實認知,基於大量互聯網文本訓練的 LLM,缺乏對物理世界的觀察與互動,也缺乏足夠多的常識。因此生成視頻或者語音的過程中,總是會出現看似天衣無縫的內容,運動軌跡,或者聲音情感中,卻缺乏真實感。此外,硬性的物理限製也是問題,面對與日俱增的模型大小以及交互維度,目前的大模型缺乏足夠的帶寬處理如此信息。
監管層面,AI實時語音,也就是端到端的語音大模型,面臨的是技術與倫理的博弈。
過去,傳統的 AI 語音產業 STT-LLM- TTS 的三步走,首先是技術不成熟所導致,進化到端到端的語音大模型需要在模型架構、訓練方法和多模態交互等方面實現額外的技術突破。同時,也是由於語音本身的監管難度高於文字,導致 AI 語音極易被用至電話詐騙、色情以及垃圾營銷等場景。為了便於審核,中間的文字環節,也在一定程度上變得必要。
而在商業層面,端到端的音視頻大模型訓練,在訓練階段,需要大量 YouTube 以及播客的數據,成本是過去文字訓練模型的幾十倍甚至更高,一次訓練成本千萬美金起步。
而這種成本,對於此時的普通 AI 企業來說,天上掉錢都已經沒用,還得一起掉下英偉達高端 AI 算卡、千兆存儲還有取之不盡的無風險音視頻版權。
當然,無論是楊立昆的技術判斷,還是可能的監管難題,亦或是商業化的成本困境,這些對 Open AI 來說,都算不上最核心的問題。
真正讓 GPT-4o 類實時AI語音交互類產品現貨變期貨的根本原因,出在工程落地層面。
03, 插著網線演示的 GPT-4o,還差一個好用的 RTC 助攻
一個業內心照不宣的秘密是,GPT-4o 類AI實時語音產品,在工程層面,只成功了一半。
GPT-4o 的發布會上,宣稱低延時的同時,有眼尖的用戶發現,演示視頻中的手機,還插著網線。這也就意味著:GPT-4o 官宣的平均 320ms 時延,很可能是固定設備、固定網絡、固定場景的 demo,在理想狀態下才能達成的實驗室指標。
OpenAI 的 GPT-4o 發布會現場明顯可見手機插線|圖片來源:OpenAI
問題出在哪裏?
從技術層面拆解,要實現 AI 實時語音通話,算法層面的三步合為一步,只是其中核心環節之一,另一個核心環節 RTC 通信層面,也面臨一系列技術挑戰。所謂 RTC,可以簡單地理解為在實時的網絡環境下進行音視頻的傳輸和交互, 是一種支持實時語音、實時視頻等互動的技術。
聲網音頻技術負責人陳若非告訴極客公園,在實際落地的應用場景中,用戶通常無法一直處於固定設備、固定網絡和固定物理環境下。在我們日常進行視頻通話場景中,一方的網絡不佳後,就會出現說話卡頓、延遲變高的現象,這種情況同樣會出現在 AI 實時語音通話中,所以低延時的傳輸、優異的網絡優化對 RTC 傳輸至關重要。
此外,多設備適配、音頻信號的處理等也是 AI 實時語音落地中不容忽視的技術環節。
如何解決這些問題?
答案就藏在 OpenAI 最新的招聘需求中,OpenAI 特地提到,要招聘工程人才,幫助他們把最先進的模型部署到 RTC 環境中。
具體的方案選擇上,GPT-4o 使用的 RTC 技術,是一種基於 WebRTC 的開源方案,可以在技術層面解決一定的時延,以及不同網絡環境帶來的丟包、通信內容安全,以及跨平臺的兼容問題。
然而開源的 B 面,則是產品化的薄弱。
舉個簡單的例子,多設備適配問題,RTC 的使用場景大多以手機為代表,但不同型號手機的通信、聲音采集能力千差萬別:目前蘋果手機已經可以做到大約幾十毫秒的穩定延時,但是生態較為復雜的 Android 生態,不僅機型多、高端與低端產品的性能差距也頗為明顯,部分低端型號設備,在采集與通信層面,時延就能高達幾百毫秒。
再比如,AI 實時語音應用場景中,人的語音信號可能會混雜了背景噪聲,需要進行復雜的信號處理,移除噪聲和回聲,確保幹凈、高質量的語音輸入,讓 AI 更能聽懂人說的話。
多設備的兼容性、先進的音頻降噪的能力也正是開源 WebRTC 所欠缺的。
行業經驗,是開源產品在應用中的卡脖子難題。也是因此,相比開源方案,大模型廠商與專業的 RTC 方案商一起打磨共同優化,一定程度上更能代表未來的行業趨勢。
在 RTC 領域,聲網是最具代表性的廠商,曾因為對 Clubhouse 提供音頻技術而廣為人知,根據聲網官網的消息顯示,全球超 60% 泛娛樂 App 選擇聲網的 RTC 服務,除了國內知名的小米、B 站、陌陌、小紅書等 App 外,中東及北非地區最大的語音社交與娛樂平臺 Yalla、東南亞「社交直播平臺之王」Kumu、HTC VIVE 、The Meet Group、Bunch 等遍布全球的知名企業均采用了聲網的 RTC 技術。
行業經驗的積累,全球化客戶的打磨,更是技術領先的佐證。據陳若非介紹,聲網自研的 SD-RTN™ 實時傳輸網絡覆蓋了全球 200 多個國家與地區,音視頻的全球端到端延遲平均達到 200ms。
針對網絡環境的波動,聲網的智能路由技術與抗弱網算法,可以保障通話的穩定性與流暢性。針對終端設備的差異性,聲網更是積累了全球上億 App 預裝以及對復雜環境適配積累的 know-how。
技術領先之外,行業經驗更是無形的壁壘。
事實上,這也是為什麽這些年來,RTC 行業商業格局較為穩定的原因:做好 RTC,依靠的,從來不是大模型式的「大力出奇跡」。
日積月累的深耕細作,才是語音延遲極致優化和實時語音交互能普遍商用的唯一途徑。
而從這一角度來看,AI實時語音交互,是一場在想象力以及難度上都不應被低估的戰爭。
它的未來——算法、審核、RTC 一關一關都要過。要走完這漫長的道路,既要仰望技術的星空,更要腳踏工程化的實地。
扎克伯格的成功秘訣:千萬別被電影忽悠了,沒有人一開始就知道怎麽做。---[作者: ray*編輯: 靖宇/來源: 極客公園]