虛擬人能否靠ChatGPT迎來巨大突破?
需要肯定ChatGPT的優秀,卻不能神化它對AI產業的影響。
ChatGPT的熱度仍在,人們的關注點已從它本身轉移,開始關注它能帶來哪些產業的突破性進展。虛擬人就是其中之一。
這是一個隨着元宇宙概念火熱而興起的產業。《虛擬數字人深度產業報告》預計,到2030年我國虛擬數字人整體市場規模將達到2703億元。
其中,「身份型虛擬人」市場規模預計達到1740億元,占主導地位,而「服務型虛擬人」總規模將超過950億元。更有機構預測,AI數字人市場規模在2026年將達到102.4億元。
ChatGPT所展現出的「靈活機智」令人嘖嘖稱奇,這種特質如果從虛擬人身上體現出來,無疑使得該產業向着終極願景邁進一大步。在熱點之下,眾多虛擬人企業紛紛發布公告宣布接入ChatGPT,受此影響股價連漲,投資者期待產業的突破與變革。
然而需要注意的是,ChatGPT雖是一個令人驚艷的產品,但其背後的基礎技術並無大突破,且AI虛擬人的複雜程度遠高於聊天機器人,或需要多種大模型的組合。被神化的ChatGPT,無法憑藉一己之力扛起行業變革的大旗。
對於站在風口中的虛擬人企業來說,在受到推動的同時,仍有眾多挑戰在前方等待着。
虛擬人接上「大腦」?
AI作為虛擬人驅動的大腦之一,既是虛擬人能夠在元宇宙感知行為並做出反饋的核心要素,也是其掌握與學習技能的關鍵所在。據市場調研機構IDC數據,預計到2026年中國AI數字人市場規模將達到102.4億元,市場將呈現高速增長態勢,有觀點表示,AI驅動的虛擬數字人將會是下一個技術風口。
而ChatGPT的出世則給了由AI驅動的虛擬人更多想象空間。
國內虛擬技術服務商世優科技2月1日正式宣布,該公司的數字人業務已經接入ChatGPT,正在通過數字人自身的人設背景等相關數據集,並基於OpenAI對數字人專有大腦形成個性化模型訓練。
據悉,由世優科技提供數字人技術支持的數字人「阿央」已經接入世優科技目前正在開發的ChatGPT微信小程序——世優數字人元宇宙。該程序可以展示排行靠前的熱門問題,並通過接入ChatGPT後的世優科技數字人進行實時的內容解答。
該公司表示,在內測完成後,公司會將更多數字人與ChatGPT結合,並開發合適的應用場景。與ChatGPT結合的虛擬數字人未來計劃重點嘗試在智能客服、電商、虛擬主播等領域拓展業務。
無獨有偶,2月3日,天娛數科在互動平台表示,公司下屬子公司元境科技致力於用AIGC推動元宇宙進入智能時代,依託MetaSurfing-元享智能雲平台,元境科技虛擬數字人已經接入ChatGPT等模型,並已在Tik Tok跨境電商直播、虛擬主播直播互動等場景實現應用,並形成產品化解決方案。
2月7日,遙望科技在互動平台上回應投資者提問時表示,「公司規劃在2023年發力虛擬人直播等業務,計劃利用公司過往積澱的技術優勢,實現高效率低成本的AIGC內容生成,使得直播時長更長,以長尾效應進一步擴大供應鏈競爭優勢」。
2月10日,透明高清顯示和AR顯示領域的領軍企業——深圳光子晶體科技宣布,基於光子透明芯片顯示技術(nanoAR?)開發的「光子迎賓虛擬人」已實現與ChatGPT的對接,光子迎賓虛擬人的「人工智能」程度得到越級進化。
2月14日,風雨築在互動平台表示,公司已在部分交互體驗中使用AIGC技術,目前正在嘗試將公司打造的數字人接入ChatGPT以強化數字虛擬人的場景識別和更新能力。此外,公司參股公司星圖比特發揮本土團隊在中文強化學習和本土合規方面的優勢,圍繞OpenAI GPT模型在NLP自然語言處理領域進行研發和應用。
沾上大火的ChatGPT,公司股價節節升高,但對它們來說,這是「蹭熱度」還是真有大突破呢?
多模態是虛擬人的未來
日前,世優科技創始人兼CEO紀智輝曾表示,虛擬數字人驅動的最終形態,是實現AI驅動,即用「AI」替換掉「中之人」所扮演的角色。
但他同時也承認,AI虛擬數字人在製作成本和技術門檻上仍然大大高於真人動捕員,同時局限於AI目前所表現出的智商水平,目前並不能被廣泛使用。
但ChatGPT所展現出來的高靈活度讓人們對AI有了新的認知,它比普通的人工智能機器人更加像「人」,相較以往的大模型,它對知識的挖掘要更充分。
頭豹研究院高級分析師朱曉雯在接受21世紀經濟報道記者採訪時表示,ChatGPT與市面上普遍用於虛擬人的AI模型相比,具有更大、更通用、更靈活的特點,可以處理更加複雜和抽象的自然語言文本,並且不需要大量標記的訓練數據。
具體來講,ChatGPT是一個通用語言模型,它可以用於許多不同的自然語言處理任務,例如語言翻譯、問答、文本生成等。相比之下,普通的虛擬人AI模型通常專注於特定的任務,例如聊天、客服、語音識別等。
同時,ChatGPT還是一種基於無監督學習的模型,這意味着它不需要標記的訓練數據即可學習自然語言規律,而市面上大量虛擬人AI模型都需要大量的標記數據才能進行訓練。
此外,ChatGPT是目前最大的通用語言模型之一,參數超千億,比許多傳統的虛擬人AI模型要大得多。這使得ChatGPT能夠處理更加複雜和抽象的自然語言文本,並生成更加自然流暢的回覆。
面對如此驚艷的聊天機器人,業界不禁產生一個設想:將類ChatGPT的大模型依附於虛擬人之上,或更能使虛擬人接近於理想中的形態。
但虛擬人需要做到的顯然不僅僅是和人對話那樣簡單,它還需要表情和動作,針對不同領域的虛擬人還需有不同的專業能力,理解文本、完成對話僅僅只是第一步。
近日,中科深智創始人兼CEO成維忠在接受21世紀經濟報道記者採訪時表示,要解決虛擬人的問題,關鍵還是在於多模態訓練。
多模態指的是不同形態的數據形式。ChatGPT目前只支持文本、代碼等模態,相對多模態大模型而言,ChatGPT當前技術能力還是主要集中在自然語言處理領域。
成維忠舉例稱,寫一句話就能畫出很炫酷圖片的Dall.E2,就是OpenAI在多模態方面的探索,其運作過程大致分兩個部分,前半段用的是GPT3,仍然是文本生成過程,後半段用的是Diffusion,真正把文本變成圖像,即把兩個完全不同的算法有機拼接到一起來完成了多模態。
「在其他垂直領域,也會存在類似情況,需要針對這個領域的特點構建像Diffusion的專業領域大模型。」
以中科深智所專注的3D動作和表情生成為例,成維忠表示,前半段可以使用ChatGPT來賦能,提升文本生成能力,但重點還在後半段,即其生成動作和表情的大模型靠不靠譜。
「ChatGPT的出現對行業來說是好事,」成維忠向記者表示,「它只解決了部分問題,但沒有做完全部的工作,對我們的發展有促進作用。」
成維忠認為,GPT4出世之後,垂直領域的多模態一定會越來越熱。
技術成熟度仍有限
需要注意的是,ChatGPT本身並無革命性的技術突破,其背後的趨勢和變革已持續多年。
從2018年起,ChatGPT背後的大模型思想已成為自然語言處理領域的主流技術趨勢。隨後四年,GPT模型逐步精進,參數從3億增長到1750億,訓練數據規模達到45TB,不斷用更多的數據找到對人類更通用的「語言模型」。
ChatGPT是基於GPT3.5的基礎模型框架,核心變化是通過真實的調用數據以及人類反饋的強化學習進行訓練,使其更會聊天、更「能言善辯」。
「大模型所對應的技術理念已逐漸被大家所掌握,國內外皆如此,市面上已有很多用這種方法訓練出的大模型,只不過在fine-tune(微調)的過程中,研發者的專注度、投入度不一樣。」小冰CEO李笛向21世紀經濟報道記者表示,「我個人認為OpenAI是真的用工匠精神去磨,取得了這個效果,所以有一定『時間壁壘』,但這和『技術壁壘』是兩回事。」
不僅如此,目前絕大部分大模型都還沒辦法實現「端到端」的落地,即使是ChatGPT,也存在相當高比例的事實性錯誤。
IDC中國研究總監盧言霞表示,ChatGPT所提供的答案在準確性、廣泛性方面仍存在局限,因此現階段無法直接用於企業特定的場景中以替代之前的AI應用,不可能徹底顛覆搜索市場,也不可能改變人工智能市場格局。
「今天大模型的應用普遍還停留在demo階段,距離真正大規模商用還有很多事情要調整。」李笛表示。
因此,從技術角度來看,大模型的本質還是通過海量的數據訓練生成內容,且這部分還沒有實現絕對的穩定,這和像人一樣擁有智慧是兩回事。所謂將ChatGPT接入虛擬人就意味着它擁有了「聰明的大腦」和「有趣的靈魂」,並不屬實。
更現實的問題是,大模型的思想偏好「大力出奇蹟」的打法,想要有好的性能需要極大數據和算力支持,這背後是巨量的成本支出,對於多數虛擬人創業公司來說,要承受不小的資金壓力。
「首要因素必須要確保『端到端』的生成質量。同時,優化模型降低參數規模。」李笛表示。
當然,如果放低些要求,AIGC在輔助虛擬人內容創作、文本生成等方面還是有着顯著的作用。國泰君安研報指出,ChatGPT等AIGC應用程序將顯著提升數字人的製造效率,內容成本低且可定製。
「從目前來看,在部分細分場景,例如繪畫、翻譯等內容生產領域,可能會有很快的落地化普及,但要實現大規模的商業化落地,保守估計需要3至5年的時間積累才有可能。」朱曉雯表示。-(來源:21世紀經濟報導/來源:投資快報)
*馬斯克談OpenAI:它變了,變得面目全非*
特斯拉CEO埃隆·馬斯克在社交平台上與網友互動時表示,OpenAI是作為一家開源、非盈利公司創建的,所以名字裡面才帶「Open」,目標就是制衡谷歌。但它現在成了一家由微軟控制的閉源、追求利潤最大化的公司,這與馬斯克的初衷背道而馳。2015年,馬斯克和Sam Altman等科技領袖共同創辦了美國OpenAI公司,但由於特斯拉的智能駕駛技術與OpenAI存在潛在的利益衝突,馬斯克於2018年離開了OpenAI董事會。-(新浪科技/來源:三言科技)