中科深智創始人兼CEO成維忠:虛擬人,接通元宇宙時代的關鍵角色
■行業屬性:虛擬數字人
■估值/融資輪次:2021年11月,中科深智獲得晨山資本約千萬美元B輪融資。
■核心競爭力:自主研發CLAP算法;多模態驅動技術;3D AIGC産品
■未來關鍵詞:元宇宙時代;AGI;AIGC
2月25日,OpenAI CEO薩姆·阿爾特曼又壹次公開提到了AGI(通用人工智能)。
在他發表的文章中,這位當下全球的焦點人物強調了OpenAI的使命是確保AGI造福全人類,他認爲,AGI如果被成功創造出來,可通過增加豐富度、推動全球經濟發展以及幫助發現改變可能性極限的新科學知識,幫助提升人類。
ChatGPT,這壹近期引爆全球關注的“新物種”,是由Open AI于2022年11月30日推向世界的,也就是說,薩姆·阿爾特曼可被稱作“ChatGPT之父”,與此同時,他也是AGI的推崇者和踐行者。
在人工智能這條通往未來之路上,耕耘的人千千萬萬,中科深智創始人兼CEO成維忠便是其中壹員。與薩姆·阿爾特曼以及他所開創的Open AI相比,成維忠以及他所創立的中科深智選擇了壹條更具差異化的競爭路線。
成維忠本科畢業于中國科學技術大學物理系半導體專業,研究生畢業于複旦大學世界經濟研究所,曾在中興通訊、光明乳業、北緯科技等上市公司任職。作爲創業老兵,2016年,他又創建了中科深智,創始團隊沒有選擇Open AI的大語言模型方向,而是選擇了虛擬人動作和表情的生成技術這壹較爲小衆的切入點。
究其原因,在接受《每日經濟新聞》“對話未來商業”欄目(點擊直達專題:對話未來商業|記錄、預見、讓未來發生)專訪時,成維忠向記者透露,ChatGPT突破的大語言模型被業內視爲AGI的“聖杯”,是大廠必定涉足的戰場;中科深智的創業團隊審時度勢,堅定了作爲壹家創業公司應避其鋒芒的自身站位。
與Open AI路徑不同,但與薩姆·阿爾特曼對AGI的狂熱相似的是,在接受記者采訪時,成維忠不止壹次提到了“信仰”二字,而他的信仰便是“技術”本身。
“對于我們這些做技術的公司來說,如果只是爲了贏利,卻不能發自內心地把技術做好,公司可能會很快死亡。”成維忠說。
但眼下,推出僅兩個月便俘獲全球1億用戶的ChatGPT,已引發了外界對于“元宇宙時代是否能真正到來”的質疑,乃至對虛擬人前景的擔憂。
ChatGPT引爆全球關注 每經記者 劉雪梅 攝
對此,成維忠表示,ChatGPT能夠提高虛擬人的智力,“但虛擬人的表情動作還是需要我們用其他大模型來解決。”在成維忠看來,元宇宙和ChatGPT不是替代關系,元宇宙是下壹代互聯網的代名詞,是壹個更大範疇的概念,“除非有壹天我們證實了下壹代互聯網不是以3D視覺、沈浸式環境爲主的,那麽元宇宙的概念就沒有被推翻。”
他表示,ChatGPT之所以能壹炮而紅,並不僅僅是因爲技術上取得的成果,而是因爲ChatGPT的出現預示著下壹代互聯網整個交互方式的改變。
成維忠認爲,互聯網發展可以分爲三個階段,第壹個階段時PC互聯網時代,第二個階段時移動互聯網時代,第三個時代,則是元宇宙時代。他認爲,元宇宙時代的關鍵詞是“Conversation”,即人機的擬人化交流。基于這個認知,ChatGPT等LLM不可或缺,“生成式AI虛擬人也不可或缺”。
“這個方向真的被我們押中了”
帶領中科深智走到現在,成維忠多少有點“賭”的成分。
“2015年,我和創始團隊就在討論,如果再創業,我們是順著原來移動互聯網的方向走,還是找新方向。”成維忠回憶。
當時,移動互聯網創新的機會點已經越來越少,成維忠和創業夥伴們將眼光投向了下壹代互聯網。當時還沒有完整概念的元宇宙,成爲他們押注的未來。
“我們當時在想,下壹代互聯網,無非要麽做場景的技術,要麽做物品的技術,要麽做人的技術——我們覺得人的技術更重要。”成維忠說。基于這些考量,起步時,成維忠就給中科深智下了這麽壹個定位:圍繞虛擬人動作和表情的生成技術,爲各行各業提供以軟件和算法爲主驅動的內容生産工具。
當記者問及爲何不選擇大語言模型賽道時,成維忠說:“我覺得如果大廠壹進來,肯定會把我們‘滅掉’。”
中科深智創立于2016年,那是壹個人工智能方興未艾的年份。不到壹年前,2015年12月,Open AI誕生,在成立時的定位是壹家非營利機構,由阿爾特曼、特斯拉創始人馬斯克、PayPal聯合創始人蒂爾等矽谷科技大佬參與創立,承諾投資10億美元。
“成立的時候,Open AI起的調子就挺高的,當然不像現在這樣全世界都知道,但我們(業內)那時候都知道。”成維忠回憶,當時,Open AI計劃做開源的大語言模型,“雖然那時Open AI的方向沒有現在這麽清晰,因爲它現在用的底層技術是2017年谷歌才發布的。”
即便如今大名鼎鼎的Open AI,當時也不過是初出茅廬的狀態,但包括成維忠在內的業內人士已經意識到,具備強勁資金基礎的大廠遲早會將大語音模型作爲重心。
之所以如此確信,與大語言模型的特殊性有關。成維忠透露,壹直以來,ChatGPT所取得突破的大語言模型被業內視爲AGI的“聖杯”。
“人類資料中,最全面的信息便是語言的信息,樣本量是最大的,知識體系是最豐富的,做訓練就會比較容易。”在此基礎上,不少美國專家有壹個基本觀點:用數學的角度來看,人類的大腦和語言的數學結構相近(隱馬爾可夫模型),如果這個假設成立的話,通過語言的不停叠代訓練,在取得了大的突破以後,AGI便實現了。
雖然打定了主意不做大語言模型,中科深智壹開始還是走了壹段試錯之路。
“早期,可選擇可嘗試的過程很多,壹直到2017年谷歌推出Transformer,我們找到了方向,慢慢道路就清晰了。”成維忠提到,ChatGPT的底層技術也是Transformer,“當時,谷歌基于Transformer做了很多demo,我們也很興奮,慢慢就把精力聚焦到這個方向上。”
無論Open AI,還是中深科智,將技術重心壓到Transformer上,都冒了非常大風險。
由于早期壹直專注在底層技術的研發,沒有做太多商業化的事情,所以中科深智早期的研發費用都是由團隊自掏腰包籌集的。2019年,公司推出第壹代較爲成熟的産品,情況才有所改善。2020年,在創立四年之後,中科深智終于獲得千萬級天使輪融資。
下壹個轉折點發生在2021年。企查查顯示,這壹年年初,中科深智獲得著名投資機構金沙江創投領投的數千萬人民幣A輪融資。2021年11月,中科深智又獲得了晨山資本約千萬美元的B輪融資。
也正是在這壹年,成維忠覺得自己“賭對了”。
“從整個發展趨勢來看,這個方向真的被我們押中了,我們感覺自己做得越來越對了。”成維忠說。
在理想與現實中取得平衡
金沙江創投在官宣關于中科深智的融資消息時,時任金沙江創投主管合夥人的朱嘯虎表示:“未來將會是消費互聯網與企業服務並重的10年,我們持續看好用各類新技術爲消費大場景B端賦能的初創企業。”
獲得明星投資人的青睐固然是好事,但作爲技術出身的壹名創業者,成維忠始終還有壹種“壯志未酬”之感,他希望資本能夠看到中科深智更多的技術價值。
成維忠說,“投資人對我們有信心,是因爲他們覺得我們在虛擬人領域的確是壹家領頭的公司——壹方面是我們做得早,另壹方面我們也很聚焦。”
成維忠表示,國內投資人更看重具體的産品落地,關注核心業務在市場上的表現和應用前景,“和他們講壹些特別‘飄’的事,他們不大感興趣。”
這或許也是中科深智較晚才獲得第壹筆融資的原因。
成維忠回憶:“在那個時間點,我們覺得最痛苦的事就是,雖然我們認爲這個方向很重要,但在和VC對話的時候,我們很難講清楚具體的實現路徑——我們認爲路是能走通的,但具體該基于什麽大模型來做,有很多種可能性和不確定性。”他清楚地記得,當時有投資人對他說:“既然妳們覺得很重要,妳們自己先砸錢再說。”
因此,公司創始團隊在早期,都是自掏腰包支撐公司的發展。
交談過程中,Open AI在美元資本助推下的掘起之路也讓成維忠感慨。在他看來,國內的資本市場邏輯和環境,更注重快速和短期的回報,會給在垂直領域推進生成式AI技術研發的企業帶來壓力。
守得雲開見月明,獲得明星資本押注也算是階段性成功。在平衡資本的現實訴求和己身的技術理想的追求之間,中科深智已經走出了壹條獨有的發展路線。
成維忠向記者介紹,中科深智定位爲生成式AI虛擬人和3D AIGC技術公司,發展到現在,主要爲三個部分。
第壹個部分是底層算法,用成維忠的話來說,是“自己覺得很寶貝的事”。據悉,中科深智的底層算法爲自主研發的CLAP算法,即Contrastive Language-Action Pretraining算法。
第二個部分是虛擬人業務中台Motionverse,資料顯示,這是壹個多模態動作生成驅動引擎,該引擎融合了XR和AI技術,可以用傳感器、語音、視頻等多種方式讓虛擬人動起來,隨時與用戶互動。成維忠將這部分定義爲“外界覺得很重要,公司內部也覺得很重要”的部分。
第三個部分即3D AIGC産品。這壹部分,在成維忠看來,是投資人更爲看重的部分。
産品方面,以單個産品爲例,針對市場需求,中科深智推出了“自動播”虛擬直播産品,讓虛擬主播們全年無休地滾動直播。據中科深智提供的數據,其虛擬主播産品已經服務了超過2000家客戶,占據主流電商平台虛擬主播近70%的份額。
“整個市場是不停變化的,今年壹個産品很好,三年以後還火不火很難確定。但是算法方向是壹旦走順了就會越來越順。所以我們認爲底層的東西會更重要壹些。”成維忠說。
知止而後定,說到業務範圍,中科深智保持謹慎,“脫離開技術的事,比如說打造IP,都不是我們的業務範圍。”成維忠說。
事實上,成維忠認爲,壹家技術主導的公司在推出産品的時間點上需要多方考量。
“爲什麽ChatGPT火成這樣了,Open AI還是沒有推出産品?”成維忠分析,“壹方面,是Open AI的團隊認爲算法是不夠成熟的,在這種情況下,大量地推出産品可能會令用戶感到反感。另壹方面,在壹家公司不考慮營收和産品的時候,這家公司就可以all in到算法的叠代中,算法的叠代必然會比較快。”
成維忠認爲,如果壹家公司算法的叠代還沒到壹個理想狀態就下場做産品和服務解決方案,“這自然會難受壹些。”
超級虛擬人助手:元宇宙時代的入口?
伴隨著ChatGPT的壹炮而紅,不少質疑聲襲向了虛擬人乃至元宇宙賽道。甚至有觀點認爲,隨著ChatGPT成爲焦點,虛擬人乃至背後的元宇宙,都會成爲“明日黃花”。
成維忠顯然不認同這壹觀點。在他看來,ChatGPT的出現加速了元宇宙新時代的到來,未來,會出現超級虛擬人助手擔當“元宇宙時代的入口”這壹角色。
“我們過去互聯網的交互方式是菜單式的,菜單式的交互方式是科技發展的結果,與我們人的本能差距是非常大的。”成維忠說,“人類本能交流方式是通過聲音交流,或者面對面交流。”
在他看來,ChatGPT提供了新的可能性:“現下,ChatGPT提供的是文本的會話,之後也可以通過聲音進行交流,在對于未來的進壹步想象中,對面也可以是壹個虛擬人,我們和虛擬人進行溝通。”
也就是說,在成維忠預想的未來中,當前人們習慣的文本會話,很快會變成聲音的會話,並最終演變爲聲音加視覺的多媒體會話。也正是因此,成維忠認爲,作爲新時代的入口,虛擬人在未來世界中的地位不可撼動。
這壹切的前提,是虛擬人技術的進壹步成熟。值得壹提的是,雖說業內大都認爲ChatGPT能夠提高虛擬人的智力,並賦予虛擬人以“靈魂”,單就技術層面而言,距離壹個理想中的虛擬人真正到來還有壹段路要走。
成維忠提到,ChatGPT並不能解決虛擬人人機交互的所有問題,如果想要壹個虛擬人笑起來、像人壹樣走路,就需要中科深智這樣做虛擬人動作表情驅動的大模型算法。“從技術的角度來說,雖說ChatGPT會極大提升虛擬人的智力,但是它並不能讓虛擬人跟人的交互變得更爲流暢、更爲生動。”成維忠說。
這條路要走通,資本的支持必不可少。ChatGPT帶動的這場“狂飙”,能否給中科深智的發展帶來更多機會?資本們的態度會不會發生新的轉變?
“我不確定。”成維忠很快回答。在他看來,當下外界的關注度更多集中在大語言模型上,未來壹個明顯的轉折點可能會發生在GPT4問世之後,“GPT4的側重點可能會從語言大模型到多模態學習上,等到那壹天,VC可能會覺得針對垂直行業的多模態訓練才是未來比較誘人的方向。我堅信這壹時間點會到來。”
而多模態訓練正是中科深智的擅長領域,通過多模態驅動技術,中科深智讓虛擬人更有活力地與人交互。
成維忠向記者表示,所謂的多模態訓練,是當人輸入壹個文本信息到虛擬人時,ChatGPT可以將這個文本處理成虛擬人可以理解的語言,但在之後的階段,虛擬人具體如何動作,便與ChatGPT這壹語言模態無關了,需要更多模態的參與。
當前階段,ChatGPT的出現已給中科深智在壹級市場帶來了壹定利好。至少,成維忠感覺到,當他跟別人談起中科深智到底是做什麽的,聽得懂的人越來越多了。
在他的預判中,虛擬人的發展會比元宇宙快壹步,“虛擬人技術雖然是元宇宙原生技術的壹部分,虛擬人本身也是壹個交互工具,解決了交互問題,對互聯網的交互升級會起到關鍵作用。”
他認爲,在元宇宙真正到來之前,未來3到5年內,只要有屏幕有網絡的地方,便會有虛擬人的身影。
-(每日經濟新聞*每經記者:陳婷/對話未來商業)