閉關一年創業大模型,姜大昕站在AGI呼嘯的風中
2024年2月,在准備一場分享會的PPT中,前微軟全球副總裁、如今的階躍星辰CEO姜大昕,把他看到的一句評論放進了自我介紹:
“在微軟混得風生水起,怎麽想不開創業?”
從位于北京地址丹棱街5號的微軟大廈,走到階躍星辰如今的辦公地點,只需要10分鍾。但從加入微軟到創業,姜大昕用了16年。
形容自己爲“極端i人”的姜大昕,16年來極少出現在聚光燈下,但他主導研發的産品,是大衆耳熟能詳的微軟搜索引擎Bing、智能語音助手Cortana、微軟雲Azure,以及辦公全家桶Microsoft 365。
作爲微軟亞洲互聯網工程研究院(STCA)的副院長和首席科學家,姜大昕又是一位極具人才號召力的學者。在數據挖掘和自然語言處理(NLP)領域,他在頂刊發表了近200篇論文,如今與他並肩創業的,還有曾任字節跳動總監的朱亦博,以及出身微軟STCA的焦斌星。
這是姜大昕創業後首次接受媒體采訪,在和《智能湧現》兩個小時的交流中,我們幾乎沒有按照既定的采訪提綱走,在姜大昕身上,感性和理性有著平衡的配比,這讓我們的聊天變得尤爲有趣。
姜大昕會記得那些對他影響深遠的生活碎片。談及從微軟出走創業,他引用了大學好友的一句話“這個世界上每天刮很多風,但這個風刮到你家門口,一輩子就那麽一兩次”;說到GPT帶來的沖擊,他形容自己:“感覺整個世界在我身邊呼嘯而過,留下自己在風中淩亂。”
當然,他也有技術高管對所從事領域的嚴謹:講到AGI怎麽推動,他立刻展示了自己畫的PPT和路線圖;提到訓練數據的來源,他能脫口而出全球網頁的總量,以及中文語料在全球的精確占比。
姜大昕給公司規劃的路徑,是摸著OpenAI的石頭過河,走一條“單模態—多模態—多模理解和生成的統一—世界模型—AGI(通用人工智能)”的路。
△姜大昕爲《智能湧現》展示的AGI路線圖。拍攝:蘇建勳
他提到,很多OpenAI的信息看似雜亂,實際上就是沿著這條脈絡去發展:Sora的發布,是爲了叠代多模生成的能力;收購機器人公司Figure.ai,是爲了布局具身智能;首席科學家Ilya帶隊人類對齊項目Q*,則是爲補足System 2(大腦的複雜任務規劃能力)而准備。
“不能只看OpenAI的形,要看神。”姜大昕對《智能湧現》總結。
相比其他大模型玩家的高調入場,階躍星辰在過去一年幾乎隱形,但事實上,階躍星辰的入局時間並不晚。
據《智能湧現》了解,階躍星辰早在2023年年初,就拿下了多家頂級VC的投資;這意味著在資本搶跑的時間點,圍繞資金、人才、數據等維度,階躍星辰的儲備不會遜于任何一家底層模型廠商。
在過去喧囂的一年中,階躍星辰選擇埋頭研發産品。
2023年7月,團隊正式開始訓練模型。兩個月後,綜合性能超過GPT-3.5的千億參數大模型Step-1落地;11月,千億參數的多模態模型Step-1V又告成。在2024年3月23日的全球開發者先鋒大會上,階躍又給出了語言大模型Step-2的預覽版——這也是國內初創公司,首次交出的萬億參數模型的答卷。
“同行都在曝光狂奔的狀態,你會焦慮嗎?”我們把這個疑惑抛給姜大昕。
“不會。我覺得把門關上來奔,可能奔得更暢快一點。”姜大昕說。
大模型創業團隊中,最不缺的就是AGI信仰者。王小川通往AGI的途徑,是蓋一幢不同垂直模型的“模型大廈”;月之暗面的楊植麟,則押注了長文本。
姜大昕對AGI的態度是?他認爲,孕育出GPT的Transformer架構,只能到達世界模型,但到不了AGI。
“就像Sora融合了Transformer和Diffusion,AGI一定是不同模型的融合。”遵循Scaling Law(規模定律)堆參數的下一步,姜大昕覺得,模型需要真正融合多模態的生成和理解能力。
兩個小時的訪談結束得有些匆忙,姜大昕在接到一個電話後,匆忙和我們告別趕赴下一場會面,離開的時候,我們看到姜大昕辦公室門牌上的符號——那是一個他手繪的Logo。後來得知,它的靈感來自階躍函數(Step Function)——神經網絡中最早的激活函數,用折線圖表示時,就像往上攀登的一級台階,這也成了公司的名稱和Logo。
訪談開始前,我們問了姜大昕文章開頭的問題:“在微軟混得風生水起,怎麽想不開創業?”
“我們從來沒說要做一個小公司,我們就是奔著AGI去的,不然我們這些人聚在一起幹嘛呢?”姜大昕告訴我們。
以下是《智能湧現》與階躍星辰創始人、CEO姜大昕的訪談內容:
一、把門關上來奔,可能奔得更暢快些
《智能湧現》:我們看到資料,階躍星辰成立的時間是2023年4月,具體是什麽時間開始籌備的?
姜大昕:起點大概在2023年春節那會兒,可能會更早一些。
2022年底,我就開始考慮兩個選擇,一個是留在微軟,還有一個是出去創業,但沒有最後下決心。到了春節的時候,ChatGPT變得很火,那時你每天都被很多信息包圍,我就有點坐不住了。
微軟的文化是追求科技進步,但是它是大公司,有既定的發展戰略,在一個方向會走得非常遠,很難說我個人決定要幹什麽;我覺得這一輪屬于劃時代的變革,大概是過年的時候想清楚,應該自己出來創業,就開始找人、找錢,開始注冊公司。
以前有一個報道說我離職創業,底下有人評價:“在微軟混得風生水起,怎麽想不開創業?”我可以用同樣的問題問我們核心團隊的每一個人:在大公司都混得挺好,爲什麽要創業呢?
《智能湧現》:微軟很多同僚都在這波浪潮出去了,比如Harry(沈向洋)南下去了IDEA研究院,周明成立了瀾舟科技,梅濤離開京東成立了HiDream.ai。身邊這些人的動態,對你來說會不會也是一種刺激?
姜大昕:會。微軟出去創業的人也不少,創業人之間還是有交流的,我多多少少也受他們影響。包括我大學同學也有創業的,他在2022年底和我說的一句話,我覺得挺好玩:“這個世界上每天刮很多風,但這個風刮到你家門口,可能一輩子也就那麽一兩次。你不用顧慮,風來的時候你就上車,先上車再說,都不用想得很清楚”。
當然我沒有他那麽極端,但我記住了他的話,“風刮到你家門口,一輩子也就那麽一兩次”。在那之前有元宇宙、Web 3、區塊鏈,這些東西都很火,微軟內部也在做,但就沒有那麽觸動我,讓我覺得一定要親身去做。
《智能湧現》:大模型爲什麽能讓你那麽心動?
姜大昕:最初看到ChatGPT的時候,我就隨便問了兩個問題。第一個問題是“How old are you?(你幾歲了?)”,這個問題實際上是一個坑,因爲一般Retrieval Based(基于檢索)的聊天機器人就會瞎答,一會兒說9歲,一會兒說10歲。有些表現好一些的聊天機器人,事先就內置了一條Rule,用戶隨便問,回答都是16歲。
但它的回答和以前完全不一樣。我記得它說:我是2019年訓練完的,今年是公元2022年,所以我3歲。
我不死心,又問了“你明年多大”。這個問題放在以前是能“搞死”所有聊天機器人的,沒有一個答得對。這個問題的難點在于要理解明年是“今年+1”,然後再把數字代進去算一遍,這個減法的過程就是推理。它又回答出來了。
《智能湧現》:當你看到ChatGPT的效果,你做的下一件事是什麽?
姜大昕:跟它對話當天我是很懵的,就覺得怎麽可能?它一定在作弊!
後來我把所有相關的paper都拿出來重新讀了一遍,最開始的時候是GPT-3的研究,後來是看InstructGPT(OpenAI基于GPT-3微調後的模型)的論文,最後我再回過頭來看Scaling Law,看湧現能力。
把所有的東西拼起來後,我就覺得沒有那麽神奇,就能想明白ChatGPT爲什麽能做到1750億的參數,怎麽用Pre-train(預訓練)加上這套東西。後來這件事情爲什麽我要親自去做?紙上得來終覺淺,覺知此事要躬行。我想我自己也能做,沒准還能做得更好。
《智能湧現》:1750億的參數、Pre-train的方法,在幾年前還是非共識性的東西,現在已經變成了所謂的第一性原理。在幾年前,OpenAI首席科學家Ilya Sutskever提出這些的時候,很多人覺得他是瘋子。
姜大昕:是的,那時候我也和國內一些研究員聊,包括早期和智源研究院的學者們。2020年GPT-3出來的時候,國內已經聊得熱火朝天了,我們在微軟也是,但聊完之後覺得這東西又大又蠢,還不如BERT好使,我們就聳聳肩膀繼續搞BERT去了。
因爲我們當時做産品,我們知道GPT-3從研究的角度是個劃時代的東西,因爲它第一次做到了通用。但是我們覺得這個東西沒做好,比如用在搜索上,它比BERT差遠了。
《智能湧現》:從決定要創業,到正式注冊公司的4個月裏,你做了什麽?
姜大昕:當時我覺得還缺人。團隊的構建我們叫做“鐵三角”,就是系統、算法和數據。
我自己可以負責算法,但我們至少缺一個做系統的,一個做數據的。做數據還好,我們搜索引擎團隊負責搜索排序相關性的leader,焦斌星,主動找過來跟我講:搜索做不下去了。他找到我後,我跟他聊了大概兩個小時,我發現我們想法一樣,就覺得上個時代已經結束了,搜索已經做到頭了。
找做系統的人我們花了很大周折。算法搞定了只是一方面,最後還要能把系統搭起來,而且要是一個高性能計算的系統,這個非常重要。
而且當時我們覺得千億參數肯定不是重點,至少要到萬億,甚至十萬億。參數一旦上去,系統就非常重要。但是我又不是做系統的,我通過好幾個人,最後找到了朱亦博。他以前也是微軟亞洲研究院的,當時在谷歌。我和他聊,發現他也要做大模型,而且他是真的做過萬卡,還不止做過一次。
他問我,萬卡實在是沒挑戰,我都做兩次了,你們要幹嘛?我說我們要搞AGI。我又說我們是一個創業公司,萬卡當然要做,我們的系統和算法能夠緊緊綁在一起,來我們這兒你可以天天和算法同學talk。他一聽這挺好,後來他就在我們這兒做系統負責人。
《智能湧現》:系統對于大模型的關鍵之處在哪裏?
姜大昕:算力是什麽?就是拿到幾千幾萬張卡,頂多組成了一個個機器。當參數達到千億、萬億量級的時候,有三個東西在權衡,一個是計算,一個是內存,一個是通訊。如果按照先計算、後存儲、再通訊出去的流程,那就太慢了。系統就是在三者中間取一個平衡,讓三者並行,提高算力的利用率。
另一方面,一萬個人指不定還有人頭疼腦熱,上萬台機器運行,有機子壞了很正常。機器壞了之後怎麽做到不影響全面?系統能夠將任務自動遷移到好的卡上,自動拉齊,然後重新去計算。這個過程人是無感的,這也是一個很強的技術活,你得感覺到它哪裏壞了。
《智能湧現》:團隊是怎麽磨合的?
姜大昕:如果讀博也算職業生涯的話,我們幾個第一階段都在做研究,博士畢業後有的在研究院待過一段時間,有的直接進了産品組,在裏面做了大概10年。大家既有研究的視角和思維的深度,又有一線做産品的經驗,同時還有管理幾十人到幾百人的團隊,管理經驗很豐富。
所以他們幾個人過來之後,我可能在大方向上會跟他們一起討論,但具體到執行方面,他們比我懂,不需要我告訴他們該怎麽做。反倒是我被信息包圍的時候,我還要問他們,你告訴我這個東西到底是怎麽回事,該怎麽做。
《智能湧現》:現在團隊有幾人?
姜大昕:150人左右。
《智能湧現》:你怎麽看這個規模?
姜大昕:大模型不是人海戰術,OpenAI提了個詞叫做“人才密度”,說的就是整個公司不用太大,但是人才密度要高,每個人都要A-class,組建一個精英團隊。
我也很贊同這個說法,金字塔尖的幾個人的高度,決定了整個模型的高度。不是說你有100個人就一定能幹掉10個人。如果100個人的高度遠不如那10個人,你的模型就是上不去。
《智能湧現》:所以階躍現在的團隊構造是什麽樣的?
姜大昕:前端+後端,前端就是産品,後端就是模型。
《智能湧現》:在2023年一整年的時間裏,很多公司在剛成立的時候就已經高調對外了。階躍一年之後才正式對外釋放一些信息。同行起碼都在展現狂奔的狀態,你會焦慮嗎?
姜大昕:我一點都不焦慮,我們也沒停,我們也在狠狠地奔。而且我覺得把門關上來奔,可能奔得更暢快一點,省了很多幹擾和關注。
在這段時間我覺得我不需要從外界獲取什麽,我很清楚我要做什麽,我們的路線圖很清晰,團隊也都ready。我知道路線圖是正確的,我就往前走。所以我們的速度其實很快,只是我們沒有對外發布。
具體而言,我們從2023年7月1日開始訓練千億參數模型Step-1,8月底訓完了,一次就成功。
二、GPT-3.5是個分水嶺,後面很多人就爬不上去了
《智能湧現》:2023年是神奇的一年,前有疫情的放開,大家沈浸在樂觀的情緒,但後又有投資行業的下滑,這意味著融資的窗口期很短。所以年初那麽多模型公司踴躍露面,也會有錢的訴求和人才的訴求。
姜大昕:大家的焦慮我能理解,而且我特別同意上半年樂觀,下半年悲觀。
但上半年大家爲什麽樂觀?因爲大家經曆了和我當時一模一樣的階段,GPT-3.5出來的時候很震驚,後來發現幾個月我也做出來了,沒那麽了不起。但他們沒有看到後面還有很長的一條路要走。
往下,越來越多的人做到GPT-3.5,再往下應該怎麽做?不知道。然後全世界都在追趕GPT-4,又不知道該怎麽追趕,也追不上,就開始慢慢悲觀了。這次看到Sora以後,很多人覺得“這個差距是不是越來越大了”,就開始質疑這件事。怎麽落地?怎麽商業化?大家覺得不知道該往哪走了。
《智能湧現》:你悲觀嗎?
姜大昕:我們不悲觀。我覺得GPT-3.5就是個起點,是個拉力賽的熱身。後面需要長期走下去,Scaling Law一直往上走。每走一步、參數量每一個數量級的提升,換來的都不是線性增長。
其實GPT-3.5的資料是很多的,但GPT-3.5之後是個分水嶺,這之後所有的信息都封閉了。你看GPT-3.5,OpenAI還是發了paper,如果他們不發paper,我覺得大家還會懵很久。
前幾天也有人判斷GPT-3.5會是一個分水嶺,最後國內有決心、有能力走到萬億的大模型企業不會有很多。
《智能湧現》:階躍的Step-1對標的是GPT-3.5,訓練一次成功的策略是?
姜大昕:我還是那個觀點,GPT-3.5不代表什麽,它就是個熱身,它是個入場券。
GPT-3.5的算力用兩三千張A800就可以搞定,數據用公開數據也可以搞得定,算法層面LLaMA這種開源架構已經有了。這些條件,在InstructGPT的paper等材料裏都寫得很清楚了,你老老實實地複現一遍,基本就能達到。
《智能湧現》:Step的效果怎麽樣?
姜大昕:那個時候國內已經有一些模型了,我們內部評了一下,在榜單上我們能排前三。但我們選擇不發布,因爲我們覺得這就是一個起點。
我們後來做了兩件事情,一個是開始做多模態,之後2023年11月我們的多模態模型也做完了。另外一個事情是,我們開始積聚能量做萬億參數的大模型,但萬億的准備時間很長。
《智能湧現》:准備萬億參數大模型所積聚的能量指什麽?
姜大昕:還是算力、系統、算法和數據。算力差不多要達到等效A800的數萬卡集群,而且卡一定要放在一個集群裏,因爲一旦跨集群,它的通訊就跟不上了。
《智能湧現》:數據呢?來源是什麽?
姜大昕:現在大模型的中文語料是非常匮乏的,大家如果用公開語料庫,一般用Common Crawl,簡稱“CC”的數據集。但裏面中文語料只占5%,其中90%是垃圾數據,真正能拿來訓練的最終只有0.5%。
要解決中文語料不足的問題,第一點,你要有全球視野,用全球互聯網上高質量的語料來彌補中文語料的不足。全球互聯網大概3億個網站,質量也參差不齊,只有100萬個網站的質量是可以用來訓練大模型的。這100萬個網站在哪?是誰?這個只有搜索引擎公司知道,我們會根據權威度爲每個站點打分,相當于有了一個索引。
第二點,即便是高質量網站,質量也參差不齊,所以最初網頁需要清洗、去重,這需要一條流水線,而且這個活非常細,因爲不同的網站內容都不一樣。這是搜索團隊的基本功。
目前國內語料嚴重不足,但我們團隊有做Bing的經驗,覆蓋的是全球的網站。
《智能湧現》:如果爲了做中文語料,搜狗和百度的中文語料會不會更好一些?
姜大昕:大模型對語言不敏感。對它來說,不同語言只是一種編碼,現在大模型的翻譯做得非常好,不管你用哪種語言喂給它,再讓它用中文吐出來,沒問題。
《智能湧現》:不少公司都會強調他們在中文語料裏的積累非常強,所以這個邏輯站不住?
姜大昕:沒有那麽大差別,不是說你有90%的中文語料,而我只有30%,你就比我好3倍。他們更好的是詩詞這些從英文語料上不能獲得的中文語境。
但比語言更重要的是獲取高質量語料、知識的途徑。現在全世界大多數的知識還是在英語裏。
《智能湧現》:那麽在算法層面,階躍采用的是Transformer架構嗎?
姜大昕:是。
《智能湧現》:之前智譜AI的CEO張鵬就說,中國如果延續Transformer架構,是永遠超不過OpenAI的,畢竟人家有先發的積累。你怎麽看這個觀點?
姜大昕:長遠的看是正確的。甚至我覺得要實現System 2,用的應該不是Transformer。比如我們要實現生成和理解的統一,像Sora的做法就是把擴散模型和Transformer做了融合。
Transformer大概能做到世界模型,但AGI不行,至少它得是一個模型和另外一個模型,或者另外多個模型的和。
《智能湧現》:現在國內所有做大模型的CEO都會被問到一個很俗的問題:“你想成爲中國的OpenAI嗎?”,所以不免俗地也問你一下。
姜大昕:對。今天OpenAI出一個消息,大家就開始焦慮,明天出一個,大家又看不懂了。我覺得要學OpenAI的神,不要跟著它出一個這個、出一個那個。
我們公司從來沒說要做一個小公司,我們就是奔著AGI去的,不然我們這些人聚在一起幹嘛呢?
三、不用每個人的想法都高度一致,那反而會出問題。
《智能湧現》:最近以朱嘯虎爲代表的“市場落地派”、以楊植麟爲代表的“技術信仰派”産生了一些迥異的觀點,包括前段時間我們跟王小川聊了一下,他又提了另外的一個面向,你也都有關注對嗎?
姜大昕:我有關注。
《智能湧現》:你有沒有印象比較深刻的觀點?比如朱嘯虎對這件事情就是特別典型的投資人的思維。
姜大昕:我不覺得他們是對立的。一般人都不會絕對地選擇我只看現在或者只看未來,多半還是一個長期和短期的結合,而且在不同的時間點可能做的選擇也不太一樣。
《智能湧現》:它體現了現在大衆對于實現AGI這件事情,有的人比較悲觀,但有的人又比較樂觀。
姜大昕:我覺得都有道理,不一定要貼標簽,就說投資人都比較悲觀、比較短期,其實有的投資人也是比較長期的。前兩天我看到一個比喻挺好:現在的AI發展階段是半杯水,有些人覺得已經半杯了,未來它也漲不上去;有些人覺得現在只是半杯,終究會達到。就看你相信哪一點。
《智能湧現》:你相信哪個?
姜大昕:我相信水杯肯定會滿,AGI是會實現的。
但是在這個過程中,你說我們要去做應用,這也是一定的事情,因爲技術和應用一定是要結合的,尤其在大模型時代。
我們覺得有兩點:一,由應用來牽引模型。我們做的是通用模型,通用模型說白了就是什麽都會做,但什麽都做得不精,它強調的是通用性,那就需要和應用結合起來牽引這個模型,讓它在特定方面做得更強。
二,做成應用以後就會有數據的回流。對于人工智能、機器學習而言,數據是非常重要的一方面。在追求整個模型做大、做強的過程中去做應用,是必須的。
《智能湧現》:實現AGI的路徑是什麽?
姜大昕:(他爲《智能湧現》展示了一張AGI的路線圖)我舉個OpenAI的例子。最近OpenAI動作很多,一會兒DALL·E 3,一會兒Sora,一會兒又投一個機器人,一會兒說有個Q*。大家就覺得好像看不清OpenAI背後到底要幹什麽,他們在下什麽棋?是不是有個統一的東西在裏面?
△階躍星辰畫的OpenAI發展路線圖。圖源:階躍星辰
實際上我是能看清的。OpenAI是一條主線、兩條支線,我們的看法和他們是一致的。最開始的時候叫單模態系統,比如一個語言模型或一個視覺模型。現在到了第二個階段,特點是多種模態走向融合,比如GPT-4V既能夠接收文字、理解文字,也能夠理解圖片,甚至在理解的基礎上還能做推理。
但是這個融合還沒有很徹底,因爲理解任務和生成任務是分開的。分開造成的後果就是:理解模型理解強,生成弱;生成模型反過來,生成強,理解弱。
AI的下一步,一定是將生成和理解統一在一個模型裏。多模態理解和生成統一後,就可以和具身智能結合起來。具身智能是什麽?就是把模型作爲機器人或者一個設備的大腦,讓它去探索這個世界,與世界進行交互。
《智能湧現》:融合的目的是什麽?
姜大昕:建設一個世界模型。在具身智能之前,AI只是把人給的數據作爲訓練語料,但到具身智能,訓練數據是通過物理世界和機器人或設備進行交互得到的反饋。數據獲取方式不一樣了,就能形成世界模型。
再往前走,世界模型如果還能夠做複雜任務的規劃,能做抽象概念的歸納,這就是我們所說的大腦的System 2。世界模型還只是System 1,加上System 2之後,我們認爲就到了AGI。
《智能湧現》:所以在OpenAI的路徑裏面,AGI不是一個漸進的過程?
姜大昕:它的主線在往前推,但推得也沒那麽順利。比如到了理解和生成的統一那兒,它就停下來了,也沒有突破。甚至我們認爲,Sora可能是它遇阻以後,回過頭來做的,然後在這兒叠代幾圈以後再往下走。
而且我們認爲Sora不是OpenAI的真正目的,這是一個中間狀態。OpenAI的主線是最終做到理解和生成的統一。爲什麽OpenAI會買機器人?它的兩條支線,一條是在做具身智能,還有一條就是做System 2,這就是Ilya親自帶團隊做超級對齊的原因,所謂的Q*只是System 2的一種做法。
所以OpenAI那條主線在往前走,但也不是走得那麽快。但是不妨礙它的支線可以同步走,然後到一起的時候就彙合。
《智能湧現》:這有點像從AGI的結論倒推。
姜大昕:我們這個圖不是今天畫出來的,公司成立的時候就畫了這張圖。我們認爲,一定是從單模態到多模態,到具身智能,最後到AGI。在上海辦公室的牆上,我們也放了這張路線圖。
《智能湧現》:這個路線對于今天階躍的業務進展,它的實際意義是什麽?階躍在循著這個路徑在做業務是嗎?
姜大昕:我們的模型肯定是順著這個做。我們在內部講,學OpenAI,不是學其形,而是學其神。不能光看它今天發一個什麽,就跟著做,一定要先看清楚它背後的邏輯是什麽,它的線路是什麽。
《智能湧現》:就像你剛才說,公司成立的時候就已經有這個路線了嗎?
姜大昕:是的。可以看到現在Gemini和Claude全部在多模理解這條線上。我們選擇在多模理解上突破,和他們選的路一樣。
《智能湧現》:團隊達成路線的共識是什麽時候?
姜大昕:第一天,很多東西在我們看來都是常識。
《智能湧現》:這條路線通向AGI,是整個行業的共識嗎?
姜大昕:其實每個點都有人質疑。Scaling Law也不是百分之百的人相信,尤其是Sora出來之後,因爲Sora參數量沒那麽大,Scale的是數據,不是參數。
但我們非常堅定:多模的理解和生成必將統一,這是通向AGI的必經之路。
《智能湧現》:楊植麟說他也信仰AGI,但他覺得長文本才是通向AGI的必經之路。
姜大昕:不同的人有不同的理解,比如我們就相信這條路,楊植麟他說長文本也很好,我覺得可以百花齊放,AGI畢竟沒有人實現,或者說即使是實現,也可以用不同的方式。
我覺得挺好的,不用每個人的想法都高度一致,那反而會出問題。大家是發散的想法,也許最後殊途同歸了,那是最好的。
我們還是很開放的心態,我覺得我們團隊那些人很強的,但我覺得還是要謙虛,因爲AGI這件事情太難了,從不同的角度摸索,就是盲人摸象。
四、我的股東沒有天天問我“商業化做得怎麽樣了”
《智能湧現》:團隊這麽低調,招人都是人傳人的方式,在融資上怎麽跑贏?怎麽說服投資人?
姜大昕:我們的團隊去跟頂級的VC談,把我們的認知寫成商業計劃書。別人問我們要幹什麽?我們就說我們要幹這些事情。我們爲什麽能幹到這些事情?最後選擇投我們的人,應該都算是長期主義的投資人,他也覺得這件事情是個鐵人四項,要有最優秀的團隊聚在一起,而且大家要有路徑、有信心往前走,他們也願意長期地去投資。
我們很幸運,已經得到一些理念價值觀一致的投資人支持。大家都認可技術和産品才是本質,大模型賽道不應變成一個簡單融資PK的賽道。
《智能湧現》:公司融資是在2023年三四月份?
姜大昕:對。
《智能湧現》:現在回頭看,如果當時再晚三個月去融資,情況會不會很不一樣?
姜大昕:我很難再回過去看那個時間點,這個很難假設。
《智能湧現》:現在對于你來說最重要的事情是融資嗎?
姜大昕:是技術和産品。
《智能湧現》:階躍在産品路徑上選擇的似乎是To C。
姜大昕:這是一個蠻新鮮的嘗試性的打法,首先我們有取舍。從大的角度來說,我們目前更多的還是聚焦在模型上。産品我們肯定做,一個是我們需要有産品來牽引我們模型的發展,第二是産品的數據來反哺我們的模型。
至于做什麽樣的産品?首先,我們不想做傳統的定制化模型加上私有化部署這樣的邏輯,我們還是想保持這個團隊是相對比較精英、人才比較集中的團隊,類似于OpenAI這樣的團隊。所以我們選擇不做傳統意義上的To B,會比較聚焦在To C上。
現在在To C層面,一個是我們有自己的To C産品,另外一個是我們在行業中還有一些合作夥伴,比如財聯社、中國知網、中文在線。爲什麽有合作夥伴?因爲它們也有很多用戶,它們也有To C的場景。我用一個詞叫“探索”,和我們的合作夥伴一起在探索這件事情。
《智能湧現》:所以階躍不碰To B?
姜大昕:我們不做傳統To B,不做一單單接單的傳統定制化和私有化部署。但是我們認爲大模型對金融、出版等行業很重要。這些行業的頭部企業也有興趣,說他們有需求,願意跟你一塊去探索大模型究竟怎麽落地。
首先我們選擇的行業不會很多,每個行業挑上一兩家就夠了。現在每個行業都是選了一家真正頭部的,它們有意願、數據和實力跟我們合作。
《智能湧現》:這種合作的模式是怎樣的?
姜大昕:比如我們和界面財聯社成立了JV(合資公司)。共同訓練金融行業大模型,來解決金融行業的一些業務或解決財聯社本身To C的問題。財聯社也有一個App,我們用大模型探索怎麽更好地幫它的用戶收集財經信息,提供一些投資顧問等等。
我們想要很多的場景,這有點像做一個生態,相當于我們提供基礎模型,但是別的企業願意跟我們合作,各有各的方法,有的可能就是調用我們的模型,有的不光是模型,在數據上也可以分享,我們再訓一個行業模型。它們的需求不一樣,最後這個生態我覺得也是豐富多彩的。
《智能湧現》:躍問和冒泡鴨AI這兩款産品似乎也是走AI角色扮演的路子。
姜大昕:現在To C的産品在國內和美國就三類,一類是ChatGPT這樣的,叫效率工具類,一類像Character.ai主打聊天、擬人、情感陪伴,還有一種是AIGC,生個圖、生個視頻。
我們也比較謙虛,大家都這麽做,一定有道理,那我們也做,我們去看用戶到底用産品來做什麽,他們到底需要我們幹什麽。
所以我覺得不管做什麽To C産品,它和模型之間的關系有個比喻,就是皮囊和靈魂。現在這些聊天類産品,你把brand去掉放在一起,能分得清誰是誰嗎?所以我們的産品最終還是要讓靈魂變得更有趣。
《智能湧現》:這意味著産品,這個“皮囊”沒那麽重要?
姜大昕:這是我自己的感覺,現在靈魂還沒有呢,大家都差不多。
也許産品經理不同意我的看法(哈哈哈)。我一個朋友非常鄭重地警告我,說不要對你的産品經理指手畫腳,你不是一個做産品的人,管好技術就OK了。我不是一個typical user(典型的用戶),對産品沒有資格指手畫腳。
當然我還是要試圖去理解産品經理的邏輯,如果我不理解,你就拿數字跟我說話。不過我們兩款産品還在比較早期的探索階段,還沒有開始做大規模的投放獲客。
《智能湧現》:現在談大模型的商業化會不會很早?
姜大昕:早,商業化得先有産品,現在AI Native(AI原生)的産品要先有模型,所以我們是反過來的,先把精力放在模型上,模型如果很強,在模型的基礎上去做産品,在産品的基礎上再討論怎麽商業化。
《智能湧現》:大模型要快速商業化是VC的共識嗎?
姜大昕:我們股東現在還沒這樣。
《智能湧現》:那商業化就不是VC的共識?
姜大昕:反正我沒看到我們股東天天問我商業化做得怎麽樣了。
但我們肯定會關注産品,不是說我現在只做模型什麽都不看,那不可能,産品應該怎麽做,那也很重要,也在探索。爲什麽會發布産品?我們也是想得到用戶的反饋。
《智能湧現》:To B的商業回報是立竿見影的,但是To C的回報似乎更渺茫一些?
姜大昕:To C這個東西有不同的觀點。有的人認爲互聯網時代,包括移動互聯網時代有過很多To C的産品,它們的成功路徑都可以借鑒,它們的商業模式都可以拿來試一試。也有人說不對,那是互聯網時代的,AI時代是一種全新的商業模式。
但我覺得現在這個東西到底是什麽,沒有人說得清楚。就像GPT,我見到那個Demo之前,前一天你要我預測AGI什麽時候出現,我會告訴你要十幾年,甚至幾十年。但是那天看到那個Demo以後,你再問我,我說也許兩年,也許三年。所以我覺得現在這個時代就是這樣,AI一天,人間一年。
《智能湧現》:那麽這個行業有什麽是確定的?
姜大昕:我相信技術帶來的兩個巨大的變量。一個是人機交互的方式改變了,原來人和機器交互要通過程序員。現在不用,自然語言就可以。甚至將來人機交互不再是一個數字化的交互,變成具身的交互,機器人可以在物理上跟你交互。
第二,內容生成的門檻被極大降低了,不管是文字的生成,還是視頻的生成,它的門檻被極大降低了。Sora出來以後,我跟電視台的很多編導談,他們都非常興奮,覺得以前我們把腦子裏的想法拍出來,成本是非常高的。現在我只要調調Sora,這個東西就出來了,可以釋放我多少的創造力。這也是一個巨大的變量。
雖然看不清楚現在具體要做什麽,但我相信這兩個變量終歸會以某種方式釋放出來,産生超級應用,這是肯定的。
《智能湧現》:我們再聊聊身份的轉變。你在微軟16年,現在創業1年。身份從高管轉變爲一家創業公司的CEO,你有什麽感覺?
姜大昕:創業比在微軟的進展更快。現在每天都有很多新的內容出來,我在微軟不會關注這麽多東西。其次我體會到自己做還是很重要的,我再重申前面說的,很多東西你看到了,不代表真的理解了,你還是要自己去做。
比如數據這個例子。2022年一堆人跑出來說數據不夠了,Scaling Law不work,沒有那麽多的數據讓它再往上Scale。我們當時聽了不以爲然,因爲還不知道人家在訓GPT-4。我們心裏想,互聯網上億的網站、萬億的網頁,數據怎麽就不夠用了?
但等到我們做到GPT-4的時候,發現數據真的不夠用。但是2023年大家又跑出來說數據的問題已經解決了。因爲有兩個東西,一個叫做多模態,視頻數據是海量的,另一個叫做人造數據。
所以你不自己做,只是聽說的話,可能就不理解。
《智能湧現》:自己做會讓你感到興奮。
姜大昕:對,我當時感覺整個世界在我身邊呼嘯而過,都在往前沖,我在原地很茫然,留下自己在風中淩亂,我不知道我在幹什麽。
《智能湧現》:現在你和風一起沖了。
姜大昕:現在你至少可以看看風往哪沖,有時候風沖的方向跟我好像還挺一樣的,很高興。---[采訪 : 蘇建勳、周鑫雨*文 : 周鑫雨*編輯 : 蘇建勳/來源: 36氪 ]