對話智源研究院院長：我們距離AGI還有多遠

2024061713:26

AI新浪潮觀察---對話智源研究院院長：我們距離AGI還有多遠---連然2024/06/17

摘要: 現階段語言大模型已具備了AGI非常核心的理解和推理能力。

2024年已經過去了一半，我們離AGI的距離拉近了多少？離實現AGI還有多久時間？能實現AGI的終極路線是什麽？

曾推出國內首個大模型「悟道」的北京智源人工智能研究院，在在第六屆「北京智源大會」上給出了一些答案。

在智源研究院院長王仲遠看來，當前基於大模型的人工智能技術，實現AGI 可能只需要四五年。如果目標是追求AGI，特別是通過使用多模態大模型實現AGI，相比DiT，自回歸模型（auto regressive）才是終極的技術路線。

在未來，大模型將以數字智能體的形態與智能硬件融合，以具身智能的形態從數字世界進入物理世界，同時，大模型這一技術手段可為科學研究提供新的知識表達範式，加速人類對微觀物理世界規律的探索與研究突破，不斷趨近通用人工智能的終極目標。

「北京智源大會」上，智源研究院還發布了一系列在語言、多模態、具身、生物計算大模型的前沿探索和研究進展以及大模型全棧開源技術基座的叠代升級與版圖布局。

圖片來源：智源研究院

在大會期間，王仲遠接受了極客公園在內的媒體訪問。以下為對話整理（有刪減）：

大模型價格戰進行時

Q：目前國內的大模型都在經歷降價潮，對此怎麽看？

王仲遠：有利有弊。一方面，某種程度上的降價對於開發者去開發自己的應用場景，然後去接入大模型去做更多的嘗試，是有一定的價值；另外一方面，如果降價導致收入低於成本，可能不利於大模型的持續叠代和優化，因為這些過程需要巨大資金投入。我也認為中國的大模型不應該停留在GPT-4，而應尋求建立一個健康的產業生態和找到合適的商業模式，以實現可持續發展。

Q：價格戰會對產業和開發者帶來哪些影響？百模大戰會不會很快有洗牌？

王仲遠：對於開發者而言，價格戰顯然是有利的。當前，開發者的選擇非常多，例如智源的 FlagOpen 提供了針對大模型全棧的解決方案，包括訓練框架、清洗工具、模型算法以及支持不同芯片的獨特算子。開發者可以選擇開源社區的工具，也可以利用商業模型的降價來嘗試不同公司的模型效果，從而獲得更好的資源和支持。

關於百模大戰是否會很快引發市場洗牌，我無法直接對這個問題直接給出一個明確的答案，畢竟我們只是一個科研機構。我們希望看到整個產業能夠更加健康地發展，避免出現劣幣驅逐良幣的情況。

Q：大模型降價潮下，價格和價值之間如何衡量？

王仲遠：我個人認為，現階段對於應用開發者而言，選大模型時優先考慮的肯定不是性價比，而是模型的實際效果。開發者首要關註的是所選的大模型是否真正具備人工智能的能力，能否為自己的產品賦能，而不是選擇一個表現不佳的「人工智障」模型。在這個基礎上，我相信價格最終會達到一個合理的水平。

實際上，如果一個大模型被廣泛認為特別好用，隨著使用規模的擴大，規模效應自然會顯現。模型的規模上去了，其價格以及工程師們通過各種工程架構系統優化所帶來的成本降低也會隨之而來。因此，當下理性客觀的開發者在選擇大模型時，應該不太會將價格作為主要考慮因素。 Q：如今 AI 基建也進入了拼應用的階段，您覺得具體的這個落地場景有哪些？您重點關註什麽領域？

王仲遠：首先，正如我之前提到的，國產大模型的能力已經逼近GPT-4，具備了支撐應用的條件。我個人預測，未來兩三年內我們會看到大量應用的產生。應用可以分為B端應用和C端應用。

B端應用目前相對明確，因為許多大模型已經在多個場景中廣泛應用，幾乎覆蓋了所有行業。

在2023年之前，可以稱之為弱人工智能時代，那時的人工智能只能針對特定場景、特定任務訓練特定模型，從而達到特定效果。

然而，2023年之後，人工智能逐步進入通用人工智能時代，其最大的特點是泛化性、通用性和跨領域的特性，這將幾乎影響所有行業。

一些行業的影響會更快，比如大模型在生成摘要方面效果非常好，因此對所有與文書相關的工作、文案處理等效率提升作用顯著。

再比如，當前的文生圖、文生視頻技術，雖然還處於早期階段，但已經能夠產生許多有創意的圖片和視頻，這些都是提升效率的工具。

在金融保險、醫療教育等行業，人工智能的作用同樣顯著。只要與這些能力相關，各行各業都會受益，並且未來會不斷出現好用的工具。大模型作為生產力和效率工具的作用非常明確。

C端應用方面，大家更希望看到爆款應用的出現。回顧移動互聯網時代或更早期的技術革命，每次新技術的出現都需要一定的周期，包括技術能力的提升、成本的降低以及硬件的支持。當這些條件具備時，能夠解決真實用戶需求的C端爆款應用才會出現。

因此，對於C端爆款應用，我們還需保持一定的耐心。即使在其他國家，目前也尚未出現C端的爆款應用。未來一兩年內，我們可能會先從B端看到非常好用的工具，然後C端應用會逐步出現。

此外，我還想補充一點，智能體（Agent）很有可能會成為爆款應用的一個方向，大模型可以讓它成為真正意義上的智能助理。如果每個人都能擁有一個足夠智能和好用的助理，這種科技帶來的平權將催生重大的產業變革。這可能是C端應用的一個重要方向，也是令人興奮的前景。

Q：大模型在手機上處於什麽樣的階段？

王仲遠：目前AI模型在手機端的應用還處在非常早期的階段。由於當前手機硬件能力的限製，手機尚無法運行真正意義上的大模型。那麽，它能運行的模型大概是什麽規模呢？我們這次發布了一個輕量級的圖文多模態大模型，叫Bunny3B、4B、8B。這樣的輕量級模型或許有可能在手機上運行，但其智能化水平、解決問題的能力和推理能力顯然比真正意義上的大模型要差得多。

對於C端用戶來說，他們對模型的全方位能力非常敏感。如果某些指令或期望的效果未能得到滿足，他們很可能會抱怨。這也是為什麽基於大模型的許多C端應用留存率依然不高，因為在用戶留存率不夠的情況下，很難產生真正的爆款應用。

結合手機端的應用還處在非常早期階段。要實現真正的殺手級應用，需要天時地利人和：不僅需要大模型本身能力的提升，還需要輕量化後的模型依然能達到令人驚艷的效果，比如能夠實現頂尖大模型90%的能力。當最優秀的輕量級模型能達到這一水平時，手機端和PC端的應用才會相應爆發。

這包括模型和硬件的提升，手機廠商也需要願意將能夠運行大模型的芯片內置到手機中。此外，端側和雲端如何協同、隱私問題如何解決，以及如何滿足用戶的最大需求等問題都需要得到完美解決。只有當這些條件都具備時，真正的爆發點才會到來。所以，目前我們仍處在非常早期的階段。

Q：從22 年底到現在我們也說過這個卷參數，卷應用，從圈內人的這個視角來看大模型現在進入到了一個什麽樣的階段？

王仲遠：我們不能夠高估一次技術革命的速度，但也不能低估一次技術革命它的深度和廣度。歷史上每次工業革命的持續時間都不是一兩年，而是數十年，而且會對生活的各個方面產生持續而深遠的影響。

之前的人工智能其實仍然是「弱人工智能」，一些最本質、最深層的問題，比如對文字的理解、推理問題一直沒有被解決，所以在可能大概在三四年前，我覺得可能人工智能第三次浪潮有可能會陷入低谷。

但當前基於大模型的人工智能技術，尤其是可能的通用人工智能的發展，有可能成為真正意義上的第四次工業革命。

幾年前，我可能會認為實現通用人工智能（AGI）可能還需要四五十年的時間，但現在我覺得可能只需四五年。

放到整個歷史的長河來看，所有的這一切都非常的正常，而且我們的速度還挺快的。無論是模型叠代的速度，還是未來可能出現的B端和C端殺手級應用，我堅信它們一定會到來。

只是可能絕大部分的用戶，可能要等到這些技術真正爆發並廣泛應用後才會意識到其影響，預計這種進展可能會在GPT-4及其後續版本中體現出來。

具身智能和機器人

Q：大模型怎麽樣賦能機器人？王仲遠：智能體到底存在數字世界還是存在物理世界？這就非常有意思了。

智能體通常最初存在於數字世界，比如在手機或電腦上的智能助理，它們通過軟件和算法執行任務和交互。隨著技術的發展，這些智能體可能會進一步發展成為具有物理實體的機器人，那麽這就到了具身智能大模型。

當然因為硬件的發展速度現在比不上大模型的叠代速度，幾乎是每個月都可以看到至少 5 個、 10 個全球有影響力的大模型發布，但硬件還遠沒有到這種叠代的周期和速度，硬件通常的叠代周期和速度還是以年來計算的，這就意味著一方面大家可能現在會看到具身智能人形機器人在過去這一年突然間變得非常火熱，但也請大家其實要保持客觀理性的來看待具身智能大模型，包括人形機器人的技術發展周期，要能夠接受它在未來幾年內可能進入到低谷，直到它跨越真正的周期，迎來真正的爆發。

但是我堅信智能體會從數字世界進入到物理世界，具身智能也會跟世界模型相互促進，並最終實現AGI。

Q：智源本次發布的智能超聲機器人和生物計算法模型，都是聚焦於醫療領域，為什麽關註這個？

王仲遠：這個項目是跟清華大學和 301 醫院一起聯合研發的，應該是全球首創的智能心臟超聲機器人。

它是從心臟超聲做起，但是它並不局限於此，我們正在把它的能力拓展到人身體的其他部位的超聲，不過智能心臟超聲機器人，實際上更屬於具身智能的範疇。

然後 OpenComplex 生物計算模型，屬於這個 AI for science 的範疇，那麽剛才提到了我們認為大模型最終會進入到真實的世界，而不會只存在於數字世界裏面，那麽宏觀的世界就是機器人，微觀的世界就是生命分子，這是我們布局這兩塊研究的一個很重要的原因。

心臟智能超聲機器人屬於具身智能在醫療領域的應用。OpenComplex其實可以用在提升藥物研發的效率，因為藥物研發上有一個雙十定律，就是一款新藥從立項研發到真正能夠上市，它可能要耗費 10 年的時間，超過 10 億美金。

所以 AI 加藥物研發或者 AI 製藥是過去這些年確實是非常熱的一個話題。那麽我們將生成式人工智能技術或者生物計算大模型應用在 AI 藥物研發，除了能夠做化合物的篩選和預測這種小分子的藥，它甚至能夠給製藥帶來新的可能性，就把大分子蛋白質 RNA 這種製藥的可能性都添加進去，變成一種新的可能的製藥的一個方式，這是一個從 0 到 1 的可能性的突破。

至於為什麽關註醫療領域，從研究的角度來講，我們其實布局的是具身智能大模型和生物計算大模型，而且我們的這些模型在醫療領域能發揮比較好的作用，尤其醫療是關系到每一個人的，那麽對於像智源這樣的科研機構，我們肯定還是希望能夠對國計民生，對於整個全社會能夠做出一些底層的貢獻。

Q：那接下來智源還會在具身智能上關註哪些領域？王仲遠：具身智能未來仍然是非常重要的一個方向，會是我們重兵投入或者集中資源的投入的方向。

剛才講了具身智能距離真實的應用或者說對產業化還是要有比較長的時間，大家對於具身智能，對於人形機器人還是要保持理性客觀的看待，它裏面依然有非常多的需要亟待突破的問題，包括缺乏類似於ImageNet的大規模數據集，缺乏像 GP3.5 這樣的「ChatGPT 時刻」，也缺乏殺手級的場景。

我們接下還是會依托智源在大模型，尤其是多模態大模型的技術優勢，去做技術突破；同時我們會聯合像清華、北大、中科院這樣的高校，也會聯合包括像銀河通用以及我們自己孵化的領視智遠這樣的企業，也非常歡迎更多的企業跟我們一起，搭建一個具身智能的創新平臺，聯合包括上下遊的供應鏈的企業，通過具身智能創新平臺來解決最重要的數據模型和場景這幾個面的重大突破，推動具身智能技術的發展。這是我們下半年和明年的一個重要工作重點。

終極路線：自回歸

Q：就多模態而言，auto regression 對於 DiT是否具有顛覆性？王仲遠：首先在僅僅從技術上判斷，我們認為將來 DiT 不是終極的技術路線。當然 DiT 毫無疑問能夠達到一個可用的產品級別。

然而，如果我們的目標是追求人工通用智能（AGI），特別是通過使用多模態大模型實現AGI，我們認為自回歸模型（auto regressive）在將不同模態，尤其是語言大模型進行整合方面具有重要意義。我們甚至認為像OpenAI的ChatGPT和Sora等產品線在未來有可能進一步融合。 Q：智源大致從什麽時候開始走自回歸路線的？是否中間也是走過像 DiT 這樣的路線？

王仲遠：目前我們在內部沒有走過 DiT 的路線，但關註過 DiT 的論文。

我們現在正在訓練中的模型叫 Emu 3，其目標是實現原生多模態世界模型。我們相信，當這個模型最終發布時，它的效果和影響力會非常重要。然而，這條技術路線非常難。我們選擇這條路線的原因是智源不追隨企業界已經復現和相對成熟的路線，而是致力於探索多模態技術方向的終極路線。

智源選擇了一條我們認為在多模態方向上的終極技術路線，這條路線非常困難。即使是 Google 的 Gemini 也未完全實現這一目標。Gemini 實現了圖片、文字、圖像、視頻和聲音的輸入，但輸出的只是圖像和文字。GPT-4 集成了音頻，但還沒有完全實現視頻的生成和理解。

因此，這項技術本身具有很高的難度，但這種難度恰恰適合智源研究院來挑戰，因為我們的使命是實現真正的技術突破和原始創新。同時我們也會尊重科學規律，並接受失敗的可能性。並不是創新就一定會成功，但即使失敗也是非常有意義的創新。

Q： auto regressive路線如果要成功的話，對於底層算力的要求很高。王仲遠：我們現在依然在做的是技術突破、探索和創新。但因為我們作為一個科研機構，我們的算力確實還是極其有限的，我們更多的是要把這條技術路線給趟通，要進入到產業化，還是需要真正有重大算力的公司跟我們合作。

Q：這個事要做成需要怎樣的算力條件？王仲遠：當下的資源不能說夠但至少讓我們可以去探索。我們很希望為中國儲備多模態方面方向的技術。

為什麽我們選擇自回歸技術？其實自回歸（auto regressive）和 Transformer 等技術並不是全新的原創技術，ChatGPT 本質上就是基於自回歸技術。

所以，我們是選擇了一條我們認為適合多模態技術的原生路線，這條路線需要從最原始的層面融合不同的模態。同時，這條路線具有可擴展性，既可以融合文字、圖像和視頻，也可以方便地融合音頻和3D內容。

如果將來有一天，我們覺得這條技術路線探通探索成功了，到了真正能引起更廣泛關註的時候，它的技術又可以進入到產業界，在那個時候一定需要更海量的算力。

Q：剛剛說到終極的技術路線是自回歸，屬於原始創新，可能會失敗，那麽什麽環節、什麽地方最難？

王仲遠：每個環節都很難，第一數據處理。多模態，文字算一種模態，圖像算一種模態，視頻算一種模態，聲音算一種模態，這些模態到底應該怎樣tokenizer？不同的模態到底怎麽表達成token？這本身就是一個技術方向或者研究問題。

當這些 token 訓練的時候，到底用什麽樣的數據配比，ROC曲線什麽是合理的，模型先後訓練什麽，有非常多的訓練的技巧，能不能形成有效的算力支持訓練，最終評判實際達到的效果能不能看到Scaling Law？能不能看到隨著數據量的提升，參數規模的提升，模型效果也在提升？這些都是亟待被突破驗證解決的問題。

Q：現在各家大模型強調處理文本的數量，如何評價這種做法？大模型應該真正註重哪些維度？

王仲遠：長文本肯定是一個大模型非常重要的特性，但不是唯一特性。大模型一定要關註的是它的理解和推理能力，我自己相信 AGI 到來的會是大模型的理解推理能力，尤其是那些理解上的，理科上的能力，比如解數學題、比如能不能夠真正的編程，然後能夠像人類一樣進行理解、進行思考、進行推理，這個是決定達模型是否具備足夠的通用性和泛化能力的一個核心。

Q：怎麽樣讓大模型更加像人類這樣思考？

王仲遠：大模型在理解和推理能力上的躍升，是近年來人工智能領域的一個重要突破。這個進步與大模型的 Scaling Law 有關，即隨著模型參數、訓練數據和計算量的增加，模型的性能顯著提升。這也是過去十幾年我一直都在追逐的方向，讓機器像人類一樣理解自然語言。

大模型之所以能夠帶來技術上的可能性，很大程度上是因為其基礎是神經網絡，而神經網絡的核心結構——神經元結構，自1943年提出以來一直沒有改變。盡管 Scaling Law 在近幾年被廣泛提及，但其實這個概念已經存在了七八十年。

每次神經網絡和人工智能的快速發展，都是由於模型參數、訓練數據和計算能力的重大躍升。所以模型能不能夠繼續提升它的推理能力？繼續推提升像人類一樣思考的能力，這恰恰是大模型或者通用大模型需要去解決的問題，我們也很期待它能夠持續展現這樣的一個能力，因為只有當這樣的能力出現，才能夠真正在各行各業實現真正的應用突破。---圖片來源：智源研究院院------[智源AI大模型/來源: 極客公園]

我要留言

對話智源研究院院長：我們距離AGI還有多遠

粉絲剛破萬，單場直播就拿下百萬GMV，她的破圈密碼是什麽？

芯片女王：奔向問題，問題實際上創造了機會

粉絲剛破萬，單場直播就拿下百萬GMV，她的破圈密碼是什麽？

芯片女王：奔向問題，問題實際上創造了機會