對話昆侖萬維首席科學家顔水成：大模型的三個共識與三個分歧

2024091216:37

大模型産業，熱鬧非凡，也爭論不斷。共識有三，Transformer和MOE架構的能力、Scaling Law的潛力、視頻生成的前景。

分歧也不少。Transformer是否是AGI的最終架構、大模型的監管問題、模型的商業化路徑和效率提升。

在昆侖萬維兼天工智能首席科學家顔水成看來，共識也好，非共識也罷，大模型要真正迎來“奇點”時刻，還需要三點突破：

“一是實現大模型在更多實際應用中的成功落地，能夠大規模解決實際問題並産生經濟效益；二是建立完善的AI倫理和監管框架，確保AI技術的發展在可控和安全的範圍內；三是技術創新持續突破，如數據處理、模型架構等方面不斷進步。”

顔水成長期深耕人工智能産業，是橫跨學界和産業界融合的代表性人物，他于一年前加入昆侖萬維，看重昆侖萬維清晰的産品矩陣。

“我在多家公司從事過AI相關的研究工作，我始終認爲合理的産品布局至關重要。我更傾向于選擇那些能夠用産品引領技術研發的公司，這樣技術能夠有的放矢，與産品互相促進，從而增加産品成功的概率。”

過去一年，顔水成帶領團隊成立了2050全球研究院，致力于將産品、研發和研究團隊通過六個大模型有機連接起來。

3月29日，他們與國際頂尖高校合作開源了數字智能體研發工具包AgentStudio，爲研究人員和開發者提供了一個完整覆蓋智能體開發流程的綜合性平台。

4月29日，昆侖萬維2050全球研究院聯合新加坡國立大學、新加坡南洋理工大學團隊發布並開源了Vitron通用像素級視覺多模態大語言模型。這款重磅的視覺多模態模型支持從視覺理解到視覺生成、從低層次到高層次的一系列任務，解決了圖像與視頻模型割裂的問題。

6月25日，他們與新加坡南洋理工大學合作開發了Q算法，大幅提升了現有大模型的推理能力。Q*算法的開發使小模型的推理能力得以接近甚至超越參數量大幾十倍、上百倍的模型。

7月3日，他們聯合北京智源人工智能研究院、新加坡南洋理工大學、北京大學等機構提出了通用計算機控制框架Cradle，使AI Agent無需訓練即可像人一樣直接控制鍵盤和鼠標，實現在任意開閉源軟件上的交互。

節奏不可謂不快。

而要問顔水成花最多時間的地方是什麽，他作答：

“原生語音交互和視頻生成技術。我認爲原生語音交互是下一代AI應用的關鍵，它能大幅簡化人機交互的方式，讓人與AI或設備的溝通更加自然和高效，從而大幅增加AI産品的用戶基數。這種交互方式有望改變AI智障標簽，使其真正成爲智能助手。”

視頻生成也是重中之重，顔水成認爲，視頻生成技術的進步將徹底革新內容生産的方式，極大提高創作效率。

至于多模態的話題，他說多模態的終極目標就是“all-modality-in, all-modality-out”，即輸入和輸出涵蓋所有模態，而核心在于生成的內容必須符合現實世界的邏輯和物理定律。這樣的能力能夠讓模型更接近于人類對世界的理解和互動方式。

在訪談中，顔水成還談及大模型同質化問題，他提到，隨著語言模型規模的不斷擴大和數據量的增加，訓練大模型的成本逐步超出大多數小公司的承受範圍。同時，開源大模型的性能也在快速提升，使得從零開始訓練一個全新大模型的必要性越來越低。

“因此，越來越多的公司將選擇持續訓練（continual training）和開發高效小模型，這自然導致模型的同質化。從目前已經公開的開源模型來看，模型本身的差異性並不顯著，更多的差異體現在數據選擇和一些微創新上。”

他認爲，這種情況決定了大模型的發展趨勢會趨向同質化，這是市場發展和技術資源分配下的必然結果。

以下爲網易科技對話顔水成實錄（經整理）：

易科技：您去年9月宣布加入昆侖萬維，一年過去了，目前感受如何？有什麽不一樣？

顔水成：我在多家公司從事過AI相關的研究工作，我始終認爲合理的産品布局至關重要。我更傾向于選擇那些能夠用産品引領技術研發的公司，這樣技術能夠有的放矢，與産品互相促進，從而增加産品成功的概率。在我加入之前，昆侖萬維已經有了相對清晰的産品矩陣，包括搜索、音樂、遊戲、社交等，這些産品部分已經有了原型，部分已經面向用戶發布，對技術的需求非常明確，這與我對于技術與産品協同發展的理念高度契合。

其次，昆侖萬維88%的營收來自海外市場，這與我的職業背景非常契合。由于我曾在新加坡工作多年，對海外業務的特點有著深入的了解，這讓我對昆侖萬維在全球範圍內的布局更有信心。此外，昆侖萬維的創始人周亞輝在業務領域的前瞻性和在投資領域的獨到眼光，眼光十分獨到，也讓我對公司的未來充滿期待。

當時入職時，我感到非常興奮。現在一年過去了，昆侖萬維依舊保持著“産品引領技術”的特點，並且還新增了AI短劇方向的布局，這也正是我多年來的研究領域之一，因此我的初衷依舊保持不變。

易科技：您加入昆侖萬維的一個原因是，昆侖萬維是少數打通了研究、研發到産品鏈條的通用人工智能企業。那到目前來看，你們做的事情是否符合預期？過去一段時間取得了哪些成果？

顔水成：過去這一年，我們爲完善研究、研發和産品的協同鏈條，成立了2050全球研究院，致力于將産品、研發和研究團隊通過六個大模型有機連接起來。這一年，我們在研究上取得了一系列令人滿意的成果，充分展示了研究對産品的推動作用。

3月29日，我們與國際頂尖高校合作開源了數字智能體研發工具包AgentStudio，爲研究人員和開發者提供了一個完整覆蓋智能體開發流程的綜合性平台，極大地提升了開發效率，讓構建專屬數字智能體變得更加簡單、高效和靈活。

4月29日，由我帶隊，昆侖萬維2050全球研究院聯合新加坡國立大學、新加坡南洋理工大學團隊發布並開源了Vitron通用像素級視覺多模態大語言模型。這款重磅的視覺多模態模型支持從視覺理解到視覺生成、從低層次到高層次的一系列任務，解決了圖像與視頻模型割裂的問題，實現了圖像和視頻內容的統一處理，爲下一代通用視覺大模型的發展奠定了基礎，推動了大模型邁向通用人工智能（AGI）的進程。

6月25日，我們與新加坡南洋理工大學合作開發了Q算法，大幅提升了現有大模型的推理能力。在GSM8K數據集上，Q使Llama-2-7b的准確率達到80.8%，超越了ChatGPT；在MATH數據集上，Q幫助DeepSeek-Math-7b實現了55.4%的准確率，超過了Gemini Ultra；在MBPP數據集上，Q幫助CodeQwen1.5-7b-Chat提升至77.0%的准確率，顯著縮小了與GPT-4的編程水平差距。Q*算法的開發使小模型的推理能力得以接近甚至超越參數量大幾十倍、上百倍的模型，爲未來的高效AI發展指明了方向。

7月3日，我們聯合北京智源人工智能研究院、新加坡南洋理工大學、北京大學等機構提出了通用計算機控制框架Cradle，使AI Agent無需訓練即可像人一樣直接控制鍵盤和鼠標，實現在任意開閉源軟件上的交互。Cradle是第一個能同時操作多種商業遊戲和軟件應用的AI框架，相關論文和代碼均已開源，爲通用人工智能的進一步發展提供了強有力的支持。

此外，研究院還在MOE（Mixture of Experts）模型架構上做出了一系列創新，將計算效率提升了100%，並成功將部分成果應用于公司的MOE大模型，使昆侖萬維成爲國內最早將MOE模型應用于業務的公司之一。

總的來說，過去一年的成果充分驗證了昆侖萬維在研究、研發到産品的全鏈條打通模式的有效性，也讓我對未來的研究充滿信心。

易科技：那在昆侖萬維有面臨什麽挑戰嗎？

顔水成：我們面臨的主要挑戰是如何高效地將前沿研究轉化爲有市場價值的産品。爲此，我們優化了跨部門協作和溝通機制，顯著提升了團隊效率，使研究成果能夠更快地應用于産品中。然而，市場需求變化和技術落地速度的平衡仍需不斷調整。我們還需加強對市場趨勢的把握，確保研究方向與實際需求對接，同時加大對團隊成員的培養與支持，提升整體能力。

總體而言，這一年昆侖萬維的務實精神和團隊之間的緊密合作讓我感觸深刻，雖有挑戰，但每個挑戰都推動我們不斷進步，我對未來充滿信心。

易科技：您在新加坡，你們內部如何做好協作？比如，平日您和CEO方漢先生是如何交流的？

顔水成：雖然我的工作地點主要在新加坡，但每次回北京，我都會和同事們線下溝通交流。這種面對面的交流非常寶貴，不僅能相互學習，還能激發新的想法和思路。昆侖萬維的團隊氛圍非常開放，大家都非常樂于分享彼此的進展和心得，這對推動團隊的整體創新非常有幫助。

方漢先生是一位非常特別的CEO，他不僅深入了解技術，還保持著親自讀論文、寫代碼的習慣，這在管理者中非常難得。我個人喜歡用數學和公式推動研究，而方漢先生堅持寫代碼和大量閱讀論文，這種精神非常值得我學習。我們經常討論最新的研究成果和論文，方漢先生的物理系背景讓他對問題的理解非常獨到，我們之間的交流不僅限于AI技術，有時也會探討“世界的起源”“AI的未來終局”等更深層次的問題。這種跨學科的交流拓寬了我們的思維，也爲研究帶來了不同的視角。

總體來說，和同事們，尤其是方漢先生的交流，讓我感受務實的創新精神，這對個人和團隊的發展都有著非常積極的影響。

易科技：目前您花最多時間研究的問題是什麽？

顔水成：目前我在AI領域投入最多時間的研究方向是“原生語音交互和視頻生成技術”。我認爲原生語音交互是下一代AI應用的關鍵，它能大幅簡化人機交互的方式，讓人與AI或設備的溝通更加自然和高效，從而大幅增加AI産品的用戶基數。這種交互方式有望改變AI“智障”標簽，使其真正成爲“智能助手”。

視頻生成同樣是我關注的重點領域。視頻已經成爲當今獲取信息的主要途徑之一，視頻生成技術的進步將徹底革新內容生産的方式，極大提高創作效率。當視頻模型發展到能夠模擬物理世界時，遊戲將不再需要傳統的3D引擎支持，許多實驗也將可以在虛擬環境中進行，影視創作將變得觸手可及，成爲每個人都能掌握的基本技能。

這些技術的進步不僅能突破現有的行業瓶頸，還將改變人們的生活和工作方式。雖然這些場景看似遙遠，但技術正在快速發展，這些變革正一步步向我們走來。我相信，隨著原生語音交互和視頻生成技術的不斷成熟，我們將看到一個更加智能、高效且充滿創意的世界。

易科技：您曾在一次交流中談到，在座的同行，肯定在關鍵技術和經驗上的分享有所保留，不然無法解釋爲什麽産品這麽好。那昆侖萬維，現在有什麽正在研究的或比較看好的新方向嗎？

顔水成：從公司競爭力的角度來看，技術分享有所保留是合理的。當前行業內最常見的保留方式是開源模型但不完全開放數據，特別是那些對模型表現至關重要的數據部分。昆侖萬維一直以産品爲核心，競爭力主要體現在用戶粘性上，因此在技術和數據分享方面相對開放，我們的語言大模型和許多數據集都進行了開源和分享。

然而，一個成功的模型不僅僅是技術和數據的堆積，更是經過無數次試錯和調整的成果。這些試錯過程中的經驗和細節往往是最寶貴的，也是難以完全分享的部分。正是這些不斷優化和改進的過程，賦予了我們産品和模型超越競品的競爭力。我們的“殺手锏”更多體現在這些細節和叠代中，而這些往往是模型比其他産品更爲強大的原因。雖然具體的技術細節不便完全透露，但大致方向就是通過持續的實驗、優化和對用戶需求的深刻理解，不斷提升模型和産品的表現。

易科技：昆侖萬維特別重視多模態，您怎麽評價昆侖萬維在多模態方面的進展？

顔水成：模態是實現通用人工智能（AGI）的重要路徑，因爲人類的智能本質上就是多模態的，融合了視覺、聽覺、語言等多種感知和認知能力。昆侖萬維致力于多模態研究，主要是因爲公司的核心産品本身就需要多模態技術支撐，比如AI音樂和AI短劇等産品，這些都要求能夠處理和生成不同類型的數據。

公司在多模態技術上的投入是非常必要且具有前瞻性的。目前，公司的AI音樂産品在技術層面達到了世界級水准，具備非常強的競爭力，並在不斷叠代中提升用戶體驗。同時，公司在短劇創作方面推出的SkyReels具有極大的想象空間，這類産品有望成爲AI 2.0時代的爆款。總體來看，昆侖萬維在多模態領域的進展快速且成效顯著，爲公司未來的産品創新和市場競爭力打下了堅實的基礎。

易科技：多模態的終極形態可能就是世界模型，您怎麽看？

顔水成：我個人非常認同這一觀點，並且對世界模型的理解也在不斷演進。總體來說，多模態的終極目標就是“all-modality-in, all-modality-out”，即輸入和輸出涵蓋所有模態，而核心在于生成的內容必須符合現實世界的邏輯和物理定律。這樣的能力能夠讓模型更接近于人類對世界的理解和互動方式。

視頻作爲當今人類獲取信息的主要方式，視頻生成技術的發展有望徹底改變內容生産的方式，大幅提升創作效率。當視頻模型發展到可以逼真模擬物理世界時，遊戲可能不再需要傳統的3D引擎，許多實驗和模擬將可以在虛擬環境中進行，而影視創作也將變得更加普及，甚至成爲每個人的基本技能。雖然這些看似是未來的場景，但技術正一步步將它們變爲現實，視頻生成模型的火熱正是這一趨勢的重要體現。

易科技：AI大模型、AI社交、AI遊戲、AI搜索、AI視頻和AI音樂等業務矩陣，都是昆侖萬維布局的領域。在您看來，這些嘗試是多，是少？什麽才真正是昆侖萬維在AI領域的核心競爭力？

顔水成：我認爲這些嘗試是非常合理的。每個産品的潛力各有不同，有的可能最終只能發展到獨角獸規模，而有的則有機會成爲更大的業務。不僅每個探索的方向都具備成長爲優質業務的潛力，更重要的是它們之間的技術能夠相互借鑒和共享，甚至可能催生出全新的業務形態。

昆侖萬維在AI領域的核心競爭力實際上在于這些業務背後共享的六個大模型：語言大模型、多模態大模型、音樂大模型、語音大模型、視頻大模型和3D大模型。這些模型不僅支撐著現有的業務發展，還爲未來的創新提供了技術基礎。通過這些底層技術的共用和叠代，昆侖萬維能夠迅速響應市場變化，並不斷推動産品的演進和升級。

易科技：有觀點稱，昆侖萬維從遊戲轉型AI，跨度很大，是在追熱點。

顔水成：我認爲昆侖萬維的轉型是尋找“第二增長曲線”而非追熱點。優秀的公司不會僅滿足于現有業務，而是會在成熟業務的基礎上積極探索新的增長點，確保公司在快速變化的市場中保持活力和競爭力。AI正是昆侖萬維在遊戲和娛樂業務基礎上開辟的新賽道，是對未來增長的前瞻性布局。

昆侖萬維多年來在遊戲和娛樂領域積累了豐富的2C産品的經驗，這些是新的AI産品的根基。AI作爲我們的第二增長曲線，不僅爲昆侖萬維帶來了新的市場空間，還爲公司未來的發展注入了新的動力。

易科技：昆侖萬維“All in AGI與AIGC”戰略，從您的角度來看，這場戰要想打贏，決勝戰役是什麽？

顔水成：要打贏這場戰，關鍵在于公司AI産品的商業模式是否成立。決勝的核心戰役是既能准確把握用戶的真實需求，又能持續提升AI模型的能力，同時有效降低模型的推理成本。降低成本不僅需要算法和系統層面的持續創新，還需要在芯片領域取得突破。

爲此，昆侖萬維在AI産品、AI研究、AI基礎設施（AI Infrastructure）和AI芯片等多個方面進行了全面布局。我們不僅專注于優化算法和系統，還積極推動芯片技術的創新，以支撐AI模型的高效運行。通過這樣全方位的部署，我們力求打造從底層技術到應用場景的完整生態鏈，以確保在AGI與AIGC領域占據優勢，真正實現商業化落地。

易科技：現在各家大模型有的趨于同質化了。

顔水成：我認同這一觀點，而且未來同質化現象可能會更加明顯。隨著語言模型規模的不斷擴大和數據量的增加，訓練大模型的成本逐步超出大多數小公司的承受範圍。同時，開源大模型的性能也在快速提升，使得從零開始訓練一個全新大模型的必要性越來越低。因此，越來越多的公司將選擇持續訓練（continual training）和開發高效小模型，這自然導致模型的同質化。

此外，從目前已經公開的開源模型來看，模型本身的差異性並不顯著，更多的差異體現在數據選擇和一些微創新上。這種情況決定了大模型的發展趨勢會趨向同質化，這是市場發展和技術資源分配下的必然結果。

易科技：現在AGI還沒有一個確切的定義標准，您認爲今天的國內大模型市場有哪些共識與非共識？在您看來，何時才是“奇點時刻”。

顔水成：目前國內大模型市場存在幾大共識：

1. Transformer和MOE架構的能力：大家普遍認可Transformer模型架構和MOE結構具備足夠的擬合能力，能夠充分學習和理解現有的大量文本數據。

2. Scaling Law的潛力：大家一致認爲Scaling Law還沒有到極限，進一步提升模型性能的關鍵可能在于合成數據（synthetic data），這一方向正在被廣泛關注和探索。

3. 視頻生成的前景：視頻生成被認爲是未來的一個重要方向，大家普遍看好其發展潛力，認爲其大爆發指日可待。

在非共識方面，也有不少分歧：

1. Transformer是否是AGI的最終架構：雖然Transformer目前是主流架構，但行業對其是否會成爲AGI的最終模型存在分歧。雖然有新的架構被提出，但還未能真正動搖Transformer的核心地位。

2. 大模型的監管力度：不同國家和地區對大模型的監管政策存在較大差異，行業對如何平衡創新與監管、保障數據安全和隱私的看法也並不一致。

3. 模型的商業化路徑和效率提升：在如何更高效地實現模型的商業落地和持續優化方面，行業內也存在不同的思路和探索路徑。例如，有的企業聚焦于降低推理成本和模型優化，而有的企業則側重于數據垂直化和行業定制化，這種策略上的差異也體現出非共識的一面。

要真正迎來“奇點”時刻，需要在幾個關鍵方面取得突破：一是實現大模型在更多實際應用中的成功落地，能夠大規模解決實際問題並産生經濟效益；二是建立完善的AI倫理和監管框架，確保AI技術的發展在可控和安全的範圍內；三是技術創新持續突破，如數據處理、模型架構等方面不斷進步。只有在技術成熟、商業模式驗證、社會接受度提升等多個維度同時取得進展，行業才能迎來真正的“奇點”時刻。

易科技：對于目前中美AI的差距，有人認爲中美不相上下，有人認爲中國明顯還是落後于美國。

顔水成：關于中美在AI領域的差距，我認爲兩國各有優勢，並不完全是簡單的“領先”或“落後”可以概括。美國在基礎研究、頂尖人才和核心算法創新方面的積累深厚，擁有全球領先的AI企業和學術機構，這使得美國在技術創新和前沿突破上占有優勢。而中國在應用層面、數據規模和市場落地速度方面表現突出，尤其是在AI技術的實際場景應用和商業化上進展非常快。

中國的優勢在于龐大的數據資源和市場規模，能夠迅速將AI技術轉化爲實際應用，推動了産業的快速發展。同時，國內的AI企業和研究機構也在不斷加大投入，技術水平在很多領域已經逐漸縮小差距。

未來，兩國在AI領域的競爭和合作將繼續推動全球AI行業的發展。我相信，通過不斷努力和創新，中國有機會在更多的AI領域取得突破，與國際領先水平齊頭並進。

易科技：這幾年經歷過認知層⾯⾃我顛覆的時刻嗎？

顔水成：和很多人一樣，ChatGPT的出現對我來說是認知層面的一次顛覆時刻。它迅速讓語言模型成爲AI領域最核心和最有價值的課題，展示了AI在某些任務上真的可以超越人類。當時我意識到，作爲研究者，一定不能置身于AI最前沿的課題之外，因爲很難再找到比語言大模型更值得深入的研究方向。恰逢那時我剛從Sea集團離開，于是選擇加入智源人工智能研究院，深耕這一領域。

另一個自我顛覆的時刻是Sora的出現。原本認爲不可能實現的任務，卻被不斷突破，這讓我相信世界模型的潛力是真實存在的。Sora的出現不僅驗證了這一可能性，也預示著視頻産業及其他領域將迎來巨大變革。

對于我的研究而言，目標始終是“Know More About Intelligence”。盡管有觀點認爲研究者應堅守自己的領域，不應追逐風口，但我的選擇是始終站在AI發展的最前沿。這兩次認知上的顛覆讓我毫不猶豫地擁抱這些變化，因爲它們帶來了了解智能本質的全新機會。

* 關于《態度AGI》---易科技重磅推出系列對話欄目-態度AGI。~~過去三年，AI變革風起雲湧，全球科技秩序正在重構，通往AGI的道路或許正在悄然臨近。

* 本欄目以AGI爲題，將對話100位AI專家、企業家、投資人，試圖撥開雲霧，與大家一道見證AGI時代的到來。---第十五期對話榮耀CEO趙明。

---[出品 : 易科技-態度AGI對話欄目*作者 : 丁廣勝/來源 : 態℃ ]

我要留言

對話昆侖萬維首席科學家顔水成：大模型的三個共識與三個分歧

美債拍賣連續第二日需求強勁，這一次是更長期的10年期美債

時尚藝術花式穿搭一身寬鬆時髦帶感好心態開啟時尚美女穿搭風潮

美債拍賣連續第二日需求強勁，這一次是更長期的10年期美債

時尚藝術花式穿搭一身寬鬆時髦帶感好心態開啟時尚美女穿搭風潮

對話昆侖萬維首席科學家顔水成 ：大模型的三個共識與三個分歧

美債拍賣連續第二日需求強勁，這一次是更長期的10年期美債

時尚藝術花式穿搭*一身寬鬆時髦帶感*好心態開啟時尚美女穿搭風潮

美債拍賣連續第二日需求強勁，這一次是更長期的10年期美債

時尚藝術花式穿搭*一身寬鬆時髦帶感*好心態開啟時尚美女穿搭風潮

對話昆侖萬維首席科學家顔水成：大模型的三個共識與三個分歧

時尚藝術花式穿搭一身寬鬆時髦帶感好心態開啟時尚美女穿搭風潮

時尚藝術花式穿搭一身寬鬆時髦帶感好心態開啟時尚美女穿搭風潮