01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

香港大學馬毅:如果相信只靠Scaling Laws能實現AGI,你該改行了

2024060419:39



少數派中的少數派。

當大部分人都相信一件事或趨勢時,不同意的人可以選擇沈默,也可以大聲說出來。前者是少數派中的多數派,後者少數派中的少數派。

馬毅就是一個少數派中的少數派。

自 2000 年從伯克利大學博士畢業以來,馬毅先後任職於伊利諾伊大學香檳分校(UIUC)、微軟亞研院、上海科技大學、伯克利大學和香港大學,現擔任香港大學計算機系主任和數據科學研究院院長。

他最早將 「壓縮感知」 技術應用於計算機視覺領域,在人臉識別、物體分類等任務上產生了巨大影響。

知名 AI 學者李飛飛是馬毅在 UIUC 時參與招聘的第一個華人助理教授,ResNet 一作何愷明是馬毅在微軟亞研院負責視覺組時招的第一個新員工。

馬毅公開表達時直言不諱。AI 業界驚嘆於 GPT 等大模型的威力,擔心 AI 可能毀滅人類,如圖靈獎得主傑弗裏·辛頓(Geoffrey Hinton) 和 OpenAI 發起者之一伊隆·馬斯克(Elon Musk)就多次將 AI 類比為原子彈,呼籲監管。

「說現在的 AI 危險的人,要麽是無知,要麽是別有目的。」 馬毅在 twitter 上回應 AI 威脅論。

強烈的觀點來自他對當前 AI 系統的理解。不少人相信用更多數據、更大算力做更大參數的模型,就可以實現 AGI(通用人工智能),這就是大模型的 Scaling Laws(規模定律),它被一些人視為 「信仰」。

馬毅則不相信這條路。他認為現在的深度學習網絡本質上都在做壓縮(compression):就是從圖像、聲音和語言等高維信號裏,找到能表示數據間相關性和規律的低維結構。



 2023 年底發表白盒大模型框架 CRATE 時,馬毅在社交媒體上稱壓縮不會通向通用智能或意識。

「GPT 有很多知識,但知識不等於智能。」GPT 表現出來的數學推理等能力在馬毅看來本質還是依靠記憶、統計,就像一個接受填鴨式教育的高分低能的學生,它並不能學到因果推理、邏輯等能力。

馬毅理解的智能,是能自己糾正現存知識的不足並發現新知識的系統。

為解釋深度學習網絡到底在做什麽,馬毅團隊最近幾年的重點工作是白盒大模型,用數學來解釋深度學習網絡的壓縮過程,以找到更高效的壓縮方式。

他希望讓更多人了解白盒,以對抗黑盒帶來的誤解,因為 「歷史上,任何有用的黑盒都可能變成迷信和巫術」。他擔心對 AI 的恐懼可能帶來過度監管,遏製創新。

相比 Scaling Laws 追隨者的人多勢眾和 AI 威脅論的直指人心,馬毅等少數派影響力小得多。

今年 5 月與馬毅在香港見面前,我們問身邊的 AI 從業者:怎麽看馬毅團隊的研究?

「不太關心」、「不看他的論文了」,大部分從業者更關註如何在現有路線下提高訓練和推理效率。

就在前幾天,馬毅的多篇論文合作者,圖靈獎得主楊立昆(Yann LeCun)公開抨擊馬斯克說 AI 可能毀滅人類是陰謀論。馬斯克問楊立昆:「過去 5 年,你做了哪些 『科學』?」「你應該更努力一點。」

馬毅團隊的白盒大模型 CRATE 去年發布時,在同等參數下的指標不如已有的模型 ViT。一些從業者稱這是 「負優化」,「魔改 Transformer,但效果還不如」。

秘塔科技創始人、馬毅的學生閔可銳說:現在 AI 界的評價標準越來越偏向一個研究是否 work,而不是智識上的增長。

「你不在 1000 億參數的模型上驗證,大家就不太相信。」 他稱學界與工業界的算力差距也拉大了不同模型的效果差距。

去年馬毅創立了憶生科技:「如果產業界能接受這些東西,功成不必在我。但我們想加速這個過程,證明白盒路線可行。」 馬毅說。

寫完第三本書後發誓不再寫書的馬毅現在又開始寫一本新書,針對高年級本科生。他將面向香港大學所有專業的學生設計 AI 通識課程,講歷史和計算思想,希望年輕一代有正確理解 AI 的基礎。

憶生天使輪投資人,真格基金合夥人劉元認為,在主流方向上做到最好,或敢做、能做不一樣方向的人,都是他們尋找的創始人:「馬毅是我們見過的、少有的能做開創性工作的學者,我們很欽佩。」

真理不一定掌握在少數人手中,但少數派和觀點競爭的存在增加了發現真知的概率。

*「如果你相信只靠 Scaling Laws 就能實現 AGI,我覺得你該改行了」

*《晚點》:一些大模型從業者告訴我,他們現在已經不看您的論文了,因為可解釋的白盒大模型對實踐沒什麽指導,他們更關心如何找到更高效的訓練和推理框架。

馬毅:很正常,當你要做不太一樣或比較基礎理論的東西,大家不一定很容易接受。

但只有用理論框架解釋已有的工作,把現在這些通過經驗的神經網絡搞明白了,你才知道它的局限在哪裏。

《晚點》:你覺得主流方法的局限是什麽呢?很多人相信用更多的數據、更大的算力搞更大參數的模型可以達到 AGI。

馬毅:任何事情,用越大規模的資源就會得出越好的結果。但現在通過 Scaling Laws 看到的現象是不是智能本身?這是個 big question。

《晚點》:你認為現在大模型湧現的智能實際是什麽?

馬毅:大模型現在只實現了局部的記憶功能。

早期我們做分類和識別,讓機器能認出什麽是貓,是在模擬從物理視覺信號到我們大腦中的抽象概念的過程。生成則是一個反向過程,是從語義信號再生成物理信號。

這兩個加起來才是完整的記憶系統,現在的模型,識別和生成是分開的,所以只是對這個完整系統的局部的模擬。記憶本身從生物智能的角度也只是一種低層次智能,不是邏輯、因果推理等人類的高級智能。

正因為它是局部的,它的實現也比較粗暴,對數據、模型和算力的要求都非常大。提升它的性能也很昂貴,現在要做 Backward Propagation(反向傳播)——各種深度模型,不管多少層,都是幾十億、幾百億、幾千億的參數同時優化,這樣算力要求就很大。

而且它是一個開環系統(即無反饋控製系統,指系統的輸入量不受輸出量影響的系統),沒法知道自己學的東西是對還是錯。所以現在訓練大模型,第一步就要清洗好數據,如果你給它錯的數據,它也會記下來。

《晚點》:即使有缺陷,但為什麽現在追逐 Scaling Laws 是很多聰明人的共同選擇?全世界在這個方向上的直接和間接投入達到了萬億美元量級。

馬毅:因為它正反饋強。而且一個東西一旦變成主流,大家就會相互確認、強化認同。

一個領域裏,大家都去認可一件事,往往會忽略掉其他可能更重要或至少跟現的想法互補的東西,這在歷史上重復發生。

《晚點》:有什麽例子嗎?

馬毅:深度網絡本身就是例子。60、70 年代冷了以後,之後三四十年裏只有寥寥無幾的人在堅持。

現在有點矯枉過正,原來神經網絡是一無是處,現在變成能解決所有問題。只要稍微有點常識是不是都會覺得這裏邊有問題?

《晚點》:矯枉過正會帶來什麽?

馬毅:從眾,什麽東西熱大家就做什麽。這樣同一個指標只會培養出同質化的人,能力、方向、研究水平都一樣,沒有獨創性。

其實過去十年,國內對 AI 的投入絕對不比國外少,但整個人才培養和科研導向變得同質化,這會造成落後。

《晚點》:全球範圍裏指出現有方法局限的主要是楊立昆(Yann LeCun)、李飛飛和您這種學者。年輕的從業者是不是還是有更快拿出成果的壓力?

馬毅:作為年輕人,如果你的信仰就是 Scaling Laws,覺得把現在的系統做大就能實現 AGI ,我覺得你該改行了。因為你已經不可能有作為了,你就只能做一個螺絲釘。

去年多模態模型出來後,上上下下都說好,我跟楊立昆、謝賽寧,還有我們的學生就想:好吧,我們驗證一下,如果確實如此,我們真可以改行了,就讓 OpenAI 完成這個使命就好了,因為已經實現 AGI 了。

結果我們只做了嘗試性的測試,就發現絕大部分多模態模型在很簡單的任務上也會犯一些常識性錯誤。主流多模態大模型裏,只有 Gemini 和 GPT-4V 高於隨機猜測的水平。

但大家不願意去談這種事。現在社會各界為了推動 AI 只講積極面,不去看局限。



 馬毅提及的研究見論文 Eyes wide shut? exploring the visual shortcomings of multimodal llms。該論文展示的一些多模態模型對圖片的錯誤理解例子。

《晚點》:即使不能當最領先者,去優化現有方法是不是也有價值?

馬毅:我是說不適合再做研究了。研究要有創新,不應該從眾,要去找現有方法裏不足的地方,改進現有知識,發現新知識。如果你找不到現有方法的不足,肯定得改行。

*「任何有用的黑盒都可能變成迷信和巫術」

*《晚點》:你們團隊這幾年花了很大功夫研究白盒大模型,用白盒打開黑盒與更安全、可控的 AI 有關嗎?一般人們會把可解釋性和可控聯系起來。

馬毅:黑盒的最大問題還不是你怎麽去控製它,而是歷史上,只要什麽東西是黑盒,而且比較有用,就會產生迷信和巫術。

現在很多人想當巫師、國師,製造恐懼、利用恐懼,想壟斷這個技術。

《晚點》:你是指馬斯克嗎?

馬毅:還有幾位,都是一幫掌握這個技術的百萬富翁,說大模型是原子彈,可能把人類毀滅了。

我們就覺得很可笑。我很清楚你在幹什麽,你在做數據壓縮,做一個簡單的、局部的記憶功能,自主學習的能力都沒有,這有什麽可怕的?

如果這個東西真危險,為什麽說它危險的高科技公司的 CTO、CEO 自己也在做,Hinton(圖靈獎得主 Geoffrey Hinton) 自己都在創業。你做的就不危險,別人的就危險?

去年我在 twitter 上發過一個很得罪的人話:現在說 AI 危險的人,要麽是無知,要麽是別有目的。

《晚點》:就算現在的大模型還不是高級智能,但是不是需要提前防範它的潛在危害?

馬毅:任何技術都可能是雙刃劍。照這個邏輯,互聯網太危險了,可以傳遞各種錯誤信息,煉鋼也危險,可以做刀、做炮。

科研領域應該是開放的。如果政府去監管一個技術,應該規範它的用途和最終產品,不能連芯片、軟件,甚至算法開源都要規範。最後只能是既得利益者的壟斷。

《晚點》:所以白盒的一個意義是給大模型祛魅?

馬毅:我們想讓大家明白大模型本質上在做什麽。

它現在做的是非常簡單,甚至機械的事。有些結果看起來蠻神奇,但這些網絡的框架和對數據的處理都可以 100% 用數學解釋清楚。

這也是為什麽我們花了大量工夫去做實驗,其實作為研究完全不必要。你看最近那篇文章,有 6、7 個學校的團隊一起。我們誰都沒那麽多資源,就得團結起來,把不同應用場景都做出可信賴的成果。

(註:馬毅提到的研究見White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?)

「白盒是對數據壓縮過程的數學解釋,當知道了數學原理,就可以省去很多試錯成本」

《晚點》:實際上你們現在研究的白盒大模型,具體是在做什麽呢?

馬毅:現有的深度學習模型,例如 Transformer(主流大語言模型架構)、Denoising Diffusion (去噪擴散模型,主流文生圖模型)本質都在做一樣的事:壓縮數據——就是從高維的圖像、聲音、語言等信號裏,找到可以表示數據間相關性的低維結構,這些低維結構就可以幫助預測高維信號——只是壓縮的算子和優化策略不太一樣。

過去大家是通過經驗和嘗試,不斷找到更簡約、更精準的近似壓縮方式,但很多人不一定意識到了自己在做這件事。

白盒就是對這個壓縮過程的數學解釋,搞清它每一層要實現什麽統計或幾何功能。

一旦清楚意識到了優化的本質,你就能把這件事做得很高效,而且會發現歷史上有比現在基於經驗試出來的更高效的方法。

《晚點》:追求對數據壓縮過程的數學解釋,除了學術意義,有什麽應用價值嗎?

馬毅:現在大家買那麽多芯片,大部分都是在試錯。可能一個模型只需要一千張卡,實際卻用了一萬張,因為靠經驗設計的網絡可能有 10 個版本,要一個個去試哪一個更好。

依靠經驗的黑盒模型雖然有效,但不清楚到底是哪些部分有效,經常是 「三分之一的人在幹,三分之一的人看,還有三分之一的人在搗亂」。這就增加了很多試錯成本,也會帶來訓練中的不穩定性。

而如果知道了數學原理,就相當於把搭建築的磚頭搞明白了,以後就可以換更便宜、更好的材料,重新設計它。

《晚點》:聽起來就是從業者在追求的東西。但他們好像又不是很關註白盒的進展?

馬毅:2021 年的 ReduNet 是一個白盒神經網絡的理論框架,但未必就找到了最佳的工程實踐,當時學校也沒太多算力,我們只能在小規模的數據上做實驗,效果沒那麽直觀。

過去一年我們突破很快,真的發現在這個框架下可以設計出能被解釋的網絡,網絡性能也接近甚至超過了現在一些基於經驗的網絡,而且我們的模型更簡潔、更可解釋。

其實白盒大模型在工業界的關註度也蠻高的。去年底發的 CRATE,可能論文引用次數少一些,但它在 Github 上已經有上千顆星了。這對於一篇理論性的文章來說還是非常罕見的。

(註:ReduNet 是馬毅團隊 2022 年發布的白盒大模型理論框架,CRATE 是馬毅團隊 2023 年提出的更新的白盒大模型。)

《晚點》:不過在相似參數下,CRATE 在一些任務上的指標仍低於現有模型如 ViT。有人說白盒大模型反而是對現有系統的 「負優化」,你怎麽看?



    2023 年底發表的論文 White-Box Transformers via Sparse Rate Reduction 中,不同版本的 CRATE 和 ViT 在 ImageNet-1K 數據集上的圖像分類任務準確率比較。

馬毅:這個工作的目的是驗證依據原理設計的、可解釋的架構是有效的。但工程帶來的額外提升是後續的事。

比如我們最近就有新成果,前幾天剛發布了 CRATE-α。簡單調整一些編碼方式後,CRATE-α 的性能已經可以與 ViT 媲美。



    CRATE-α、CRATE 和 ViT 在 ImageNet-1K 數據集上的圖像分類指標比較。見論文 Scaling White-Box Transformers for Vision。

《晚點》:介紹 CRATE 的論文稱它是 「白盒 Transformer」。白盒模型和 Transformer 是什麽關系呢?它仍是一種 Transformer 架構的模型嗎?

馬毅:準確來說,白盒是一種架構實現方式,它也可以不是 Transformer。只是 Transformer 先發現了現有方法,在最初那篇論文裏,我們是從原理上去解釋 Transformer 裏經驗發現的東西到底在幹什麽,哪部分有用,為什麽有用。所以我們完全可以不相似,因為壓縮過程也可以被推導出來,可以被簡化。

接下來我們一定要超越現有的網絡,我們正在做。CRATE 還可以更簡潔和高效。

《晚點》:怎樣算超越?比如你們的新模型和 GPT-4 比如何,和 GPT-4o 比呢?

馬毅:同樣性能下,計算效率高十倍、百倍;同樣算力規模做訓練,模型性能更高。而且我的算子、系統更穩定。

《晚點》:實際上白盒模型現在能提升多少訓練效率?

馬毅:目前所用的資源只有經驗做法的的三分之一或四分之一。

實際上可能省得更多,因為我們人很少。原來 ReduNet 是光有理論和概念,還不知道實現路徑。去年年中,我們開始看到白盒框架可以做出不輸經驗方法的模型,就更有信心了,我們的學生也更興奮了。這之後光靠我們一個團隊,網絡版本已經叠代了好幾次,因為我們不是瞎猜,不需要試 10 個、100 個。

「Everything should be made as simple as possible, but not simpler」

《晚點》:你認為現在的大模型只是對記憶功能的局部的模擬,那麽真正的智能是什麽?

馬毅:現在的一個混淆是把知識當成智能。它們相關,但不同。知識是存量,智能是增量。

GPT-4 和一個初生的嬰兒,哪個更有知識?GPT-4。哪一個更智能?嬰兒。嬰兒可以自學,他可能變成下一個愛因斯坦。

知識很多時,看起來好像有智能。GPT 看似能解決一些數學推理,但它本質還是在靠記憶和統計,類似生物的 「反射」,它並沒有學到因果、邏輯,就像一個刷題考試的高分低能的學生。能使用知識都不是智能最本質的特征。智能最本質的特征是能糾正自己現存知識的不足,能增加新的知識。

《晚點》:你兩年前和計算機科學家沈向洋、神經科學家曹穎提出了智能的兩個原則是簡約和自洽,這怎麽理解?

馬毅:疫情期間我開始思考,為什麽會有智能?我們——我指生物——為什麽要學?要學什麽?

當你開始思考這個問題,問題本身就會給你想法:

這個世界上肯定是有值得學的東西,有一定的規律,可以幫你預測將來會發生什麽,這樣學習才有用,才能幫你生存。

而且這些規律一定會以最簡約的方式被表達出來,因為生物不可能消耗大量能量記錄每個 case。

(註:相關論文為 《關於形成智能的簡約和自洽原則》On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence。)

《晚點》:這就是簡約的意思?

馬毅:就像愛因斯坦講的:Everything should be made as simple as possible, but not simpler.(凡事力求簡潔,但不能過於簡化)。簡約和自洽就是從這句話來的。

簡約有兩個意思:學到的規律要被簡約地表達,學到規律的方法也要是最省力和簡潔的。

但為什麽又要 「but not simpler?」 因為如果只是簡約,沒法預測也不行。所以它不能太簡化,而應簡化到你剛剛好能做對預測。當預測和外部世界是一致的,這就是自洽。

人的自洽過程有兩個特點,一是它是有損的但能保持一致性。比如我告訴你桌上有兩個蘋果,讓你畫出來,你可能畫得細節不一樣,但你不可能畫出 3 個蘋果。

人的預測的一致性很好,每個人都是牛頓,我一松手(馬毅拿起一只筆),你馬上知道會發生什麽,比博士生按方程寫的還準,我們大腦裏早就對引力建模了。

二是人的自洽過程全部是在大腦內部完成的,當你做了一個預測後,你不需要到物理世界去測量真實的長寬高,你就是通過不斷預測下一秒會發生什麽,在生活中不斷改進,不斷對外部世界的形狀、大小、距離、速度和加速度建模。

《晚點》:這好像有悖於直覺。難道我們不是在和物理世界的真實互動中學習的嗎?

馬毅:實際上大腦是通過對比內部信號學習的,模型就在大腦裏,大腦不斷比較內部生成的預測信號和世界是否一致,不斷預測、不斷糾正,而不需要去外部世界對比物理信號。

更準確說,是生物沒有這個選項。老虎朝你跑過來,你說別別別,我測一下速度和距離。這就是自主地達成了自洽,它要通過能自己糾錯的閉環系統來實現。

現在大模型也可以自洽,但需要人去幫它對齊輸入和輸出,既給圖像,又給對應的文本標簽,因為大模型自己無法知道學的東西是對是錯。

《晚點》:簡約和自洽是兩個智能的原則或特征,怎麽達到這種智能呢?

馬毅:第一是理解整個壓縮過程,從外部世界的高維物理數據裏高效地找出能表達規律的低維數據。從黑盒到白盒就是在做這件事。

第二是通過雙向 mapping(映射) 保證模型學到的內在結構能很好地預測外界,保持一致性。

三是通過閉環系統來保證這個學習過程是自主的。

我們認為至少這三件事是必要的。學習的本質就是:這個世界是可測的,是有規律能學到的,而且不需要花太大代價。

《晚點》:在實現後兩件事上,現在你們有什麽進展嗎?

馬毅:前兩年,我們在閉環系統和自主上有一些預測性的結構,比如增量學習(incremental learning)和持續學習(continuous learning),有完整的科學性驗證,不過還沒找到像自然界這麽高效的優化方式。

不過即使仍然使用現在的全局優化方式,也可以看到閉環網絡的優勢,它可以自主學到數據裏的結構。

(註:相關研究見Unsupervised Learning of Structured Representations via Closed-Loop Transcription。)

《晚點》:閉環系統在實際應用中的好處是什麽?

馬毅:大家都知道開環網絡重新訓練的話會 「災難性遺忘」,稍微一調,原來的東西就被洗掉了。

閉環系統不會忘,而且學得越久記憶越強。自然界的記憶都是閉環的,它有天然的穩定性。

《晚點》:以上推演都基於機器智能和動物智能有相似的結構,這一定成立嗎?其實機器已經可以做到很多人做不到的事。

馬毅:現在我們追求類似生物的智能,一個很重要的原因是,基於自然進化出的智能機製對能源的利用效率是其他機製沒法比的。現在生物智能的能效比就是最優的,高等如人類,低等如螞蟻都是這樣的。人的大腦才二十瓦,比現在機器的能耗效率高 7、8 個數量級。

「你新想到的東西,往往歷史上早有了,甚至更好、更完整」

《晚點》:你是怎麽形成關於智能的這些想法的?

馬毅:我們幾年前開始梳理人工智能的歷史,發現很多重復的思想,同一個東西取不同的名字,很多變形。我們想盡量看清哪些是必要的、哪些是相似的、哪些是獨特的。

簡約和自洽就是對林林總總各種變形的一個統一、簡潔的解釋。

《晚點》:同一個理論有很多變形,有什麽例子嗎?

馬毅:比如做文生圖的 denoising diffusion(去噪擴散模型),看起來很厲害。其實數學家 250 多年前就知道了,叫拉普拉斯方法,物理學家 100 多年前又重新發明了一遍,就是朗格文動力學。只是現在通過計算機把它大規模、高效地實現了。

科學史的規律是,好的想法總會被翻新,這也有價值。但只要梳理一下歷史就會發現,現在你想到的東西往往早就有了,甚至歷史上還有更好、更完整的理論,而現在通過經驗試出來的東西很多還不到位。

《晚點》:你們還從其它科學裏獲得了哪些啟發?

馬毅:主要是神經科學。我們為什麽跟 Doris(曹穎,神經科學家)合作?因為他們發現猴子對某些物體的編碼跟我們發現的一些壓縮數據的數學結構很相似。猴子大腦裏也有子空間機製,它會用非常低維的子空間來表達臉或一類物體,每個神經元代表一個坐標,編碼得簡潔、緊湊。

我們的白盒當時也是想把低維子空間當作基本元素,去近似高維數據的結構。

我們提出的閉環、反饋、糾錯,他們也在猴子大腦裏看到了。比如猴子眼睛看到一個東西時,大腦就開始預測它下一步會到哪裏,如果判斷錯了,它就會緊張,會開始糾錯和重新判斷。

我們想對深度神經網絡的理論做統一、簡約解釋的想法也和他們不約而同。科學家本來就追求簡約性,面對任何事情,他們都要判斷什麽必要、什麽不必要,找到那些最基本的機製。

《晚點》:你稱他們為科學家,那 AI 研究者是什麽?

馬毅:AI 現在大部分是在做工程。工程師的思維是,這件事能做出來就行,有冗余也無所謂,比如這個事可能用 10 塊錢就能完成,但沒關系,我先找一個 1 萬塊的方案,只要充分就夠了。

科學家不一樣,他們問得最多的是這個事有沒有必要,是不是一定非此不可,他們更追求必要性。

《晚點》:缺乏科學解釋的工程奇觀能持續嗎?你之前總結過,歷史上神經網絡的兩次危機都是因為缺少數學解釋,這會再次發生嗎?

馬毅:人類歷史本來就是歸納法和演繹法兩條腿走路。

當實驗條件很充分時,大家會做更多嘗試,比如當年用對撞機撞出一個粒子就能得諾貝爾獎,後來有了標準模型以後就不發獎了。大模型也一樣,當搞清楚背後的機製,會發現單個模型、論文都是同一現象的特例。

冬天會不會再來?未必。過去有危機,是因為那時基於經驗歸納的東西也不夠有用。現在通過這幾年這麽多資源、全世界幾千個團隊試錯,找到了還挺有用的方案,它可能不會再冷下去。

但它是不是最高效的?到底還能做多少事?這是需要搞清楚的。

《晚點》:你還從歷史裏看到了什麽有意思的事?

馬毅:大家想過沒有,為什麽 50 年代達特茅斯那幫人(指在 1956 年的達特茅斯會議上提出人工智能概念的明斯基等人)要在 intelligence 前面加上 artificial。直接講智能不就完了嗎?為什麽要加這個形容詞?

《晚點》:Artificial 不是指人工的,而是指人類的?

馬毅:對了。它就是為了把人和動物的智能分開。

人工智能的發展是好幾條線交織在一起的。最早大家對神經網絡的靈感來自心理學和神經科學,看大腦神經元在做什麽;也有一批做計算的人,如圖靈,思考智能在做什麽,如何通過機器模擬人的能力。

1956 年的達特茅斯會議更加側重人的高級智能,比如因果推理、符號運算和邏輯推理,而不是對圖像或聲音信號的提取、記錄和生成。誰在研究這些問題?是更早時 40 年代的信息論、博弈論和控製論,它們研究信息的編碼、解碼,反饋和糾錯機製,這都是底層智能,是動物也有的特點。

你看維納的《控製論》的副標題(「或關於在動物和機器中控製和通信的科學」),他沒有把機器和動物分開。香農(信息論的提出者)和他老婆最喜歡玩的遊戲就是給你上半句、預測下半句,這就是 GPT。

所以 50 年代的那批年輕人也是想和前面的人不一樣。我們過去十年用了他們提的 artificial intelligence,但實際在做另一層的事。那時大家關心智能的機製,到後面就忘掉了。現在很奇怪,很多年輕人從來不想這些問題了。

《晚點》:你覺得為什麽年輕人不喜歡看歷史了?

馬毅:氛圍變了,文化變了。過去十多年,每年那麽多論文,大家就看看今年、去年開源了什麽東西,拿來用一用、拼一拼、改一改。他不再去看以前的原理了,因為有些理論可能還沒有被新的論文實現。

拿來主義對品味,對文化都有很大影響。

《晚點》:計算機學科的本科或研究生教育不教這些嗎?

馬毅:我覺得現在更多是講單一的算法和工具,沒有一個完整系統。所以我們希望本科教育要重新更完整地介紹這些東西。

我之前寫完第三本書發誓再也不寫書了,寫書很痛苦,但後來覺得還是要寫,我正在寫的書就是針對高年級本科生的。

大家對 AI 都很熱衷,但對很多概念和歷史都有誤解,再加上企業和媒體炒作,很多說法不完整,甚至不客觀。

我們現在從研究生教育到本科教育,到在港大成立新的計算和數據科學學院(School of Computing and Data Science),就是要推動更正確的 AI 認知。我們也會承接港大的 AI 通識教育。

《晚點》:那港大的文科、社科學生也要學 AI 課?

馬毅:對,所有專業都要上兩門 AI 或計算思想的課程。我們把它的重要性等同於中文和英文。因為以後世界上肯定會有 AI 系統,你得學會正確理解機器,跟它交流,機器會是人類社會的一個新群體。

* 學校做驗證,公司做放大

《晚點》:去年你創立了憶生科技,為什麽也加入了創業大潮?

馬毅:以前做研究,把自己搞懂就完了,但去年很多人開始說 AI 很危險,所以這已經不是我們的科研興趣問題了,不是我們等 3、5 年讓別人搞明白,這變成責任了,必須把原理打開。

去年之前,我們對白盒框架也沒那麽自信,因為之前驗證得不夠。但後來我們發現白盒模型實際上可以規模化,性能能上去。

第二也是發現現有神經網絡只實現了記憶的一部分,也希望能把記憶實現得更完整、更自主。所以公司叫憶生,就是能獲得記憶,又能再生成記憶,達到自己糾錯、自己學習的閉環系統。

總結來講,我們公司想打造下一代智能系統,它基於白盒框架,具有完整的記憶,也就是世界模型結構,能實現自主學習、自我糾錯的機製。

《晚點》:在學校做這件事和創立一個公司來做這件事的區別是什麽?

馬毅:學校該做兩件事。一是搞清楚已有的知識,做傳承。我們做白盒就是在研究深度神經網絡到底在幹什麽,為了教書也要搞清楚。

第二,研究性的大學還要發現現有知識的不足,改進知識,做 idea 的驗證。去年我們的驗證已經非常充分了,在學校做的事已經做到了。而且學校資源有限,不光是算力,還有時間。

公司要做的是放大。如果產業界能接受這些東西,功成不必在我,我費這個勁幹什麽?但現在很多人在推動一些我們認為不太正確的方法,仍是那些基於經驗的東西。

《晚點》:和別的 AI 公司合作不能有效推進你的想法嗎?

馬毅:我們也在合作。但讓大家認識還需要過程,做公司的目的也是加速這個過程,把現有的深度學習機製做得更正確,做規模化;把我們的框架、算法、算子工具化,讓更多人用起來,看到這個路線是可行的。

《晚點》:你覺得做到什麽才能向更多人證明這個路線可行?GPT 路線是在 ChatGPT 爆火後才成為共識的。

馬毅:要麽是量,要麽是質。如果我們的方法能讓大家看到可以十倍、百倍地提高現有計算的效率,降低開發成本,這肯定會引起關註。

第二是,你真的能做到自主學習,本質上改變現有的系統,帶來完全不同的能力。

《晚點》:你怎麽看一些其它的主流路線之外的探索,比如楊立昆提出了世界模型和 JEPA 框架;李飛飛,當年你在 UIUC 招的第一個老師,她最近也創業了,要探索空間智能。

馬毅:飛飛是關註具身智能和三維重建這些東西的應用。LeCun 的 JEPA 跟我們想法很一致,現在大家不都說 AI 2.0 嗎?我們不認同。2.0 一定要有本質的不一樣,我們認為 2.0 應該有自主學習能力。

現在還有一些公司也在探索一些新構架。是不是有道理?我並不能評論,但至少在尋找更與眾不同的東西,我覺得這要鼓勵。

《晚點》:十幾年前你關於 「壓縮感知」 的研究在視覺領域影響力很大,那時你就追求數學可解釋性,和現在思路一致。你怎麽看你們的新成果被接受的速度變慢了?

馬毅:那時大家還比較希望把機製搞明白,最近十幾年,經驗確實變得越來越重要了。算力和數據的發展也促進了通過歸納法去提升表現的這條路。

但現在大家慢慢有些違背傳統的科學方法了,過分強調通過資源或經驗試錯就能解決所有問題,甚至認為理解不重要。

《晚點》:你會怎麽描述自己的角色?你是大模型路線的反對者嗎?

馬毅:我是希望正本清源。但我們做的事和大模型完全不矛盾。我們第一步是解釋現有的東西,這樣才知道至少下面一兩步要如何完善、提高。

《晚點》:你覺得要讓 AI 研究環境變得更好,最關鍵的是什麽?

馬毅:科學研究說白了就一條,人。投錢、買機器都是小錢。有圖靈這樣的人,沒東西他也給造出來。

關鍵是,正確的人能不能獲得資源?去年 ChatGPT 出來後,很多人討論為什麽我們沒有 OpenAI?我說請問大家,OpenAI 做出 GPT 的團隊,平均年齡不到 30 歲,我們有沒有機制能把數十億美元對接到一群沒有資歷的年輕人?

當然,這是一個非常大的系統。我能做的是盡量影響自己周圍的小系統,把資源分配到有創造力的年輕人身上。

《晚點》:研究和創業上你都選了更少人走的路,你擔心走錯路和失敗嗎?

馬毅:不會,首先我比較認可這個東西對產業的價值,白盒至少可以提高現有方法的效率。

這件事也不可能等,不能老是去做重複性的跟蹤和小改進。中國這麽大,大家不要都去做同質化的東西,應該有一些人和公司做比較使命驅動的事。

做小改進去掙點錢,不是我們的技術優勢所在,也不是團隊或我個人的訴求。

---[題圖來源:馬毅/文:程曼祺*編輯:宋瑋 黃俊傑/來源: 晚點LatePost]

*文中提到的論文的匯總 :

Scaling White-Box Transformers for Vision, 2024/5

Eyes wide shut? exploring the visual shortcomings of multimodal llms, 2024/4

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? 2023/11

Unsupervised Learning of Structured Representations via Closed-Loop Transcription, 2022/10