AI 模型百家爭鳴，如果集中精力做一個，是不是更容易成功？

2023102119:27

在2023年初，Chat GPT 似乎掀起了一股AI大模型風。從 2 月以來，國內多家公司也推出了自己的大模型。

我們熟悉的有百度的文心一言、阿里的通義千問、華為的盤古、騰訊的混元，等等。除此之外，很多的科技企業、學校機構都在製作自己的大模型。比如，北京智源研究院的悟道 2.0，中科院自動化所的紫東太初、復旦大學的 MOSS、清華大學的 ChatGLM。

這麼多大模型的名字聽着就讓人覺得頭暈。如果這些機構全部集中精力做一個模型，其實不是更容易成功？

圖源：unsplash.com

這麼想自然有一定道理。但縱觀人工智能的發展史。多種技術、多條路線共同探索，也是讓人工智能能夠快速發展，能夠一次又一次衝破「寒冬」的原因之一。

想了解技術多元化對人工智能發展的好處，首先要從符號主義與連接主義說起。

讓計算機「變聰明」

在 1956 年「達特茅斯會議」上，人工智能作為一門新興的學科被確立下來。一代代科學家們投入到了讓計算機「變聰明」的研究道路上。但「變聰明」這件事太過抽象，具體要如何實現呢？

其實早在達特茅斯會議之前，人們就已經開始探索了。而在這個過程中，出現了幾條不同的路線，其中「符號主義」和「連接主義」是兩種重要且有代表性的路線。

符號主義的想法是人的智能主要體現在高層的推理方面：「智能的基礎是知識，智能的核心是知識的表示與推理」。而知識和邏輯推理可以轉化成數學符號來表示，而它們的推理、運算過程，同樣可以用數學公式符號來表達（正因如此，這一學派才被稱為「符號主義」）。

符號主義最典型的技術是「專家系統」。專家系統背後的想法是，把某個領域的知識、邏輯以符號的形式表示出來，整理成知識庫和推理機。根據輸入的條件，專家系統能用知識庫裡面的知識和推理機里既定的邏輯推理方法，一步步推理得出知識庫中沒有但是又正確結果。

在 1955 年，一款名叫「邏輯理論家」的程序出現了，這款程序，能夠推演《數學原理》裡面 52 個定理中的 38 個，並且對一些定理還給出了更簡潔的證明方法。

這個程序，甚至被一些人稱為「第一個人工智能程序」。自人工智能出現很長一段時間裡，符號主義都在人工智能領域占據重要地位，甚至「人工智能」這個詞也是符號學派為主的科學家們起的新名字。

當然，在符號主義大大發展的同時，其他賦予計算機「智力」的探索也沒有停止，比如連接主義也在同步發展。

連接主義與人工神經網絡

連接主義有點類似於仿生學，是通過從底層到上層的方法來研究並且模仿人類大腦的結構，進而解釋人類的智力行為。

連接主義認為，微觀的神經節之間的活動最終湧現出了宏觀認知智能。這個思路也比較符合其他科學領域的從下到上的方法論：比如用底層的物理知識來解釋高層的化學反應原理一樣。它的發展，催生出了今天人工智能領域最重要的技術之一——人工神經網絡。

圖源：unsplash.com

1943 年，沃倫·麥克洛克和沃爾特·皮茨提出了一種類似於生物神經元的數學模型——MP神經元模型。這個模型其實就是模仿神經元細胞，對輸入的信號進行處理，並給出特定的信息。

在 1949 年，神經心理學家赫布發現，人類大腦中的神經元之間傳遞的信號強度並不是一成不變的而是「可塑的」。這個理論，後來被人們稱為「赫布規則」，在人工神經網絡的發展上具有重要地位。

在MP神經元模型和赫布規則的基礎上，1958 年，羅森布拉特建立了感知器模型，這個模型被稱為最早的「具有學習能力」的人工神經網絡。這個神經網絡被美國海軍寄予厚望，並持重金打造了硬件機器，希望它能成為新一代的神經計算機。這個項目是美國海軍的重要項目。

但由於當時的算力和技術的限制，人們很快就發現，感知器的功能太有限了，只能解決非常簡單的線性分類問題。

麻省理工大學的馬文·閔斯基（Marvin Minsky）和西莫·帕波特 (Seymour Papert) （也是少兒編程最早的倡導者）寫書公開聲稱「人工神經網絡用處非常有限，甚至連簡單的『異或』問題都無法解決。」

在二十世紀六十年代末，人工神經網絡的研究陷入了低谷。而幾乎就在同一時期，投資者們也開始意識到，之前人們期待的「人工智能大爆發」並未到來。

比如 1958 年時候，就有科學家認為，10 年之內，我們就能讓計算機成為國際象棋冠軍（實際上這件事在 1997 年才實現比預計晚了將近 30 年）。在 1970 年，有科學家認為「 3~8 年之內，就能有一台普通人智力的機器人。」但這顯然是做不到的，直到今天我們都無法造出這樣一台機器。

這些「美好的未來」並未實現，使得政府和投資者們也大大削減了研發經費，人工智能迎來了第一個寒冬。

AI 寒冬

但好在人工智能領域有多條技術路線。在寒冬之下，連接主義的人工神經網絡發展艱難，符號主義的專家系統卻悄然興起。

在 1972 年，一款叫 MYCIN 的專家系統出現了，它能夠基於病人的症狀，推理出合適的治療方案。

圖源：unsplash.com

比如，MYCIN 裡面記錄了多種內科疾病的症狀和病因，同時還有每種疾病適用什麼樣的藥物，哪些藥物之間會相互反應。如果一個人拉肚子了，只要輸入對應的症狀（比如體溫、血常規數據、持續時間等等），MYCIN 就能推理出他所患的疾病，並且開具合適的藥物。

MYCIN 給出的治療方案「可接受性評分」跟人類專家的相差無幾（MYCIN為65%，五位人類專家為 42.5%~62.5% ）。

除了 MYCIN，另一款名叫 XCON 的專家系統幫助 DEC 公司每年節省上千萬美元的成本（ XCON 可以理解成一種專業的訂單處理系統）。看到專家系統有實打實的經濟效益，其他公司也在二十世紀八十年代開始效仿，紛紛建立自己的專家系統以節約成本。

但隨着專家系統的普及，它的弊端也逐漸顯現，比如，專家系統知識庫里的知識也不會自動更新，專家系統的維護成本很高。

專家系統很快就陷入了僵局，而在此時，連接主義的人工神經網絡迎來了自己的「文藝復興。

在二十世紀七八十年代，陸續有科學家發現了「反向傳播算法」的重要性。在 1982 年，保羅·韋布斯將反向傳播算法應用到多層感知器中，這對人工神經網絡的發展非常重要，我們今天的人工神經網絡，幾乎都離不開反向傳播算法。

由此可以看出，無論在人工智能的寒冬還是復興時期，符號主義和連接主義的研究都在繼續，這給人工智能技術取得飛躍和突破提供了條件。如果沒有這些多元化的研究為基礎，人工智能的研究可能會深陷在某一條道路中難以前進。

當然了，除了人工智能技術本身，其他行業的突破，同樣也會促進人工智能領域的發展。比如，在二十世紀九十年代以後，芯片技術飛速發展，計算機的算力得以迅速提升，這對人工智能的發展來說也至關重要。

比如二十世紀九十年代以前，即便有了反向傳播算法，想訓練層數非常多的（超過 5 層）的深度神經網絡會非常困難，因此人工神經網絡一度也被支持向量機所取代。而在 2000 年前後，GPU 的出現讓人工神經網絡（主要是深度神經網絡）的訓練速度大幅提升，再加上互聯網的普及帶來了大量可供AI學習的數據，深度學習技術開始嶄露頭角。

BERT 與 GPT

到了人工智能技術飛速發展的今天，多元化的研究依然能帶來意想不到的突破。比如今天我們所熟悉的 ChatGPT，正是多種研究齊頭並進的受益者。

在 2017 年，Google Brain 的科學家們發表了一篇名為《Attention Is All You Needed》的論文，提出了 Transformer 模型。

簡單的說，Transformer 是一種能夠讓計算機更好地「讀懂」人類語言的模型。它引入了「注意力」和「自注意力」機制，類似於我們看書時候，會把注意力集中在比較難理解的片段、詞句上，並且綜合上下文的意思，來理解這些片段、詞句。

基於 Transformer 人們繼續開發了多種大模型，在 2018 年 Google 推出了 BERT 模型。在同一年，Open AI 也推出了 GPT 模型，這兩個模型有很多相似之處，但也有一些區別。

簡單的說 BERT 更擅長於理解文本中的詞義，而 GPT 更擅長於生成文本。

BERT 能夠從一個單詞的前後兩側來理解它的含義，有點像考試中的填空題。比如：「我的寵物是一隻會叫的（），它愛啃骨」。BERT 非常擅長從空格的前後判斷出，這裡的詞最可能是「狗」。

而GPT則是單向的，像我們閱讀一樣從左到右分析，並且預測出下一個單詞。比如「我的寵物是一隻會叫的狗，它愛（）」，GPT 能夠根據前文信息補全後面的內容。

BERT 出現之後，因為它在語義理解方面有着非常優秀的表現，在自然語言處理方面大放異彩。而在 2018 年到 2020 年，GPT 模型並沒有像今天這樣受人關注，但它的研究沒有因此停步。

在 2019 年、2020 年，Open A I相繼推出了 GPT 2.0、GPT 3.0。在 GPT 3.0 的時候，GPT 的參數達到了 1750 億，訓練樣本超過 40TB，GPT 3.0 湧現出了比之前的 GPT 模型更強的理解力和生成能力。

在 GPT3.5 又加入了人類標記的訓練方法，性能又有了進一步的提升。而在 Chat GPT 出現之後，越來越多的人了解到了 GPT 這項技術，這也再次把人工智能推到了人類技術發展的舞台中央。

每一項研究都值得重視

由此可以看出，在整個人工智能發展的過程中，多元化的研究和發展給人工智能技術帶來了更多的可能性。比如在二十世紀六十年代到九十年代，專家系統、人工神經網絡、支持向量機同步發展，一項技術陷入困境，會有其他技術興起。

對於整個人工智能領域是如此，而如果聚焦於大模型這樣的領域也是如此。在自然語言處理領域，科學家們也並沒有因為 BERT 的效果突出，就冷落了 GPT。這才給了 Chat GPT 在 2023 年讓人們人盡皆知的機會。

除了 GPT 和 BERT，在大模型領域還有很多模型在研究、發展中。這些模型中的某項技術、某些成果可能在未來會給自然語言處理甚至是這個 AI 行業帶來顛覆性的改變。

因此，回到最開頭的問題，如果所有的公司、機構集中精力和資源去訓練一個模型，確實有機會造出一個超級大模型。但在這個過程中，可能會失去一部分寶貴的「技術多樣性」。各個公司的商業化考量，可能也會在客觀上促成 AI 的多元化發展。

參考文獻

[1]中國大百科全書

https://www.zgbk.com/ecph/words?SiteID=1&ID=216644&SubID=81535

[2]斯坦福哲學百科全書

https://plato.stanford.edu/archives/fall2018/entries/connectionism/#DesNeuNet

[3]MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity[J].Bulletin of Mathematical Biophysics, 1943, 5: 115-133.

[4]HEBB D O The Organization of Behavior: A Neuropsychological Theory[M].Lawrence Erlbaum Associates, New Jersey, 1949.

[5]ROSENBLATT F. The perceptron: Probabilistic model for information storage and organization in the brain[J].Psychological Review, 1958, 65(6): 386-408.

[6]Simon & Newell 1958, p. 7−8 quoted in Crevier 1993, p. 108.

[7]Yu VL, Fagan LM, Wraith SM, Clancey WJ, Scott AC, Hannigan J, Blum RL, Buchanan BG, Cohen SN. Antimicrobial selection by a computer. A blinded evaluation by infectious diseases experts. JAMA. 1979 Sep 21;242(12):1279-82. PMID: 480542.

[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[策劃製作*作者:秦曾昌北京航空航天大學教授*田達瑋科普作者*審核:於暘騰訊安全玄武實驗室負責人]

[策劃:徐來崔瀛昊*責編:一諾/科普]

我要留言

AI 模型百家爭鳴，如果集中精力做一個，是不是更容易成功？

TikTok跌倒後，Shopee和Lazada更瘋了

不要暴露、放棄AI、儘快搬離地球！霍金的這些忠告究竟有何深意？

TikTok跌倒後，Shopee和Lazada更瘋了

不要暴露、放棄AI、儘快搬離地球！霍金的這些忠告究竟有何深意？