萬字長文，看懂世界主要國家AI大模型進展-(1)

2023032815:13

ChatGPT在全球掀起AI大模型的浪潮。

在美國，以OpenAI、Anthropic等初創企業和以微軟、Google為代表的科技巨頭帶領着美國在AI大模型的道路上蒙眼狂奔，最大參數已卷到5620億。在中國，美團王慧文、阿里賈揚清、前搜狗CEO王小川、前京東AI掌門人周伯文等眾多早已功成名就的科技大佬再次披掛。

AI大模型一時間如烈火烹油。

但在這一輪浪潮中，大家主要關注的還是中美兩國的進展。在此之外，世界其他國家和地區如何看待AI大模型，在發展大模型上又進展如何，不同國家和地區的AI大模型發展呈現出哪些特點？這些問題在中美的光環下其實是失焦的。

所謂它山之石可以攻玉，在這樣的背景下，「自象限」梳理了包括中國、美國、韓國、日本和歐洲等主要國家AI大模型的發展現狀。

我們發現，一方面，不同國家AI大模型的發展與所在國的互聯網發展息息相關；另一方面，包括芯片、雲計算、高質量數據等產業基礎，模型構架和算法經驗，以及用戶群體、社會文化又共同決定了所在國家AI大模型的發展高度。

就如同比爾・蓋茨將ChatGPT的發布比做互聯網的發明，並認為它可以改變世界一樣，英偉達CEO黃仁勛也在GTC2023上三次提到「AI迎來iPhone時刻」。AI大模型是全世界的機會，而中國創業者更不應該存在視野盲區。

將視野拉遠便會發現，各國大模型都繼承了本國「基因」，前二十年互聯網與科技積累的成果，也都在AI 2.0的大考下，瞬間爆發。有人交了滿分答卷，也有人名落孫山。

美國：有多強悍，就有多寂寞

美國在AI大模型方面的強，不是現在強，而是一直以來都很強。

從2012年AI萌芽時期，到2016年AI1.0時期，再到2022年ChatGPT帶來的AI2.0時期，美國一直是AI領域的破局者，引領着全世界AI發展再進一步。

比如現在幾乎所有AI大模型訓練時採用的Transformer網絡結構，是谷歌在2017年提出的，它具有優秀的長序列處理能力，更高的並行計算效率，無需手動設計以及更強的語義表達能力等特徵。Transformer的提出讓大模型訓練成為可能。

保證AI大模型出現在美國的另一個關鍵，而美國一手雲大廠，一手英偉達，手握着全球算力的核心資源。

雲計算能夠為AI大模型訓練提供計算、存儲、網絡和應用平台，同時也提供數據處理、模型部署、推理等AI工具和服務。讓企業能夠快速訓練大模型，而不用再花費你大量時間和金錢去建立和維護自己的數據中心。

目前，美國擁有世界上最大的雲計算企業。IDC數據顯示，2021年全球IaaS市場中，包括亞馬遜、微軟、谷歌、IBM在內的美國企業合計占比近70%。而美國最具代表性的AI大模型初創企業，無論是OpenAI還是Anthropic都接受了微軟和谷歌這樣的雲大廠投資。這背後除了資金支持外，更重要的原因還在於背後的雲計算資源。

算力的另一個維度是芯片，高性能的芯片可以提供更加高效的計算能力，從而加速訓練過程。

速度有多快呢？2016年，黃仁勛親手將世界第一台DGX-1（英偉達計算平台）捐獻給了OpenAI，DGX-1是3000人花費3年時間才研發出來的首個輕量化的小型超算，計算和吞吐能力相當於 250台傳統服務器。有了DGX-1，OpenAI之前一年的計算量只要一個月就能完成。

而目前為止，英偉達的A100芯片仍然是唯一能夠在雲端實際執行任務的GPU芯片。最近的GTC2023上，黃仁勛又更新了新芯片H100的進度。H100配有Transformer引擎，可以專門用作處理類似ChatGPT的AI大模型，由其構建的服務器效率是A100的十倍。

可以說，在AI大模型領域，目前的美國就是妥妥的「別人家孩子」，這也導致目前行業最具代表性的AI大模型都集中在美國。

比如OpenAI最新發布的多模態預訓練大模型GPT-4，谷歌最新推出「通才」大模型PaLM-E，擁世界最大規模的5620億參數，能看圖說話、能操控機器人，以及剛剛解決AI繪畫手指問題的Midjourney等等。

但在快速發展的過程中，美國業界對於AI大模型也持激進和保守兩種不同的態度。

其中，微軟支持的OpenAI在推動大模型落地時就更加激進。根據OpenAI關於GPT-4的安全文檔，OpenAI曾在發布GPT-4前聘請安全專家進行測試。

OpenAI在文檔中寫道：「GPT-4表現出一些特別令人擔憂的能力，例如制定和實施長期計劃的能力，積累權力和資源（尋求權力），以及表現出越來越『代理』的行為。」因此有安全專家建議將 GPT-4 的部署時間推遲 6 個月，到今年秋季再發布，但OpenAI並沒有採納這份建議。

而另一方面，在ChatGPT發布之後，谷歌曾表示自己已經具備相似能力的AI大模型，但基於安全考慮並沒有及時推向市場。包括OpenAI創始人Sam Altman和馬斯克都曾多次在公開場合表達了對AI大模型和人工智能的擔憂，表示應該更謹慎地對待大模型的市場化。

目前由谷歌投資的，能夠對標OpenAI的另一家AI初創公司Anthropic其實就是因為這樣的理念不同，而從OpenAI出走並自立門戶的

當然，在激烈的市場競爭下，即使曾經相對謹慎的谷歌也似乎忘記了這條擔憂，並在3月7日報復性砸出5620億參數大模型，甚至能夠控制機器人運動。

目前，以微軟和OpenAI為代表，美國AI大模型正在積極推動產業應用。微軟早在2月份就宣布將會在全線產品接入ChatGPT，並以幾乎一周一個產品的速度向外更新。

從New Bing到加入最新功能Copilot的Microsoft Teams正在攪動全球的產業變革。

日本：錯過互聯網，錯過雲，錯過AI

如果說美國是最厲害的大模型「老炮」，那日本可能就要淪為這次排名的「吊車尾」。

日本的落後其實要從上個互聯網時代講起。我們盤點世界AI大模型領域的關鍵角色會發現，無論是中國的BAT，韓國的Naver，還是美國的谷歌、亞馬遜，他們都是互聯網時代的巨頭。

一方面，這些企業通過互聯網業務積累了大量的高質量數據；另一方面，他們在自身業務推動下建立了完整的雲計算體系。但盤點之後我們發現，整個日本既沒有叫得出名字的互聯網巨頭，也沒有拿得出手的雲計算廠商。

目前，日本的即時通訊軟件來自韓國的LINE，雲計算業務也被美國企業長期把持。

2022年，日本雲計算市場份額約占全球的4%，排名第四。但日本雲計算市場的主要競爭者卻是美國的三大雲巨頭亞馬遜、微軟和谷歌，它們在日本的市場占有率已經達到60%~70%。

除此之外，日本其實還面臨許多其他問題，比如由於半導體產業的衰落，讓日本在本應成為最大優勢的AI芯片領域缺位；比如作為一個小語種國家，日語面臨和中文一樣缺乏語料的問題

在這樣的背景下，日本在AI時代其實早就喪失了自主權。所以我們盤點日本的AI大模型，會發現它們大多具有美國或者韓國色彩。

比如日本最早公開上線的NLP大模型是2020年發布的NTELLILINK Back Office NLP，當時它能實現如文檔分類、知識閱讀理解、自動總結等功能。但NTELLILINK Back Office是在谷歌BERT基礎上開發的應用，就像中國許多基於GPT-3開發的應用一樣。

更有日本血統的生成式AI其實是HyperCLOVA、Rinna 和 ELYZA Pencil，但其中HyperCLOVA 和 Rinna 也都有外國基因。

其中，HyperCLOVA最早是韓國搜索巨頭NAVER在2021年推出的，其日本版是由NAVER和其子公司LINE（韓國軟件在日本經營）一起研發。但HyperCLOVA確實是第一個專門針對日語的大語言模型，其通過爬取日本的博客服務來獲取訓練數據，並在2021年舉行的對話系統現場比賽中獲得了所有賽道的第一名。

基於HyperCLOVA，LINE也推出許多應用，比如聊天機器人CLOVA Chatbot、圖像識別CLOVA OCR和科洛瓦演講CLOVA Speech等等。HyperCLOVA擁有820億參數，目前正計劃通過超100億頁的日文數據作為學習數據將模型規模擴大到1750億。

圖源日本版HyperCLOVA官網

日本的另一個AI大模型Rinna則與微軟有關，Rinna最早是微軟日本研發的一款聊天機器人，類似於國內的小冰（之前叫微軟小冰，目前已獨立運營）。

2021年8月，Rinna發布了一個名為GPT2-medium的模型，然後又在次年推出了日本版的GPT-2，參數達到13億。日語版GPT-2與GPT-2的區別在於，GPT-2採用的是英文語料，而日語版GPT-2是基於日語語料訓練。

目前，Rinna的日語版GPT-2和HyperCLOVA已經是日本參數規模最大，最具代表性的大模型了。

當然，日本也有一些真正土生土長的大模型，比如2022年3月，由東京大學松尾研究所的AI初創公司 ELYZA Co., Ltd.推出大語言模型，它以產品「ELYZA Pencil」的方式推向市場。輸入幾個關鍵字，ELYZA Pencil可以在大約 6 秒內創建三種類型的日語新聞報道、電子郵件或簡歷。

所以算起來，ELYZA Pencil才算真正意義上日本首次公開發布的生成式AI產品，但僅有ELYZA Pencil顯然很難成為全村的希望。

日本政府其實也在想辦法扭轉這種局面，比如2022年5月，日本政府計劃將雲計算服務列為涉及國家安全的「特定重要物資」，並將加強日本本國的「國產雲」，但執行下來其實收效甚微。

畢竟無論是互聯網還是雲計算都是規模經濟，需要有足夠的市場容量才能產生經濟效益。這也導致日本互聯網和雲計算無論是在全球市場，還是在本土市場都缺乏充足的成長空間。

但即便如此，日本市場也在積極做着大模型的應用的研究。

比如2022年5月，東京大學和 Google Brain 的一個研究團隊發布了論文《Large Language Models are Zero-Shot Reasoners》，解決了大模型0樣本學習的部分問題。

而在日本的互聯網上，日本網友也在積極調用GPT-3的API，嘗試開發自己的獨特應用。此外，在剛剛舉行的英偉達GTC 2023上，英偉達與日本三菱聯合打造了日本第一台用於加速藥研的生成式AI超級計算機。

我要留言

萬字長文，看懂世界主要國家AI大模型進展-(1)

基因篩選的完美嬰兒，打開了怎樣的世界？

萬字長文，看懂世界主要國家AI大模型進展-(2)

基因篩選的完美嬰兒，打開了怎樣的世界？

萬字長文，看懂世界主要國家AI大模型進展-(2)