大廠大模型:久違的一把手工程
沒有猶豫的時間,共識很快達成。
最近 4 個月,整個世界因 ChatGPT 進入快進狀態。幾乎每隔幾周,最近是每隔幾天,就有人工智能新進展刷新新聞版面,也刷新人們的認知。
面對 ChatGPT 和背後的大模型機會,中國科技大公司的共性是,一把手親自跟進。
字節跳動創始人張一鳴開始看人工智能論文了。一位字節人士稱,張一鳴近期時常會和一些字節人士分享論文學習心得和對 ChatGPT 的思考。他在兩年前已卸任字節跳動全球 CEO,但依然是字節重大戰略的籌謀者。
阿里巴巴董事局主席兼 CEO 張勇忙着對阿里做大重組,但也親自盯阿里的人工智能新項目,阿里將在 4 月 11 日舉行的雲峰會上發布大模型進展。
在百度開始文心一言內測前,百度創始人兼 CEO 李彥宏每晚和項目團隊開會,他們為籌備產品甚至一度睡在公司。
騰訊和華為管理層也公開表達了對大模型的重視。3 月底,騰訊總裁劉熾平在財報電話會上說,生成式人工智能可成為騰訊已有業務,如社交、遊戲的 「倍增器」,也可幫助開拓數字助手、搜索等新增長線;騰訊正在加速推進大模型 「混元」。
華為創始人任正非 3 月中旬參加華為 「難題揭榜火花獎」 頒獎座談會時稱,華為會做底層算力平台:「未來 AI 大模型會風起雲湧,不只微軟一家。ChatGPT 把計算、管道流量撐大,華為的產品就有了機會。」
中國互聯網和科技行業,很久沒有像這樣同時瞄準一個目標了。即使是疫情前各公司密集進入,押注重金的社區團購買菜業務,也沒有如今的景象。
除上述最被關注的公司外,從 GLUE(通用語言理解測評)、 CLUE(中文語言理解測評)榜單看,快手、美團、京東等互聯網公司,科大訊飛、商湯等人工智能公司,和 OPPO、vivo 等智能硬件公司也都發布了自己的大模型。
沒有猶豫的時間,共識很快達成。與過去更多處理特定任務的人工智能不同,以大模型為基礎的人工智能要通用得多,它既可以幫你列出採訪馬斯克的問題,也能給出一份能源市場分析框架,僅靠簡單的語言描述,它就能生成一幅奇幻風景或 logo 設計草圖,甚至是動態視頻。
在前沿技術的跨國流通不再那麼通暢的今天,中國市場需要自己的大模型。能提供本土最好大模型的公司,會獲得極高商業回報。這一新技術可能很大程度改變人們獲取信息(搜索)、與人互動(社交)、創造內容(遊戲、短視頻、知識工作等)的方式與效率。
OpenAI 並未公布過訓練 GPT 系列模型的成本,據估算,即使是三年前訓練 GPT-3 時,花費也高達上千萬美元。大公司更有資源跟進這一高門檻方向,但他們也需要解決一連串大公司轉身時的挑戰,其中很多不僅關於技術。
一個共識:同時做模型層和產品層
已相對清晰的是,多數中國大公司都在同時做大模型和基於模型的應用。這是在跟隨 OpenAI 的實踐。
ChatGPT 本身是一個應用層產品,它背後是 OpenAI 自 2018 年陸續推出的 GPT(Generative Pre-trained Transformer)生成式語言大模型系列。後者是前者的技術底座和能力支撐,前者為後者持續提供用戶反饋與新數據。二者構成一個循環飛輪。
具體應用方向上,綜合公開報道和我們了解的信息。字節將在抖音、TikTok 搜索和圖片 / 視頻生成方向發力。字節可能會在抖音、TikTok 中推出類似微軟問答搜索引擎 New Bing 的功能。圖片 / 視頻生成則主要服務字節商業化需求,以幫助字節廣告客戶更方便、低成本地製作視頻。一位字節人士稱,字節廣告客戶投放總成本里有 10%-20% 為視頻製作成本,從去年開始,字節已在開發一些相關產品幫廣告客戶壓縮這部分投入。
去年 6 月騰訊發布混元大模型時稱,混元已被用來理解廣告內容,以幫助更精準地把廣告投放給特定人群,該模型也已在向廣告主提供圖像、視頻生成能力。微信搜一搜功能今年也已應用了混元大模型,讓搜索結果的相關性排序變得更準確。
微信去年 10 月也推出了數百億參數的通用語言大模型 WeLM,有續寫故事、翻譯、扮演角色的能力,比如你可以通過 WeLM 問馬斯克,收購了 Twitter 後他準備怎麼幹。
阿里可能會結合雲、電商場景,推出基於大模型的一些新服務或功能。大模型與雲的結合思路與百度類似。電商的以文搜圖找產品、精準推薦、數字人直播、店鋪廣告物料生成和產品內容生成等流程上都有大模型和生成式 AI 技術的用武之地。阿里智能音箱天貓精靈近期也在做技術測試,接入了大模型能力以實現更好的多輪對話效果。
阿里還在研發類似 ChatGPT 的對話機器人產品形態,3 月底已對員工開放內測。一名參加測試的阿里人士稱,它的運算能力還比較差,會算錯個位數加減乘除,整理周報時會自己生成幾條原周報里沒寫的事。據了解,下周舉行的阿里雲峰會上可能會公布相關進展,該產品不會直接 to C,測試對話形態主要是為了讓企業客戶體驗產品能力。
百度的大模型目前的內部應用方向有搜索、雲服務、小度智能音箱和智能交通 / 自動駕駛等。搜索產品形態可能也類似 New Bing;百度智能雲預計未來會開放大模型 API 接口,以幫助合作夥伴搭建具體應用,或直接提供一些打包好的 SaaS 產品;在智能交通上,百度地圖本周推出的新版本中已嵌入了文心大模型能力,百度稱新版本可優化交通調度效率,還能讓地圖更好地理解用戶發出的指示,節省溝通時間。
阿里和百度都已在建設大模型生態,即以雲平台輸出模型能力,支撐更多應用生長。阿里在去年的雲棲大會上提出了 MaaS(模型即服務,Models as a Service),李彥宏在半個月前發布文心一言時也提及了這一概念。阿里去年 11 月初推出模型社區 「魔搭」,上線時匯集了達摩院的 300 多個開源模型。百度在其深度學習框架飛槳平台中設置了供開發者調用的 「模型庫」。
字節跳動:今年初組建團隊,橫跨多國、多部門
沿着 OpenAI 蹚出的路,同時做模型和應用的中國各科技公司均拉出了多部門協作陣容:由有資深人工智能背景的技術高管領頭模型層開發,同時調集產品團隊支持基於模型的應用。
字節今年初才開始組建專門的大模型團隊。但集結頗為迅速,參與部門眾多,國內國外均有分布。
這之前,字節於 2021 年底調整組織架構,分立六個事業部(抖音、大力教育、飛書、火山引擎、遊戲和 TikTok);同時保留了獨立於業務的中台技術部門,做通用底層技術;另有一些技術團隊分流到了不同事業部,匯報給事業部負責人。
據《晚點 LatePost》了解,目前參與字節大模型的技術負責人有朱文佳、項亮、李航等,他們分屬字節多個部門。
其中朱文佳是字節大模型的第一負責人。他是 TikTok 產品技術負責人,字節搜索部門也向他匯報。字節大模型的主要應用方向之一即是優化抖音或 TikTok 的搜索。
項亮為技術中台下的 Data-AML(數據-應用機器學習) 負責人,他是推薦算法的重要貢獻者。AML 近期新成立了一個與大模型有關的項目 ByteBM。去年離開阿里巴巴達摩院,後加入字節跳動的楊紅霞即在項亮團隊。她曾擔任達摩院資深算法專家,是阿里 2021 年發布的多模態大模型 M6 的核心技術人員之一。
李航是字節 AL Lab(人工智能實驗室)總監,他曾擔任華為諾亞方舟實驗室主任和首席科學家,2017 年加入字節,研究方向包括信息檢索、自然語言處理、機器學習、數據挖掘等。AI Lab 旗下 NLP(自然語言處理組)組也在參與大模型開發,直接負責人為陳家澤,他 2017 年從北大計算機系碩士畢業後加入字節任算法工程師。
一位字節人士評價,從學術研究到業務落地的光譜上,李航在最左端,中間是項亮,最右是朱文佳,他有 「綜合的工程和技術管理經驗」。
朱文佳 2015 年加入字節,這之前他在百度擔任搜索部主任架構師,研究方向為推薦算法。2019 年,朱成為今日頭條 CEO,2021 年 2 月,調任為 TikTok 產品技術負責人。
在產品與應用上,字節在 2019 年推出了巨量創意平台,可以幫廣告客戶製作視頻內容,降低製作門檻和成本,大模型會進一步提升內容生成的質量和效率。該平台隸屬字節商業化產品與技術團隊,總負責人為劉小兵,他曾任谷歌大腦軟件工程技術負責人,2018 年加入字節。
字節參與大模型的團隊分布在多個國家,朱文佳的團隊在新加坡,項亮團隊在美國西雅圖,李航領導的 AI Lab 在北京。
大模型是中美兩國政府關注的人工智能前沿技術,它的發展也離不開高端計算芯片和海量數據。未來字節將如何安排大模型團隊的中美分布和分工還不確定。
百度、阿里、騰訊:首席科學家掛帥,過去數年經歷人才流失
百度、阿里、騰訊的大模型團隊,均由集團內技術一號位或首席科學家負責。
在 ChatGPT 引發的熱潮前,這 3 家公司均已發布過大模型:
百度於 2019 年推出 ERNIE 1.0,即後來的文心大模型,目前已更新到 3.0 版本;
阿里於 2021 年連續發布語言大模型 Plug(後更名為 AliceMind)和多模態大模型 M6,去年 9 月,兩個大模型合併為阿里通義大模型;
騰訊在 2022 年 6 月發布混元大模型,目前更新至 2.0 版本。騰訊微信團隊去年 10 月也發布了大模型 WeML。
綜合此前報導和我們了解的信息。百度大模型的開發由百度 CTO 王海峰領銜,他也是文心一言產品的第一負責人。王海峰之下,百度集團副總裁吳甜的團隊是開發自然語言處理技術的主要團隊。吳甜於 2006 年加入百度,2010 年進入自然語言處理部,2020 年升任副總裁,整體負責百度 AI 技術平台和智能雲 AI 產品。
阿里達摩院自 2020 年初開始同時研發多模態大模型和語言大模型,目前阿里的大模型研發仍放在達摩院,負責人為阿里雲智能 CTO 周靖人。他畢業於中國科學技術大學,獲哥倫比亞大學計算機博士學位,曾任微軟前研發合伙人,2016 年加入阿里,任阿里雲首席科學家。
具體參與大模型開發的是達摩院 AI 團隊,包括當年推出 M6 的達摩院旗下智能計算實驗室和推出 AliceMind 的語言技術實驗室。其中智能計算實驗室主任為周靖人本人,語言實驗室現主任為黃非,他向周靖人匯報。黃非畢業於卡耐基梅隆大學計算機學院,2018 年加盟達摩院,曾在 IBM 和 Meta 研發自然語言處理技術。阿里兩個實驗室目前共有約百名研發人員參與大模型開發。
騰訊則在 2023 年初組建了混元助手項目組。據《36 氪》報道,該項目由騰訊最高級(17 級)研究員、騰訊首席科學家張正友負責,其下有數名產品經理和組長參與,他們來自騰訊不同的事業群,包括技術工程事業群(TEG)、平台與內容事業群(PCG)和雲與智慧產業事業群(CSIG)等。跨事業群開發具體產品在騰訊相對少見,這側面反映了管理層對大模型的重視。
相對獨立的微信團隊,也開發了自己的大模型,即 WeML。據項目官網,其最新更新日期是去年 10 月。騰訊在大模型上是否也會進行多團隊 「賽馬」 還不確定。
百度、阿里、騰訊都集結了公司最好的技術力量投入大模型,不過他們過去幾年流失了一些重要的人工智能人才。
騰訊大模型負責人張正友專長於機器人,他於 1998 年提出 「張氏標定法」,在機器人控制領域影響深遠。他最初加入騰訊時擔任機器人實驗室 RoboticsX 負責人。大模型則更多與自然語言處理技術有關。
騰訊本有張潼坐鎮這一方向,他在 2017 年春加入騰訊擔任 AI Lab 主任。張潼是機器學習領域專家,擁有斯坦福大學計算機碩士、博士學位,曾任美國新澤西州立大學終身教授,IBM 研究院研究員和雅虎研究院主任科學家,研究領域包括計算機視覺、語音識別、自然語言處理和機器學習等。
2018 年 12 月,張潼離開騰訊重返學界,加入香港科技大學,張正友接任 AI Lab 主任。2019 年-2021 年,離開騰訊的人工智能專家還有騰訊優圖實驗室前聯合負責人賈佳亞,騰訊原副總裁、AI Lab 創始人姚星等,他們都選擇了創業。
阿里達摩院近年也有多位科學家離開。據《晚點 LatePost》了解,與大模型直接相關的離職人員除已加入字節的楊紅霞,還有去年離職的原語言技術實驗室主任司羅,他是阿里兩年前啟動語言大模型 Plug(AliceMind)時的具體負責人。司羅擁有卡耐基梅隆大學計算機博士學位,曾任美國普渡大學計算機系終身教授,2014 年加入阿里擔任 iDST (數據科學與技術研究院)NLP 團隊負責人。
2020 年以來,達摩院還有原副院長金榕,兩任自動駕駛負責人王剛、陳俊波等人工智能技術專家離開,金榕加盟推特擔任研發 VP,後兩者選擇創業做清潔機器人。
百度是所有中國互聯網大公司里,投入人工智能歷史最久、曾經的人才陣容也最豪華的公司。自 2013 年百度在美國硅谷建立百度美研到 2017 年間,斯坦福人工智能實驗室主任吳恩達、微軟亞洲研究院院長張亞勤、微軟全球執行副總裁陸奇等人先後加入百度。他們待的時間都不長,在 2018 年前後陸續離開。
一個有趣的交集是,OpenAI CEO 山姆·阿爾特曼(Sam Altman)從斯坦福退學前,曾在吳恩達管理的人工智能和機器人實驗室工作過。
百度還是字節人工智能人才的重要來源。字節的技術負責人楊震原,目前大模型的負責人朱文佳,向朱文佳匯報的搜索負責人喬木均曾就職於百度。
在如今的大模型熱潮下,大公司人才還會被創業潮分流。近期離職的大公司技術高管有阿里達摩院技術副總裁賈揚清,騰訊副總裁、平台與內容事業群(PCG)信息與服務線負責人郄小虎、京東首席科學家陶大程等。
賈揚清 2019 年加入阿里前任職於 Facebook,是知名 AI 框架 Caffe 的核心作者,他將在 AI 框架方向創業。郄小虎於 2020 年 9 月加入騰訊,任公司副總裁,負責 PCG 技術線,騰訊工作期間郄小虎參與了圖像感知、視頻文本檢索等技術研究;陶大程是計算機視覺領域的專家之一,2021 年加入京東前,他曾在香港理工大學和新加坡南洋理工大學等高校任教。兩人接下來的計劃暫不清楚,創業是選項之一。
華為是另一家較早推出大模型的中國公司,於 2021 年發布盤古大模型。具體負責人為 2020 年 3 月入職的華為雲首席科學家田奇,他此前是美國得州大學聖安東尼奧分校計算機系教授。通過華為 Mindspore AI 框架平台,華為還和中科院、鵬程實驗室等機構聯合開發了多個大模型,包括蛋白質結構預測大模型 「鵬程·神農」,支持圖像生成的多模態大模型 「紫東·太初」 等。
算力和數據:過去有儲備,未來面臨不確定
清晰合理的戰略目標,合適的團隊與人才外,一家公司能否在大模型上有所建樹,還取決於兩個關鍵資源:算力和數據。
總體而言,中國公司過去兩年的雲計算、數據中心等算力基礎設施開支小於美國大公司。不過就存量看,中國大公司過去有一定算力儲備。
目前用於訓練大模型的主力芯片是英偉達雲端訓練 GPU A100。據《晚點 LatePost》了解,字節跳動朱文佳團隊目前可使用的 A100 約有數千張。為支持大模型開發,字節今年早些時候還將原本計劃給商業化團隊新增的一批 A100 調給了朱文佳團隊。A100 目前的市價約 10 萬元人民幣 / 塊,數千張 A100 的價值達數億元人民幣。
阿里 2021 年時曾披露,在訓練十萬億參數的多模態大模型 M6 時,它們使用了 512 張英偉達 V100 GPU。它是 A100 的前序產品,A100 有大約 3 倍的性能提升。
華為在 2021 年曾披露,訓練盤古大模型時,團隊調用了超過 2000 塊華為昇騰 910,進行了超 2 個月的訓練。不過昇騰 910 最初設計為 7nm 製程,2020 年 9 月後,台積電等芯片代工廠不再能為華為生產高製程芯片。
一位關注大模型領域的投資人稱,阿里、騰訊、百度、華為等國內主要雲廠商過去都積累了大量 GPU。去年大模型熱潮未起時,公有雲上的 GPU 算力不是緊缺,而是 「愁賣」,雲廠商甚至得虧錢賣資源,並與部分公司簽訂了長期鎖價合同,這讓熱潮前就已入場的一些大模型創業公司 「花更少錢辦了更多事」;也側面說明大廠有一定算力儲備。
但再往下,所有中國公司在獲得更多算力上都面臨不確定性。更多人訓練大模型也會進一步加劇算力緊缺。
去年 8 月底,美國政府宣布禁止美國公司向中國大陸、香港和俄羅斯出口高端 GPU,設定的紅線是:算力超過 4800 TOPS,且帶寬傳輸速率超過 600 GB/ 秒,受限產品就包括英偉達 A100 和後續產品 H100。
為繞過這一限制,英偉達推出了 A800,算力與 A100 一致,但傳輸速率降為 400 GB/ 秒,不在被禁範圍。不過這條路仍有變數。美國政府的系列禁令明確指向人工智能,不排除後續有超出預期的更嚴厲措施。
大模型的訓練還需要海量數據。一種觀點是,中文數據在數量和深度上均不及英文,所以中文大模型相比國外大模型 「先天不足」。
英語是強勢語言,除文本量最大外,大量學術論文、專業文獻也以英語撰寫,高質量的公開英語數據庫也更多。英語數據的廣度與深度確實強於其它語言。
但數據對模型效果的影響是一個更複雜的問題。包括 GPT 系列大模型在內,主流大模型都基於最早由 Google 研究人員提出的 Transformer 架構,它會對不同人類語言,包括編程語言做高度抽象和壓縮,這些語言在底層邏輯上有相似性,中文數據的不足可以部分由其它語言數據彌補。
大模型創業公司瀾舟創始人、微軟亞研院原副院長周明說:「現在的中文大模型都是在用多語言訓練,語言結構有共通性,一件事如果英語表達得更好,中文也可以借鑑,形成生成結果。」
大公司的數據相比創業公司還有額外優勢,他們能獲得一些非公開的高質量中文文本數據。部分數據還帶有真實的場景屬性,如電商平台中的客服溝通數據。
如果把這一波浪潮比喻為大航海,OpenAI 是第一個到達新大陸的人,它已完成了最危險、最不確定的部分,即證明了超大參數模型的可行性和驚人效果。其它公司都是在沿着這個相對確定的方向做復現和優化。李彥宏在發布文心一言後曾說百度有信心在綜合能力上,迅速追上甚至超過 ChatGPT。「很快」 可能很難實現,但把時間拉長,學習與模仿將拉平一批公司間的差距。
變數在於:中國公司未來可能無法通暢地獲得更多算力,技術與人才的跨國流動也在變慢,招募更多大模型高端人才變得更難了。
成為中國第一的吸引和被顛覆的危險
宏觀環境變化的另一面是,在中美市場更加分隔的當下,中國需要自己的大模型。中國市場又尚未出現明顯的領先者,這使各大公司加速入場。
一位字節人士稱,在去年底 ChatGPT 出現前,字節對大模型投入還比較少。表現之一是,約有 100 人的字節 AI Lab NLP(自然語言處理)組,只有不到 10 人在研究語言大模型,其它人主要在做翻譯和抖音小安(內置於抖音的安全助手,有預防網曝、網絡詐騙的功能)的優化。但今年 1 月後,大模型迅速成為 NLP 組重點工作。字節 AI Lab 可能會基於人工智能創業公司 HuggingFace 去年 7 月開源的大模型 BLOOM 做開發,它的參數達到 1760 億,是目前最大的多語言開源語言模型。
這是低迷兩年的互聯網市場一個難得的增量空間,如果能在中國市場做到第一,就可能開闢巨大的新市場,或給已有業務,如雲計算、遊戲、社交等加上 「放大器」。
緊迫也來自,如果大公司自己不做,就有被顛覆的風險。
以利益分配結果看,技術創新有兩種,一種果實多歸屬成熟公司,一種則會激發一批新巨頭。
由 AlphaGO 戰勝李世乭引燃的上一輪 AI 熱潮更靠近第一種。當時的人工智能技術雖然在識別圖片、人臉等一些特定任務上有高效率和準確率,但應用場景有限,且當時的產品不夠強大和通用,沒有好到足以動搖成熟企業已建立的市場格局。一個例子是,商湯、曠視等人工智能新銳公司在它們最主要的市場安防領域,難以撼動海康、大華的優勢地位。
大模型則有可能是第二種創新。ChatGPT 和其它生成式 AI 產品及背後的大模型技術,迅速展現出了衝擊現有商業模式的力量。
文生圖應用 Midjourney 去年已獲得超 1 億美元收入,這家公司到去年 10 月只有 10 余名員工。在微軟搜索引擎接入 GPT 推出 New Bing 後,Bing 訪問量上升了 15.8%,Google 搜索引擎的美國市占率則下降了 1%。上周微軟宣布 Bing 日活躍用戶首次突破 1 億,其中 1/3 是新用戶。
當技術槓桿足夠強時,大公司面對新機會時的包袱和協調難題就變得更為明顯:
這包括與主營業務的衝突,Google 在搜索引擎上引入大模型時的猶疑是一個前例,各公司需要在以新技術打造全新產品,和用新技術提升現有業務間做綜合安排與取捨。再往下是如何建立相應組織結構和多部門協作機制。相比沒有退路的創業公司,當大模型商業進展遇挫時,業務頗多的大公司的熱情能持續多久也是問題。大公司還面臨更強的監管與倫理風險,大模型可能帶來虛假信息和 「不正確」 的言論,亦有隱私問題,各國監管已在更早、更多地干預。部分國家已禁用 ChatGPT。
中國大公司發布的基於大模型的文本生成類應用,目前均未直接向普通民眾大規模開放。文心一言需要內測碼才能使用,阿里、騰訊和字節,近期可能都不會發布基於大模型的 to C 對話類產品。
巨頭有更多的錢和資源,但當機會足夠大 ,改變足夠劇烈時,資源往往不是最難的部分。
-[採訪:程曼祺 時嫻 祝穎麗*文:程曼祺 張家豪*編輯:程曼祺/來源:晚點LatePost]