AI大模型時代或更集中到強團隊

2023091313:19

圖片來源：由無界 AI‌ 生成

時間拉回到2015年，梁斌剛剛獲得清華大學人工智能博士學位，同年10月八友科技成立，並常年為客戶提供國內外數據資料。

2023年上半年，GPT大模型進入公眾視線，短短半年時間，國內就已有近百家GPT大模型，「八友」成為絕大多數大模型服務商的首選，據統計，這一數字接近50%。

作為深度參與大模型發展的數據供應商，梁斌的幾點洞察尤其值得業界參考，深聊中，他開門見山指出，我們正處在一個「強者恆強的大模型時代」。這句話背後至少點出了三類企業的處境：

一是，對於品牌而言，大模型商用的次序依舊是大品牌優先，即便是大模型技術被廣泛應用，不成規模的企業依舊是「小腳穿大鞋，跑一步摔一步」。

二是，對於服務商而言，首先擁有大規模的數據樣本是一件具備極高時間壁壘的事，其次，擁有數據的平台會想盡辦法保護數據，提高數據獲取門檻，提高行業難度。因此，後來進入的服務商難度會更大，強者恆強。

三是，對於平台而言，如果是國內互聯網平台自相比較，會發現「地主」太多，一個應用出來，就馬上能有上億用戶，這是中小平台比不了的。

如果拿國內平台和國外平台比，差距同樣也很明顯，正如梁斌所言，如果GPT4打10分，國內大模型廠商還在2-3分這個程度，那麼2.5分，還是2.8分，其實沒差別，要能達到8分甚至9分才有機會。

強者恆強，可能只有一些特別具有壟斷性的場景，才能殺出來。

這或許也是品牌、服務商和平台的機會。再小的品牌也能建立起自己的專屬粉絲圈；再小的服務商，在垂直行業的深耕依舊具備不可替代的高價值；再小的平台，也能在狹窄賽道中做出本地化的微平台。

雖然，生成式AI可以提供互聯網上沒有的答案，並通過大規模數據訓練得到的「湧現」性知識來回答網友的各種問題。但應用的最後一公里，是否按下確認鍵依然取決於你自己。

對了，梁斌還將在9月20日參加見實的AIGC主題大會，屆時他還將在現場與我們分享更多當前大模型時代下的企業新機會，歡迎大家在文末或者公眾號菜單欄報名深度溝通。接下來，讓我們回到對話現場，聽聽梁斌博士在大數據與AI領域的前沿洞察，如下，Enjoy：

北京八友科技創始人兼CEO 梁斌

01 強者恆強在大模型時代會更加嚴重

見實：你們現在已經是50%國內AI大模型數據的供應商，這個數據的總樣本量大約是多少？

梁斌：我們目前列入銷售線索的企業大約有106家，數據總量非常巨大，中文壓縮數據掌握了大約100TB，海外數據超過1PB，國內數據比較敏感，國外則主要來自Common Crawl、Laion、Quora，Github，Reddit，電子書等平台。

見實：創業之初，你在數據領域看到了怎樣的機會？

梁斌：剛開始做八友是在2015年，當時主要是為輿情公司提供數據服務，後來逐漸給需要提供實時數據的電商公司提供數據需求；目前在為大模型客戶提供數據服務。

我們一直堅信「數據行業」未來會成為一個獨立行業，原因有三：

一是，數據規模越來越大，越來越封閉在App中，採集難度大，容易成為獨立的社會分工。

二是，大規模數據儲備價值很大，可以做一些非常長遠的宏觀報告。2015年公司創辦前後，當時還沒有大模型，只是覺得這是一件可以做10年甚至20年規模的報告，這個儲備是很難短期得到的

三是，隨着長期的積累，核心競爭力會越來越強，擁有數據的平台會想盡辦法保護數據，提高數據的獲取門檻，提高行業的難度。

見實：從你的觀察來看，目前，行業對AI類企業的認識發生了哪些變化？企業又該如何應對這輪GPT大模型帶來的行業衝擊？

梁斌：大模型這個賣點之前可能連見到甲方負責人的機會都沒有了，現在可以說在2B類生意中具有很強的穿透力，特別是加上耳目一新的演示效果，轉化率比以往大大提升。

實際上，AI類企業勝負的關鍵就在成本競爭。做大模型的團隊有很多，成本控制不好就很難長久，控制成本是各家團隊的核心競爭力，創新的同時還要結合客戶的具體場景，從效率，成本，效果等多方面打動甲方。

在這樣快速變化的時代，企業至少要具備三點基礎認知：

一是，充分利用現有基礎設施，不要重找車輪，模型方面的讓專業的人做。

二是，尋找自己行業的特殊數據，最好是非公開數據，通過這些數據建立壁壘。

三是，找到自己行業的應用場景，能接觸到這些場景，快速覆蓋，也是重要的壁壘。

如果只用一個字來說就是「快」，快是最重要的壁壘，在大廠反應過來之前完成一輪對市場的覆蓋。

見實：隨着 AI 技術的發展，企業競爭的「勝負手」又會轉向哪邊？商品、服務還是品牌力？

梁斌：回看創業之處的那三點觀察，首先擁有大規模的數據樣本是一件具備極高時間壁壘的事，其次，擁有數據的平台會想盡辦法保護數據，提高數據獲取門檻，提高行業難度。

強者恆強可能在大模型時代會更加嚴重，中小企業的大模型團隊殺出來的可能性還是比較小，中小公司在數據和算力上，人才上都有很大瓶頸，我想可能還是要有一些特別的具有壟斷性的場景，才能殺出來。

互聯網歷史上無數中小公司，有服務，有行業內的品牌，也都倒閉了。互聯網行業「地主」太多了，一個應用出來，就馬上能有上億用戶，這是普通中小公司比不了的。

02 中小企業如何適應強者恆強的時代

見實：你在《走進搜索引擎》這本書中提到，搜索引擎本質是一個由用戶定義的信息聚合系統。通過用戶輸入的查詢關鍵詞，搜索引擎推測用戶的查詢意圖，然後快速地返回相關的查詢結果，供用戶選擇。

生成式AI的出現，其實是幫用戶省去了大量搜索整理信息的時間，它的出現是否會重新定義「主動搜索」這件事？如果讓你重新定義搜索，你會如何描述？這麼描述的底層邏輯是？

梁斌：搜索引擎核心的價值有兩個，一是通過網頁質量評估方法去掉低質量網頁；二是通過相關性方法提高了相關性（相對於查詢詞的相關性）。這些共同節約了用戶找到答案的時間。

然而搜索引擎畢竟不是神，它也只能給出一個排序，用戶還是需要自己在排序的結果頁中尋找答案，選擇答案的時間沒有省去。

生成式AI直接給出最佳結果，風險很大，因為只有一次機會，但是用戶體驗極佳，而且更難得的是，生成式AI可以提供互聯網上沒有的答案，通過大規模數據訓練得到的「湧現」性知識來回答網友的各種問題。

我們的開發工程師研究安卓的源碼，有一段看不懂，大模型卻可以來解釋，這個在網上任何地方都搜索不到答案的。而且大模型解答數學題的能力也很強，一個題目變一種說法，互聯網上就找不到了，而大模型依然可以正確回答。

見實：Open AI創始人也曾提到過數據規模並不是越多越好，你們有對數據的臨界點做過劃分嗎？哪些情況下會遇到數據規模觸頂？

梁斌：目前基本上我們知道的情況模型參數大概分10B（billion），100B這個參數量級，前者解決一些文史哲數據，或者解決一些理工類數據解決複雜問題。

參數的提升意味着數據需要跟着提升，否則就容易過度擬合，對訓練數據的解釋能力提高，但是泛化能力，理解非訓練數據的能力就降低了。因此，從人力發展，算力提升的趨勢看，肯定是越多越好。

但是多也會帶來問題，數據質量要跟着提高，否則數據多反而會影響訓練效果，低層次的數據反覆訓練，也達不到高水平智能。

臨界點劃分目前我知道沒有統一標準，目前1TB token都是小模型，玩具型的，隨着社會發展需要，10TB甚至100TB token都不算大。

見實：你認為品牌需要發展到多大體量，或者需要多大的數據樣本才能支撐起一套大模型的運轉？

梁斌：不同行業數字化水平不同，比如機械行業，基本上數據都在書籍，論文，課本上。

如果是一個消費者品牌，其可以拿到的數據，也就是知乎，小紅書，一些評價型數據，基本品牌在銷售過程中一些售後服務對話數據，也是非常小的。

所以，狹窄行業的專業知識是非常少的。如果從百度知道，知乎上搜索這個品牌詞，看看有多少相關的提問就會知道，其實，很多小行業可能短時間還用不上大模型。

見實：怎麼看待微信私域CRM中的用戶數據？好友或者群聊天記錄是否會是品牌主要的數據源。如果對話內容會成為主要數據源，那你覺得需要多大量級才能實現對話場景中的自動化？

梁斌：目前我知道的對話數據大多涉及個人隱私，處理起來也極其困難，直接用作訓練風險極高，特別是2C場景不太敢用對話數據。我目前了解的可以買到的對話數據大概是這麼幾類。

一是，醫療類多輪對話數據；二是，社交網絡（比如微博）的多輪評論改造成的對話數據；三是，影視作品中的對白。

這些對話數據還是太少，目前看還沒法滿足各種垂類行業的需求。

見實：瑞幸咖啡、漢堡王等企業本質上是一家技術公司，也是數據驅動型公司，這是否也意味着他們這樣體量的消費品品牌會是接下來AI大模型應用落地的排頭兵？畢竟這類行業的用戶交互頻次與增長速度是最快的。

梁斌：到目前為止還沒有一個消費品品牌有獨立技術團隊在做大模型，也沒有向我們購買數據的品牌企業。

瑞幸、漢堡王這樣的企業，主要解決的還是用戶增長問題，智能客服和自動化文案宣傳部分的應用需求可能會多些。

有用到大模型的場景，獨立組建團隊來做是不太可能的，但他們可能是在同賽道企業中最先拿到結果的。

見實：中小企業能做些什麼呢？哪些不可逆的錯誤動作需要中小企業特別注意的？

梁斌：中小企業積累數據風險很高，特別是積累用戶個人數據可能風險更大，萬一傳播開來會比較麻煩，最安全的方法就是不要積累用戶個人數據。這個可能是數據積累過程中遇到的最大風險。

03 百模大戰：國內AI大模型的演變與發展見實：國內AI大模型的演變過程是怎樣的？可以被分為幾類？

梁斌：目前，國內AI大模型發展速度飛快，但起步有點晚，仍還在追趕階段。每家大模型團隊向前迭代都有不同的思路，總體上受限於數據和算力等資源。

不缺算力的團隊，在持續擴大數據規模；缺算力的團隊，則在不斷優化現有數據質量。總體來看，國內做AI大模型的企業可分為三類：

第一類做底座開源的2B類大模型，如，智譜AI，零一萬物這種。

第二類是做垂類大模型的企業，主要在底座大模型上用特殊數據做continue training的，比如，左手醫生等等。

第三類做2C類型的大模型服務，代碼閉源。如，百度文心一言，阿里通義千問、訊飛星火大模型等等。

其中，底座大模型的發展還在爬坡，垂類大模型和 2C 類型的大模型團隊都已經開始賺錢了。當然，做垂類大模型的也有可能2C，不過現在看來可能性比較小，盈利模式基本跑不通。垂類解決行業問題，B端用戶付費是比較正常的。

見實：你們會被歸為哪一類？是否已經實現盈利？這類商業模式目前還有多大的進入機會？未來是否有引入資本的計劃？

梁斌：我們不做大模型，我們只是給大模型提供數據服務，已經盈利了。做大模型的企業目前基本都在投入期，傳統的技術型公司，有應用場景的業務型公司，還有各行各業的龍頭企業都在進入這個領域，服務的客戶千奇百怪。

見實：在大數據服務中你們的核心價值是什麼，這些價值是如何幫助企業實現更好的業務成果的？

梁斌：我們的服務核心理念和「賭場理念」相似，不怕客戶（員工）占便宜，就怕客戶（員工）不來。只要客戶願意讓我們服務，就是巨大的機會。

整個交付過程一般會被分成三部分：

首先是交付階段，先做事，先服務，滿意後再付費；其次是遇到問題了，積極賠償；最後是客戶隨時需要，我們的工程師隨時服務，我們會給工程師高昂加班費，以確保服務的連續性。

見實：之前有提到過數據市場的三個發展階段，能否詳細闡述這些階段，以及在你看來，企業在每個階段的機遇和挑戰是什麼？

梁斌：我認為數據發展的階段，也是人類知識數字化的階段。在有計算機，互聯網以前，人類知識通過書本傳承。在計算機出現，特別是互聯網出現以後，數據開始向互聯網轉移。大概可分為三個階段：

傳統互聯網時代，數據都在網頁上，只要是社交需求，部分功能需求。

移動互聯網時代，數據既在網頁上，也在app上，社交需求降低，功能需求提升，大量的數據圍繞這實現具體功能，購物，外賣，叫車，訂票等等。

人工智能時代（大模型時代），人類知識有計劃的數字化，大量紙質書被電子化，政府公開大量數據，數據越來越成為人類共有的資產參與對人類的服務中去。

現階段來說，企業都有面向大模型的需求，一方面是賣點，另一方面是切實創造價值，快速用現有基礎設施和行業需求進行整合，快速實現行業服務水平的升級。

比如有團隊做了網店的24小時多語言客服，可以和全球的客商在任何時間用任何語言進行導購服務，去掉了時差，去掉了語言障礙。

見實：還有哪些應用案例？以及你們的通用做法是怎樣的？

梁斌：以我們目前服務的金融和汽車行業客戶為例，通常有三種落地方式：

一是，通過生成式模型替代部分甚至全部人類工作（這類工作往往是低階工作），金融行業比如做一些基礎數據準備，簡報，傳統的需要人力的部分，可以通過大模型來解決。新能源汽車行業車載交互系統，客戶需求的研究等等都可以由大模型來參與。包括很多遊戲行業通過大模型創造圖片，減少了遊戲原畫師的需求。一些客服需求很重的企業，通過大模型降低人工客服的需求，等等。

二是，通過大模型來輔助人類工作（這類工作往往是高階工作），比如現在大模型幫助高中生解題，幫助大學生寫論文，幫助工程師寫代碼，幫助律師分析案情，幫助醫生進行診斷等等，這類往往可能是實現盈利模式的重點，也是目前大模型發展方向的重點。

三是，通過大模型來指導人類工作，因為大模型可以把大量交叉學科的語料一起訓練，容易產生更加高階的智慧，從而能夠指導高科技研究，高精尖裝備的研發等等，目前國外大模型在向這個方向努力，國內大模型還暫時沒到這個階段。

見實：一路觀察下來，科技互聯網大廠、投融資機構和學術研究機構都在做什麼？

梁斌：都在齊頭並進吧，行業的交流氛圍還是比較開放的。

理論研究方面國內科學家已經取得了很好的成果，比如清華大學的朱軍老師提出的快速高效訓練方法等；互聯網大廠團隊則在瘋狂迭代推進，基本三個月一個小版本，半年一個大版本；投融資機構稍微有些安靜，因為種種原因實際上並沒有及時跟進，至少國內還並沒有看到特別大的投融資事件發生。

見實：那未來大數據與人工智能發展趨勢，你是如何預測的？接下來互聯網大廠的「百模大戰」中你更看好哪一家？

梁斌：從業務視角去看，第一波買我們數據的是互聯網公司；第二波會是非互聯網的上市公司；第三波是想也沒想到的各行各業的2B類公司。

這個影響速度是非常快的，大部分企業決策人都已經在深度思考大模型和自己業務的結合了。

目前國內確實正在經歷着一場「百模大戰」，很難定輸贏。

從整個大的行業來看，國內大模型團隊做的產品我感覺和GPT4都有較大差距，如果GPT4打10分，其他還在2-3分這個程度，那麼2.5分，還是2.8分，其實沒差別，要能達到8分甚至9分才有機會，目前國內的大模型還要繼續努力才行。

當然，我們作為數據提供方也要繼續努力，縮小差距。-(原文來源：見實/巴比特資訊)

我要留言

AI大模型時代或更集中到強團隊

英偉達的「3000億新市場」，黃仁勛的「雲野心」

從肯尼亞工廠到芬蘭監獄，人工智能的底色是廉價勞動力？

英偉達的「3000億新市場」，黃仁勛的「雲野心」

從肯尼亞工廠到芬蘭監獄，人工智能的底色是廉價勞動力？