字節終於掀桌子了

2024052014:36

字節跳動低調潛行一年多，終於憋了一個大招。

5 月 15 日，字節跳動首次向外界「推銷」旗下 AI 大模型——其自研豆包「全家桶」官宣將通過火山引擎（字節旗下六大業務板塊之一，其余五塊分別是抖音、大立教育、飛書、朝夕光年、TikTok）對外提供服務。

至此，字節跳動縱身跳入國內大模型混戰，其大模型版圖正式浮出水面。

圖註：豆包大模型「全家桶」

之所以出手即「王炸」，源於字節已經跨過模型效果、推理成本、落地難度這三道最為關鍵的門檻。

首先，模型效果對AI 落地最為關鍵，只有大使用量才能打磨出好模型——據火山引擎官方數據，經過一年時間的叠代，豆包大模型正成為國內使用量最大、應用場景最豐富的大模型之一，日均處理 1200 億 Tokens 文本，生成 3000 萬張圖片。

此外，字節跳動產品和戰略副總裁朱駿透露，豆包平臺月度活躍用戶達到2600萬，已有超過 800 萬個智能體被創建。作為對照，QuestMobile 數據顯示，截至今年 3 月，豆包（字節跳動）、文心一言（百度）、天工（昆侖萬維）、訊飛星火（科大訊飛）、Kimi 智能助手（月之暗面）位居 AIGC APP月活 TOP5——恐怖的是，豆包上線僅三個月就完成用戶量逆襲。

數據來源：QuestMobile 統計

這背後，虎嗅了解到，字節跳動在過去一年通過拆解明確每個部門的 OKR（例如抖音主要負責拉新，而字節專門負責 AI 產品的 Flow 部門負責開發及產品增長）實現了部門間互不幹涉，解決了互聯網公司迅速擴張所面臨的組織協同問題，是國內逐夢 AI 浪潮互聯網公司中戰略最清晰的一個。

值得一提的是，豆包大模型（原名：雲雀）早於 2023 年就在字節內部完成了上線，並基於豆包大模型打造了 AI對話助手「豆包」、AI 應用開發平臺「扣子」、互動娛樂應用「貓箱」，以及星繪、即夢等 AI 創作工具，並把大模型接入抖音、番茄小說、飛書、剪映等字節跳動旗下 50 余個業務，用以提升效率和優化產品體驗。

「技術在快速演化，但用戶核心的需求沒有改變，比如高效獲取信息、工作提效、自我表達、社交娛樂等；字節做了很多探索，尋找適合大模型應用的形態，希望自然交互走入更多人的日常生活。」朱駿說道。

這並非盲目樂觀，IDC 發布的《2024 AIGC 應用層十大趨勢白皮書》預測，2024 年全球將湧現出超過 5 億個新應用，相當於過去 40 年間出現的應用數總和，智能化應用將呈現爆發式增長，大模型浪潮將加速滲透進人們的日常生活。

其次，降低推理成本是大模型快進到「價值創造階段」的一個關鍵因素。

例如，騰訊混元大模型采用混合專家模型 (MoE）結構，自研 Angel 機器學習平臺，訓練速度達到主流框架的 2.6 倍，推理成本相比業界主流框架下降 70%；OpenAI、智譜大模型也都在近期降低了大模型價格。

不過，當火山引擎總裁譚待宣布豆包主力模型（小於等於 32K）推理輸入價格僅為 0.0008 元/千 Tokens 時，還是不免讓人感到錯愕——要知道，市面上同規格模型的定價一般為 0.12 元/千 Tokens，而豆包主力模型比行業便宜 99.3%。

按這個價格，8 塊錢可以買到豆包模型的 1000萬 Tokens，大約 1600 萬個漢字——其正以「價格屠夫」的姿態打穿大模型市場，被外界戲稱「打響大模型市場價格戰第一槍」。

對此，譚待表示背後有兩個原因：「一是能做到，二是需要這麽做；主力模型比行業便宜 99.3% 在技術上可實現，未來還有很多手段降低成本。」

最後，豆包分布式推理還有混合調度，發揮各種各樣的異構算力，解決了推理算力的問題，進而把模型推理的成本降到很低。

「以前企業做創新擔心 ROI 打不正，一來創新項目 90% 會失敗，二來創新按消耗 100 億 Tokens 算就要80 萬；現在成本只需要 8000元，失敗也花不了多少錢，但剩下 10%項目成功就可以把投入都賺回來，這無疑能幫助更多企業輕裝上陣，無負擔投身 AI 大潮。」譚待說道。

當然，字節願意躬身給企業「搭臺」的深層次原因還在於：移動互聯網業到了用戶、流量趨於見頂的成熟期，監管會更側重產業互聯網的推進與建設，這意味著技術走到平臺重構生態的關鍵時期。

正如美團創始人兼 CEO 王興當年討論 BAT 競爭關系時說的那樣，競爭這個詞放在一起說就會變成思維定勢，「麥克阿瑟將軍在西點軍校告別演講說『Only the dead have seen the end of war』（只有死去的人才能看到戰爭終結），戰鬥只是從一個戰場變成另一個戰場，從一個機會變成另一個機會，總有不斷的變化。」

尤其，ChatGPT 橫空出世讓整個互聯網都為之躁動，追趕大模型浪潮使得互聯網又陷入一種混戰的焦灼狀態，而心有猛虎的公司都在尋找向上攀爬的入口——當通用人工智能時代呼嘯而來，字節手握應用層及數據層的獨特優勢，抖音擁有豐富的數據素材和充足的算力資源，必須在快速發展時期果斷投入（包括技術生態叠代、研發投入等），從而博一張未來的船票。

以下為虎嗅與火山引擎總裁譚待兩次（5 月 15 日、5 月 16 日）溝通實錄（部分表述因方便閱讀需要有所刪改）：

* 字節憑什麽把價格打下來？

Q：行業有聲音說大模型算力資源短缺，字節為什麽願意大幅度降價？

譚待：一般說算力資源不夠用說的是訓練，但今天說的大模型 ToB 服務主要是推理。做推理只要技術基礎做得好就可以用各種異構算力滿足性能、減少延遲，還能解決算力瓶頸。豆包分布式推理還有混合調度，就是通過調度好各種異構算力解決了推理算力的問題。

其次，解決算力也就解決了成本問題，就能把模型推理成本降到很低。以前企業做創新擔心 ROI 打不正，一來創新項目 90% 會失敗，二來創新試錯貴（按消耗 100 億Tokens 算就要80 萬）；現在試錯成本降到 8000元，失敗成本可控，只要剩下 10%項目能成就可以把投入都賺回來，這讓很多企業輕裝上陣，無負擔投身到 AI 大潮。

Q：字節把價格卷到以厘為單位的低價，這對於現階段整個行業是好事嗎？

譚待：當然，很多企業能以更低成本做各種創新了，對於做大模型創業者來說沒有哪個是靠 ToB 賺了很多錢，通過 ToB 服務來把自己的大模型正循環這個不行了，現在還是一個特別早期的階段，要把蛋糕做大先要做到普惠，這是最重要的。

Q：字節能將價格壓到低於同行 99.3%，豆包的性能和成本如何？

譚待：現在模型應用落地時，精調是關鍵，豆包 pro 支持 128k 可精調。豆包主力模型可以跟所有主力模型去對比，網上可以看到很多第三方測試，拿豆包 APP來說，現在月活 2600 萬，用的人越多調用量就越大，模型自然就會越好。

至於成本問題，ToB 業務要看長期，用虧損換收入不可持續，字節從來不走這樣的路，降價源於技術自信，這個定價是火山對技術有信心，未來還有很多手段持續降低成本。

Q：豆包大模型徹底把價格打下來了，為什麽說「低價」是對技術的自信？

譚待：首先，技術上有非常多優化手段把成本做低且讓效果更好，比如模型結構優化調整；其次在工程上以前都單機推理，現在是分布式推理，自然能把各種底層算力用得更好，進而大大降低成本，尤其調度量非常大後，能將不同負載作為混合調度，使成本大幅下降。而且，OpenAI 也在降價，試想未來大模型在人們日常生活每天都用，低價是真正廣泛應用的前提。

其次，今年大模型能力在明顯提升，做應用變得越發重要。很多客戶都想去做大模型嘗試，但礙於價格（AI試錯、業務創新風險高），要面臨非常多不確定性，必須把試錯成本降得非常低，才能讓大家（企業、個人開發者）廣泛用起來。所以，當下最迫切的就是降低成本。

Q：豆包大模型應用於字節內部產品的使用情況如何？

譚待：首先，同名 APP 豆包（截至今年 4 月，豆包在蘋果中國區 App Store 效率榜排名第一；其安卓市場累計下載量 1.37 億，在 AIGC 類應用中斷崖式領先）用戶量（月活達 2600 萬）說明效果非常好，還有星繪這樣的創新應用。

除了 AI 原生應用外，抖音、頭條、飛書部分功能都使用了大模型，比如抖音搜索、頭條搜索結果就是用豆包大模型來生成，它還可以進一步追問用戶想了解什麽信息？包括抖音電商很多營銷文案、導購、助手等等領域都有應用。

除了這些應用場景，傳統很多用 NLP（自然語言處理）解決的問題豆包也可以做得更好，可以為一些業務後臺操作帶來極大的效率提升。

Q：AI落地場景很重要，火山有哪些客戶應用場景可以分享？

譚待：手機交互場景太多了，手機搜索、助手AI 等（OPPO 小布助手、榮耀智慧辦公智能助手、小米「小愛同學」、華碩豆叮 AI 助手均已接入火山引擎大模型服務）；車機現在也比較多，導航順便看商圈、餐廳、周邊影院，（不方便看手機時）模型會告訴車把對應內容找出來完成交互；再比如汽車座艙對模型能力要求不那麽高，適合用豆包通用模型 lite，不光推理單價更低，延遲也低 50%。

當然，場景落地一方面技術要提升，像 pro、lite、角色扮演，語音都有廣闊的應用場景；另一方面，應用生態是一堆人的群體智慧，更好模型、更低成本、更易落地才能繁榮生態，大企業是高代碼，但個人開發者要的是低代碼，必須低門檻這個事情才能做起來，形成 AI 時代的創新。

* 字節蓄力，「火山」爆發？

Q：如何看待互聯網巨頭在大模型賽道的激烈競爭？

譚待：國內大模型現在還不是談競爭的時候，因為大模型現在還是在初期，池塘有多大魚才多大，大模型市場才剛剛開始，這個時候一起把大模型做好、把應用落地做好、把成本做低，讓更多人和企業受益才是關鍵，現在遠未到激烈的競爭。

Q：之前周鴻祎和李彥宏有關於開源與閉源的討論，火山會朝開源還是閉源發展？

譚待：首先，對於模型公司來說開源閉源不是非黑即白，而是綜合的方式，我們內部也在討論，是不是未來某一個版本、某一個尺寸的模型就用開源來做；其次，企業模型應用是開源還是閉源本質在於背後的需求，是擔心安全問題，還是擔心成本問題，還是擔心服務問題等。

Q：互聯網大廠在雲計算領域競爭激烈，大模型應用到雲計算領域會側重在哪些層面布局？

譚待：雲生態包括 IaaS、PaaS、SaaS，AI 大模型本身對雲來說是錦上添花，是把數字化往深往廣去做，比如模型推理可以通過雲的方式把成本做到很低，所以從價格去考慮 AI 是建立一個算力到智能的相關性，把越來越多數字化需求、生活場景與算力融合。

當然，火山更關註 ToB方向：第一，有一些行業很有集中性，比如手機、汽車可以通過聯盟一起做好；第二，一些行業不是特別清晰，就和最有想法的企業深度合作；第三，開發者非常重要，面對新技術浪潮做出不同創新的不是過去的巨頭，而是新的開發者，怎麽把他們服務好，讓他們做出更優秀的 AI 應用很重要。

而且做公有雲，字節的理念就是要成本低，就像做電商要優質、低價一樣，降本增效是寫到火山引擎願景裏去的，不知道其他人有沒有寫，這是認知上的差別。

Q：字節有數據優勢，在文生視頻這方面是否有布局實現彎道超車？

譚待：字節有款產品即夢（Dreamina），除了文生圖還有一些短視頻生成功能。模型訓練一定要技術紮實，本質上不存在彎道超車；其他模態也一樣，要先把基礎做好，如果基礎都做不好，那文生圖就是一個『人工智障』——因為它連文字都不能理解，視頻能好到哪兒去？所以沒有彎道超車，要一步一步紮實去做。

虎嗅註：事實上，字節跳動於2023 年 11 月已發布視頻生成研究成果 PixelDance，提出基於文本指導 + 首尾幀圖片指導的技術方法，能生成具有高度一致性和豐富動態性的視頻；今年 1 月，字節又發布視頻生成模型 MagicVideo-V2，效果比肩 SVD-XT、Pika1.0、Gen-2（Runway）等同類模型。

Q：最近 OpenAI（GPT-4o）、谷歌（谷歌I/O大會升級 Gemini 全家桶）相繼公布最新大模型進展，國內外所處階段及差距如何？

譚待：實事求是地講 OpenAI 肯定還是全球第一，包括 anthropic、Gemini 也做得非常好，要承認差距；但反過來說有兩點，一是我們的模型在不斷進化，一旦進化到某一個層次，就有可能去上面做應用。

為什麽（字節）這麽久才正式對外發布豆包？因為豆包到了大家可以廣泛用它去做應用的程度，只有越來越多的人去做更多應用，反過來又可以驅動技術進步，形成一個正循環。

前天（5 月14日）OpenAI 發布會，語音做得好不好對整個交互體驗影響很大，可能模型很聰明但講話像機器人，豆包和全球最好的產品仍有差距，需要一個追趕的過程，目前追的速度還行，用戶量也越來越大。

---[出品:虎嗅商業消費組*作者:黃青春*題圖:賭神劇照/來源: 虎嗅]

我要留言

字節終於掀桌子了

中美AI的五月劇變

療愈自我，從容遠行

中美AI的五月劇變

療愈自我，從容遠行