字節終於掀桌子了
字節跳動低調潛行一年多,終於憋了一個大招。
5 月 15 日,字節跳動首次向外界「推銷」旗下 AI 大模型——其自研豆包「全家桶」官宣將通過火山引擎(字節旗下六大業務板塊之一,其余五塊分別是抖音、大立教育、飛書、朝夕光年、TikTok)對外提供服務。
至此,字節跳動縱身跳入國內大模型混戰,其大模型版圖正式浮出水面。
圖註:豆包大模型「全家桶」
之所以出手即「王炸」,源於字節已經跨過模型效果、推理成本、落地難度這三道最為關鍵的門檻。
首先,模型效果對AI 落地最為關鍵,只有大使用量才能打磨出好模型——據火山引擎官方數據,經過一年時間的叠代,豆包大模型正成為國內使用量最大、應用場景最豐富的大模型之一,日均處理 1200 億 Tokens 文本,生成 3000 萬張圖片。
此外,字節跳動產品和戰略副總裁朱駿透露,豆包平臺月度活躍用戶達到2600萬,已有超過 800 萬個智能體被創建。作為對照,QuestMobile 數據顯示,截至今年 3 月,豆包(字節跳動)、文心一言(百度)、天工(昆侖萬維)、訊飛星火(科大訊飛)、Kimi 智能助手(月之暗面)位居 AIGC APP月活 TOP5——恐怖的是,豆包上線僅三個月就完成用戶量逆襲。
數據來源:QuestMobile 統計
這背後,虎嗅了解到,字節跳動在過去一年通過拆解明確每個部門的 OKR(例如抖音主要負責拉新,而字節專門負責 AI 產品的 Flow 部門負責開發及產品增長)實現了部門間互不幹涉,解決了互聯網公司迅速擴張所面臨的組織協同問題,是國內逐夢 AI 浪潮互聯網公司中戰略最清晰的一個。
值得一提的是,豆包大模型(原名:雲雀)早於 2023 年就在字節內部完成了上線,並基於豆包大模型打造了 AI對話助手「豆包」、AI 應用開發平臺「扣子」、互動娛樂應用「貓箱」,以及星繪、即夢等 AI 創作工具,並把大模型接入抖音、番茄小說、飛書、剪映等字節跳動旗下 50 余個業務,用以提升效率和優化產品體驗。
「技術在快速演化,但用戶核心的需求沒有改變,比如高效獲取信息、工作提效、自我表達、社交娛樂等;字節做了很多探索,尋找適合大模型應用的形態,希望自然交互走入更多人的日常生活。」朱駿說道。
這並非盲目樂觀,IDC 發布的《2024 AIGC 應用層十大趨勢白皮書》預測,2024 年全球將湧現出超過 5 億個新應用,相當於過去 40 年間出現的應用數總和,智能化應用將呈現爆發式增長,大模型浪潮將加速滲透進人們的日常生活。
其次,降低推理成本是大模型快進到「價值創造階段」的一個關鍵因素。
例如,騰訊混元大模型采用混合專家模型 (MoE)結構,自研 Angel 機器學習平臺,訓練速度達到主流框架的 2.6 倍,推理成本相比業界主流框架下降 70%;OpenAI、智譜大模型也都在近期降低了大模型價格。
不過,當火山引擎總裁譚待宣布豆包主力模型(小於等於 32K)推理輸入價格僅為 0.0008 元/千 Tokens 時,還是不免讓人感到錯愕——要知道,市面上同規格模型的定價一般為 0.12 元/千 Tokens,而豆包主力模型比行業便宜 99.3%。
按這個價格,8 塊錢可以買到豆包模型的 1000萬 Tokens,大約 1600 萬個漢字——其正以「價格屠夫」的姿態打穿大模型市場,被外界戲稱「打響大模型市場價格戰第一槍」。
對此,譚待表示背後有兩個原因:「一是能做到,二是需要這麽做;主力模型比行業便宜 99.3% 在技術上可實現,未來還有很多手段降低成本。」
最後,豆包分布式推理還有混合調度,發揮各種各樣的異構算力,解決了推理算力的問題,進而把模型推理的成本降到很低。
「以前企業做創新擔心 ROI 打不正,一來創新項目 90% 會失敗,二來創新按消耗 100 億 Tokens 算就要80 萬;現在成本只需要 8000元,失敗也花不了多少錢,但剩下 10%項目成功就可以把投入都賺回來,這無疑能幫助更多企業輕裝上陣,無負擔投身 AI 大潮。」譚待說道。
當然,字節願意躬身給企業「搭臺」的深層次原因還在於:移動互聯網業到了用戶、流量趨於見頂的成熟期,監管會更側重產業互聯網的推進與建設,這意味著技術走到平臺重構生態的關鍵時期。
正如美團創始人兼 CEO 王興當年討論 BAT 競爭關系時說的那樣,競爭這個詞放在一起說就會變成思維定勢,「麥克阿瑟將軍在西點軍校告別演講說『Only the dead have seen the end of war』(只有死去的人才能看到戰爭終結),戰鬥只是從一個戰場變成另一個戰場,從一個機會變成另一個機會,總有不斷的變化。」
尤其,ChatGPT 橫空出世讓整個互聯網都為之躁動,追趕大模型浪潮使得互聯網又陷入一種混戰的焦灼狀態,而心有猛虎的公司都在尋找向上攀爬的入口——當通用人工智能時代呼嘯而來,字節手握應用層及數據層的獨特優勢,抖音擁有豐富的數據素材和充足的算力資源,必須在快速發展時期果斷投入(包括技術生態叠代、研發投入等),從而博一張未來的船票。
以下為虎嗅與火山引擎總裁譚待兩次(5 月 15 日、5 月 16 日)溝通實錄(部分表述因方便閱讀需要有所刪改):
* 字節憑什麽把價格打下來?
Q:行業有聲音說大模型算力資源短缺,字節為什麽願意大幅度降價?
譚待:一般說算力資源不夠用說的是訓練,但今天說的大模型 ToB 服務主要是推理。做推理只要技術基礎做得好就可以用各種異構算力滿足性能、減少延遲,還能解決算力瓶頸。豆包分布式推理還有混合調度,就是通過調度好各種異構算力解決了推理算力的問題。
其次,解決算力也就解決了成本問題,就能把模型推理成本降到很低。以前企業做創新擔心 ROI 打不正,一來創新項目 90% 會失敗,二來創新試錯貴(按消耗 100 億Tokens 算就要80 萬);現在試錯成本降到 8000元,失敗成本可控,只要剩下 10%項目能成就可以把投入都賺回來,這讓很多企業輕裝上陣,無負擔投身到 AI 大潮。
Q:字節把價格卷到以厘為單位的低價,這對於現階段整個行業是好事嗎?
譚待:當然,很多企業能以更低成本做各種創新了,對於做大模型創業者來說沒有哪個是靠 ToB 賺了很多錢,通過 ToB 服務來把自己的大模型正循環這個不行了,現在還是一個特別早期的階段,要把蛋糕做大先要做到普惠,這是最重要的。
Q:字節能將價格壓到低於同行 99.3%,豆包的性能和成本如何?
譚待:現在模型應用落地時,精調是關鍵,豆包 pro 支持 128k 可精調。豆包主力模型可以跟所有主力模型去對比,網上可以看到很多第三方測試,拿豆包 APP來說,現在月活 2600 萬,用的人越多調用量就越大,模型自然就會越好。
至於成本問題,ToB 業務要看長期,用虧損換收入不可持續,字節從來不走這樣的路,降價源於技術自信,這個定價是火山對技術有信心,未來還有很多手段持續降低成本。
Q:豆包大模型徹底把價格打下來了,為什麽說「低價」是對技術的自信?
譚待:首先,技術上有非常多優化手段把成本做低且讓效果更好,比如模型結構優化調整;其次在工程上以前都單機推理,現在是分布式推理,自然能把各種底層算力用得更好,進而大大降低成本,尤其調度量非常大後,能將不同負載作為混合調度,使成本大幅下降。而且,OpenAI 也在降價,試想未來大模型在人們日常生活每天都用,低價是真正廣泛應用的前提。
其次,今年大模型能力在明顯提升,做應用變得越發重要。很多客戶都想去做大模型嘗試,但礙於價格(AI試錯、業務創新風險高),要面臨非常多不確定性,必須把試錯成本降得非常低,才能讓大家(企業、個人開發者)廣泛用起來。所以,當下最迫切的就是降低成本。
Q:豆包大模型應用於字節內部產品的使用情況如何?
譚待:首先,同名 APP 豆包(截至今年 4 月,豆包在蘋果中國區 App Store 效率榜排名第一;其安卓市場累計下載量 1.37 億,在 AIGC 類應用中斷崖式領先)用戶量(月活達 2600 萬)說明效果非常好,還有星繪這樣的創新應用。
除了 AI 原生應用外,抖音、頭條、飛書部分功能都使用了大模型,比如抖音搜索、頭條搜索結果就是用豆包大模型來生成,它還可以進一步追問用戶想了解什麽信息?包括抖音電商很多營銷文案、導購、助手等等領域都有應用。
除了這些應用場景,傳統很多用 NLP(自然語言處理)解決的問題豆包也可以做得更好,可以為一些業務後臺操作帶來極大的效率提升。
Q:AI落地場景很重要,火山有哪些客戶應用場景可以分享?
譚待:手機交互場景太多了,手機搜索、助手AI 等(OPPO 小布助手、榮耀智慧辦公智能助手、小米「小愛同學」、華碩豆叮 AI 助手均已接入火山引擎大模型服務);車機現在也比較多,導航順便看商圈、餐廳、周邊影院,(不方便看手機時)模型會告訴車把對應內容找出來完成交互;再比如汽車座艙對模型能力要求不那麽高,適合用豆包通用模型 lite,不光推理單價更低,延遲也低 50%。
當然,場景落地一方面技術要提升,像 pro、lite、角色扮演,語音都有廣闊的應用場景;另一方面,應用生態是一堆人的群體智慧,更好模型、更低成本、更易落地才能繁榮生態,大企業是高代碼,但個人開發者要的是低代碼,必須低門檻這個事情才能做起來,形成 AI 時代的創新。
* 字節蓄力,「火山」爆發?
Q:如何看待互聯網巨頭在大模型賽道的激烈競爭?
譚待:國內大模型現在還不是談競爭的時候,因為大模型現在還是在初期,池塘有多大魚才多大,大模型市場才剛剛開始,這個時候一起把大模型做好、把應用落地做好、把成本做低,讓更多人和企業受益才是關鍵,現在遠未到激烈的競爭。
Q:之前周鴻祎和李彥宏有關於開源與閉源的討論,火山會朝開源還是閉源發展?
譚待:首先,對於模型公司來說開源閉源不是非黑即白,而是綜合的方式,我們內部也在討論,是不是未來某一個版本、某一個尺寸的模型就用開源來做;其次,企業模型應用是開源還是閉源本質在於背後的需求,是擔心安全問題,還是擔心成本問題,還是擔心服務問題等。
Q:互聯網大廠在雲計算領域競爭激烈,大模型應用到雲計算領域會側重在哪些層面布局?
譚待:雲生態包括 IaaS、PaaS、SaaS,AI 大模型本身對雲來說是錦上添花,是把數字化往深往廣去做,比如模型推理可以通過雲的方式把成本做到很低,所以從價格去考慮 AI 是建立一個算力到智能的相關性,把越來越多數字化需求、生活場景與算力融合。
當然,火山更關註 ToB方向:第一,有一些行業很有集中性,比如手機、汽車可以通過聯盟一起做好;第二,一些行業不是特別清晰,就和最有想法的企業深度合作;第三,開發者非常重要,面對新技術浪潮做出不同創新的不是過去的巨頭,而是新的開發者,怎麽把他們服務好,讓他們做出更優秀的 AI 應用很重要。
而且做公有雲,字節的理念就是要成本低,就像做電商要優質、低價一樣,降本增效是寫到火山引擎願景裏去的,不知道其他人有沒有寫,這是認知上的差別。
Q:字節有數據優勢,在文生視頻這方面是否有布局實現彎道超車?
譚待:字節有款產品即夢(Dreamina),除了文生圖還有一些短視頻生成功能。模型訓練一定要技術紮實,本質上不存在彎道超車;其他模態也一樣,要先把基礎做好,如果基礎都做不好,那文生圖就是一個『人工智障』——因為它連文字都不能理解,視頻能好到哪兒去?所以沒有彎道超車,要一步一步紮實去做。
虎嗅註:事實上,字節跳動於2023 年 11 月已發布視頻生成研究成果 PixelDance,提出基於文本指導 + 首尾幀圖片指導的技術方法,能生成具有高度一致性和豐富動態性的視頻;今年 1 月,字節又發布視頻生成模型 MagicVideo-V2,效果比肩 SVD-XT、Pika1.0、Gen-2(Runway) 等同類模型。
Q:最近 OpenAI(GPT-4o)、谷歌(谷歌I/O大會升級 Gemini 全家桶)相繼公布最新大模型進展,國內外所處階段及差距如何?
譚待:實事求是地講 OpenAI 肯定還是全球第一,包括 anthropic、Gemini 也做得非常好,要承認差距;但反過來說有兩點,一是我們的模型在不斷進化,一旦進化到某一個層次,就有可能去上面做應用。
為什麽(字節)這麽久才正式對外發布豆包?因為豆包到了大家可以廣泛用它去做應用的程度,只有越來越多的人去做更多應用,反過來又可以驅動技術進步,形成一個正循環。
前天(5 月14日)OpenAI 發布會,語音做得好不好對整個交互體驗影響很大,可能模型很聰明但講話像機器人,豆包和全球最好的產品仍有差距,需要一個追趕的過程,目前追的速度還行,用戶量也越來越大。
---[出品:虎嗅商業消費組*作者:黃青春*題圖:賭神劇照/來源: 虎嗅]