Transformer是所有大模型的基石,但一家中國創業公司想挑戰它
圖片來源:企業官網
中國的大模型之戰已從融資戰、營銷戰打到了價格戰,大大小小的公司在發布各自大模型產品時,都要跟OpenAI的ChatGPT比一比跑分或者價格。但有一家公司不一樣,它選擇跳過市面上各個喧囂的戰場,直接向底層發起突破。
5月22日,AI創業公司彩雲科技發布了全新通用模型結構DCFormer,將直接挑戰現在幾乎所有大模型通用的Transformer架構。根據官方給出的相關論文實驗證明,在三千億級訓練數據和70億級模型參數量下,DCFormer效率是Transformer的兩倍。
* Transformer模型有其隱憂
Transformer模型是一種采用註意力機製的深度學習模型,最早在2017年由Google Brain的一個團隊推出,對整個AI學界和業界尤其是自然語言處理領域產生巨大影響,而其相關論文《Attention Is All You Need》已經成為今天大語言模型蓬勃發展的起源與名篇。簡單來說,如果沒有《Attention Is All You Need》提出的Transformer模型,就沒有如今這個如火如荼的AI大模型時代。
然而,Transformer模型開源發布7年以來,隨著業界各種模型的規模越來越大,算力對性能的限製成為一個越來越亟待解決的問題,而這一限製直接表現就是模型訓練的昂貴,上周OpenAI剛剛發布的GPT-4o,一次推理的成本仍然要人民幣4元,這也是現在大模型價格戰之所以引入註目的背景原因。雖然現在還有各大科技巨頭和風投機構的支持,但這無法持久。
要解決或者緩解這個問題,無外乎幾個辦法:芯片進步,改進模型,或者解決地球的能源問題。比如,OpenAI的CEO Sam Altman在幾個方向都分別下註,除了OpenAI在不斷訓練自己的模型算法,據媒體報道,他還與軟銀的孫正義討論芯片項目,並且投資核聚變—— Sam Altman不久前說,未來的人工智能需要能源方面的突破,因為AI消耗的電力將遠遠超過人們的預期。
在芯片領域,盡管有許多挑戰者,微軟、谷歌這樣的巨頭也在自己設計芯片,但英偉達仍然保持遙遙領先。在當地時間5月22日發布的新一季財報中,英偉達營收增長262%至260億美元再創新高,並且連續第20個季度超出分析師預期,盤後股價大漲。
而能源領域,目前看起來若要取得真正進展,還需要基礎研究的突破,不是光砸錢就能很快取得成果的。
因此,創業公司還能在模型算法改進方面找到潛在發展機會。Transformer推出7年以來,雖然一直有無數的AI研究者對其進行改進和修補,但算力智能轉化率的提升仍然不夠明顯。
* DCFormer或許是一次機會
而根據彩雲科技的官方介紹,其大模型結構DCFormer可以達到1.7~2倍算力的Transformer模型的效果,即算力智能轉化率提升了1.7~2倍。這一提升幅度,超過自2017年Transformer誕生至今,被證明最普適有效並被廣泛采用的兩項結構改進的提升幅度之和(同時應用這兩項改進的Transformer架構也叫Transformer++,如Meta的開源大模型Llama)。
圖片來源:彩雲科技官方
此外,根據彩雲科技計算實驗,隨著模型規模的增大,DCFormer的提升越來越大(上圖下的藍線和綠線),而Transformer++的提升越來越小(上圖下的黑線)。
圖片來源:彩雲科技官方
彩雲科技推出DCFormer的論文《Improving Transformers with Dynamically Composable Multi-Head Attention 》將在國際機器學習領域的頂級會議,第41屆國際機器學習大會ICML 2024正式發表。據一位評委透露,今年錄用論文的平均分為4.25-6.33,而彩雲科技團隊的論文獲得了平均7分的高分。
彩雲科技CEO袁行遠用了一個燒牛肉的場景來比喻模型訓練:食材就是數據,火候就是算力,而模型就是你的鍋,換成高壓鍋以後,煮熟牛肉的時間會變短(節省成本),同樣的時間下,做出的牛肉會更軟(效果提升),為了得到更好的烹飪效果,不能只靠增加火力和更換食材,鍋也很重要,好的模型,可以極大地節省成本,提高效果,這就是模型的意義。
"不管是GPT還是豆包、kimi,如果應用了我們的DCFormer,以上所有基於transformer的模型的成本還能再降一半。"袁行遠對包括藍鯨新聞在內的媒體表示,他希望有更多的模型廠商來試一試DCFormer,"過去我們不太被資本和媒體所知。但如果我們這樣的工作還是無法被看見,我覺得無論對我們還是業界都是一種遺憾。"
後續,彩雲科技將在自己已有的AI產品"彩雲天氣"、"彩雲小夢"上陸續應用DCFormer模型。以彩雲天氣為例,其在未來2小時內的天氣預測已經十分精準,但隨著模型效率的提升,彩雲天氣有希望在未來3小時到12小時時間段內,實現與2小時預測一樣的準確率。
"為什麽我們要做這件事呢?因為我們比較中二。"癡迷於《三體》和各種科幻奇幻作品的袁行遠興奮地說。他對DCFormer模型足夠自信,仿佛看見了AGI實現的那天。---來源: 藍鯨財經-