Transformer是所有大模型的基石，但一家中國創業公司想挑戰它

2024052319:28

圖片來源：企業官網

中國的大模型之戰已從融資戰、營銷戰打到了價格戰，大大小小的公司在發布各自大模型產品時，都要跟OpenAI的ChatGPT比一比跑分或者價格。但有一家公司不一樣，它選擇跳過市面上各個喧囂的戰場，直接向底層發起突破。

5月22日，AI創業公司彩雲科技發布了全新通用模型結構DCFormer，將直接挑戰現在幾乎所有大模型通用的Transformer架構。根據官方給出的相關論文實驗證明，在三千億級訓練數據和70億級模型參數量下，DCFormer效率是Transformer的兩倍。

* Transformer模型有其隱憂

Transformer模型是一種采用註意力機製的深度學習模型，最早在2017年由Google Brain的一個團隊推出，對整個AI學界和業界尤其是自然語言處理領域產生巨大影響，而其相關論文《Attention Is All You Need》已經成為今天大語言模型蓬勃發展的起源與名篇。簡單來說，如果沒有《Attention Is All You Need》提出的Transformer模型，就沒有如今這個如火如荼的AI大模型時代。

然而，Transformer模型開源發布7年以來，隨著業界各種模型的規模越來越大，算力對性能的限製成為一個越來越亟待解決的問題，而這一限製直接表現就是模型訓練的昂貴，上周OpenAI剛剛發布的GPT-4o，一次推理的成本仍然要人民幣4元，這也是現在大模型價格戰之所以引入註目的背景原因。雖然現在還有各大科技巨頭和風投機構的支持，但這無法持久。

要解決或者緩解這個問題，無外乎幾個辦法：芯片進步，改進模型，或者解決地球的能源問題。比如，OpenAI的CEO Sam Altman在幾個方向都分別下註，除了OpenAI在不斷訓練自己的模型算法，據媒體報道，他還與軟銀的孫正義討論芯片項目，並且投資核聚變—— Sam Altman不久前說，未來的人工智能需要能源方面的突破，因為AI消耗的電力將遠遠超過人們的預期。

在芯片領域，盡管有許多挑戰者，微軟、谷歌這樣的巨頭也在自己設計芯片，但英偉達仍然保持遙遙領先。在當地時間5月22日發布的新一季財報中，英偉達營收增長262%至260億美元再創新高，並且連續第20個季度超出分析師預期，盤後股價大漲。

而能源領域，目前看起來若要取得真正進展，還需要基礎研究的突破，不是光砸錢就能很快取得成果的。

因此，創業公司還能在模型算法改進方面找到潛在發展機會。Transformer推出7年以來，雖然一直有無數的AI研究者對其進行改進和修補，但算力智能轉化率的提升仍然不夠明顯。

* DCFormer或許是一次機會

而根據彩雲科技的官方介紹，其大模型結構DCFormer可以達到1.7~2倍算力的Transformer模型的效果，即算力智能轉化率提升了1.7~2倍。這一提升幅度，超過自2017年Transformer誕生至今，被證明最普適有效並被廣泛采用的兩項結構改進的提升幅度之和（同時應用這兩項改進的Transformer架構也叫Transformer++，如Meta的開源大模型Llama）。

圖片來源：彩雲科技官方

此外，根據彩雲科技計算實驗，隨著模型規模的增大，DCFormer的提升越來越大（上圖下的藍線和綠線），而Transformer++的提升越來越小（上圖下的黑線）。

圖片來源：彩雲科技官方

彩雲科技推出DCFormer的論文《Improving Transformers with Dynamically Composable Multi-Head Attention 》將在國際機器學習領域的頂級會議，第41屆國際機器學習大會ICML 2024正式發表。據一位評委透露，今年錄用論文的平均分為4.25-6.33，而彩雲科技團隊的論文獲得了平均7分的高分。

彩雲科技CEO袁行遠用了一個燒牛肉的場景來比喻模型訓練：食材就是數據，火候就是算力，而模型就是你的鍋，換成高壓鍋以後，煮熟牛肉的時間會變短（節省成本），同樣的時間下，做出的牛肉會更軟（效果提升），為了得到更好的烹飪效果，不能只靠增加火力和更換食材，鍋也很重要，好的模型，可以極大地節省成本，提高效果，這就是模型的意義。

"不管是GPT還是豆包、kimi，如果應用了我們的DCFormer，以上所有基於transformer的模型的成本還能再降一半。"袁行遠對包括藍鯨新聞在內的媒體表示，他希望有更多的模型廠商來試一試DCFormer，"過去我們不太被資本和媒體所知。但如果我們這樣的工作還是無法被看見，我覺得無論對我們還是業界都是一種遺憾。"

後續，彩雲科技將在自己已有的AI產品"彩雲天氣"、"彩雲小夢"上陸續應用DCFormer模型。以彩雲天氣為例，其在未來2小時內的天氣預測已經十分精準，但隨著模型效率的提升，彩雲天氣有希望在未來3小時到12小時時間段內，實現與2小時預測一樣的準確率。

"為什麽我們要做這件事呢？因為我們比較中二。"癡迷於《三體》和各種科幻奇幻作品的袁行遠興奮地說。他對DCFormer模型足夠自信，仿佛看見了AGI實現的那天。---來源: 藍鯨財經-

我要留言

Transformer是所有大模型的基石，但一家中國創業公司想挑戰它

伊朗：群體約的炮，含淚也要打完

巴黎奧運會開幕式不到70天，法國有點慌了，先後向46個國家求助

伊朗：群體約的炮，含淚也要打完

巴黎奧運會開幕式不到70天，法國有點慌了，先後向46個國家求助