01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

字節爆出AI“套殼”瓜,低調是原罪?

2023121816:01



在大模型熱潮中,一直保持低調的字節跳動,日前也被曝出了“套殼“的瓜。

當地時間12月15日,外媒The Verge曝出字節跳動正在秘密研發一個被稱爲“種子計劃”(Project Seed)的AI大模型項目。據稱該項目在訓練和評估模型等多個研發階段調用了OpenAI的應用程序接口(API),並使用ChatGPT輸出的數據進行模型訓練。

在API調用和對輸出內容的使用方面,OpenAI的使用協議明確規定了:禁止使用輸出開發競爭模型。

在2023年11月14日更新的使用條款中還規定了:

    不得嘗試或協助任何人進行逆向工程、反編譯或發現OpenAI服務的源代碼或底層組件,包括我們的模型、算法或系統(除非適用法律禁止此限制)。
    不得自動或以編程方式提取數據或輸出(定義如下)。
    不得表示輸出是人類生成的,但事實並非如此。

OpenAI的使用條款中對于違規用戶的處理辦法是:在提前通知的情況下,隨時終止服務。



OpenAI服務條款中禁止的事項

而目前,隸屬于字節跳動公司名下的部分GPT使用權限均已被OpenAI封禁。

OpenAI發言人Niko Felix在一份聲明中表示:“所有 API 客戶必須遵守我們的使用政策,以確保我們的技術用于正確用途。雖然字節跳動對OpenAI的API使用量很少,但在進一步調查期間,我們已暫停了他們的帳戶,如果我們發現他們的使用不遵守這些政策,我們將要求他們進行必要的更改或終止他們的帳戶。”

真的“套”了嗎?

首先可以確定的是,字節跳動肯定是在業務當中使用了OpenAI的API。

The Verge的報道中提到,字節跳動發言人Jodi Seth表示,GPT生成的數據在 Project Seed 開發的早期就用于注釋模型,並在 2019 年中期被從字節跳動的訓練數據中刪除。不過,Jodi Seth在一份聲明中也表示,在字節的海外市場中的一些服務使用了OpenAI的API。但在國內的“豆包”,使用的是字節自主開發的“雲雀”模型。

據一些與字節跳動海外業務相關的人士表示,字節跳動的海外業務使用的是OpenAI在微軟Azure上的雲服務Azure OpenAI。

調用OpenAI的API,對于公司和個人來說都是很平常的事情。並不能因此就說大模型研發公司調用了OpenAI的API是抄襲或是套用數據。

不過,The Verge在報道中提到了字節跳動的一些內部文件可以證明字節跳動正在使用ChatGPT輸出的數據進行模型訓練,“有員工在飛書上討論了如何‘數據脫敏’以掩蓋調用OpenAI的API進行模型訓練的行爲。”

虎嗅向一些與字節跳動AI研發團隊有關的人士,詢問了字節跳動是否使用了ChatGPT輸出的數據訓練模型,得到的回複均是“不方便評價”。

一位火山引擎團隊人士向虎嗅透露,字節AI研發團隊在模型訓練上投入的算力非常可觀,“不管數據來源如何,在大語言模型訓練方面,AI團隊確實是在刻苦研發的。”

此外,The Verge的報道中還提到”他們(字節)說要確保一切都合法,只是不想被抓。“多位工程大模型從業者對虎嗅表示,這種觀點相當片面,甚至有些不懷好意。

“面向公衆開放的AI大模型,最重要的就是內容安全問題,不管訓練過程中是否用過OpenAI的數據,都不可能直接把這些輸出這些內容。”一位參與某國內AI大模型內容審核工作的人士向虎嗅表示,目前國內AI大模型對于數據合規、安全性的考慮相當嚴格,甚至是模型産品研發過程中的首要考量。

有趣的是,虎嗅就訓練數據問題向字節跳動的語言模型産品“豆包”提問了幾輪。得到的回複均是沒有采用過OpenAI的技術或數據。






字節跳動大模型産品“豆包”的問答截圖

數據“套殼”很普遍

事實上,在訓練過程中用到ChatGPT輸出的內容,雖然有違OpenAI的使用條款,但這在LLM領域並不是什麽新鮮事。

最常見的此類操作就是模型蒸餾(Model Distillation),這也是深度學習領域的一種常見的訓練方法。通常用于將一個大型、複雜的模型(稱爲“教師模型”)的知識轉移到一個更小、更簡單的模型(稱爲“學生模型”)中。這個過程的目標是讓小模型模仿大模型的行爲,以便它可以在保持較低計算複雜性的同時,接近或達到大模型的性能。

“模型蒸餾的教師模型,也應該來自于自研模型。但今天研發大模型的人普遍急功近利,很多人也就顧不了這麽多了。”一位AI研發工程師告訴虎嗅,業內利用別人的模型進行基礎開發的不在少數,有些公司也會公開承認自己的模型是基于某個開源模型蒸餾而來。

除了字節跳動之外,另一家之名公司,在OpenAI強大的內容“輸出”之下,也爆出了數據“套殼”的新聞。

12月9日,馬斯克新建的x.AI公司推出的LLM産品Grok,被網友質疑直接“套殼”了ChatGPT。一位X用戶在向Grok提問的過程中,得到的回答居然是:“我無法完成您的請求,因爲它違反了OpenAI的用例政策。”



網友發布X稱:Grok說自己不能“違反OpenAI的用例政策”

對此,xAI的工程師Igor Babuschkin在這條推文下面解釋說,這是因爲ChatGPT的輸出充斥網絡,導致Grok很難不受到ChatGPT的影響,而輸出與OpenAI或ChatGPT相關的信息。他表示:“這個問題非常罕見,我們已經意識到這一點,並將確保未來的Grok版本不會出現類似的問題。Grok的開發沒有使用任何OpenAI代碼。”



X工程師對“套殼”問題的回複

由于Grok與ChatGPT一樣可以鏈接網絡,且它可以直接檢索X(原Twitter)上的內容,所以輸出與ChatGPT相關的內容對于Grok來說,也不是完全不合理。

而對于這種情況,AI業界也並沒有引起太大的反應。前述研發人員對虎嗅表示,不管是直接還是間接的,大家都不可避免地要把行業第一作爲參考。如今的一些公司,不只是把ChatGPT的輸出內容用于訓練,甚至有人把這些內容用在不太合規的商業用途中,“有的短視頻或是虛擬人服務公司,就把使用GPT-4輸出的內容做腳本當成自己的賣點呢。”

不過,使用AI生成的數據訓練自己的模型對模型的疊代進化真的有好處嗎?

在數據疊代方面,確實曾有人提出過擔憂,認爲:未來AI生成內容勢必會充斥網絡,大模型疊代的訓練數據將成爲一條難以再進化的“銜尾蛇”。

這是否就意味著,後來的AI大模型就再也難以追趕ChatGPT了呢?

對此,一些學者認爲並不會出現這種情況,AI輸出的數據在疊代過程中,一樣可以促進後來的AI提升能力,對AI的促進作用甚至不弱于人類輸出的數據,甚至會出現“教會徒弟,餓死師傅“的情況。

IDEA研究院高級算法工程師王昊認爲:在大型語言模型上,用自己生成的數據訓練自己並非沒有意義。首先借助這種方式,人類能從根本上解決大模型的數據危機問題。此外,人們不僅用這種方式教會大模型解決各種問題,還開始嘗試以類似的方式使大模型自我反思,自我驗證和自我提升,這是未來能夠讓模型變得更加智能的重要途徑。

字節跳動被懷疑,低調是原罪?

自ChatGPT問世以來以後,國內百模大戰熱火朝天,但是字節跳動似乎並沒有深陷其中。

過于低調的大模型研發,也招來了很多外界的“揣測”。

自3月以來,字節跳動在AI大模型方面正式發布的重大新聞並不多,6月發布的大模型服務平台火山方舟;8月宣布自研的大模型“雲雀”通過了有關部門備案,並開啓了基于雲雀大模型的AI對話産品“豆包”的對外測試。

近期,字節跳動在AI方面的大動作似乎只有11月宣布成立的新AI部門Flow,以及這次的套用數據事件了。

對于字節跳動在大語言模型熱潮中,發聲甚少的原因,很多業內人士認爲,“低調”才是C端業務在大語言模型趨勢下的正確邏輯。

縱觀國內互聯網巨頭,騰訊、字節、美團等專注C端業務的部門,在這波大語言模型熱潮中,多數都保持著謹慎的態度。

“LLM最好的應用場景應該在C端,但關注C端的公司,多數不會大張旗鼓的研發。”某C端互聯網巨頭的AI大模型專家對虎嗅表示,對于互聯網公司來說,B端業務通常提供更直接、更可預測的收入來源。所以在“百模大戰”中,B端市場會更積極地推出産品,宣傳業務。

如字節跳動這樣的C端互聯網巨頭,要研發、推廣一款大語言模型應用,勢必要考慮很多問題,其中最重要的三個因素包括:商業模式與收益預期,技術成熟度與用戶體驗,隱私與合規。

首先對于專注C端消費者的公司和業務來說,要將大語言模型落地到應用中,勢必需要更長的時間來開發市場、教育用戶,並且盈利模式相當不明確。

在技術成熟度與用戶體驗方面,大語言模型在2023年雖然取得了長足的進展,但在理解複雜、多變的消費者需求方面仍有局限。C端互聯網公司更傾向于在技術成熟度更高、能夠提供一致且高質量用戶體驗的時候,才大規模發展産品落地。

在隱私和合規性方面,雖然目前國內有關部門已經對公衆開放了多款AI大模型應用。但在C端市場上,還會涉及到隱私和數據保護問題,這在當下的國內市場亦算是一個重大“雷區”。很多普通用戶都在擔憂:大模型會不會收集我的隱私數據?應用了AI之後,大公司對我的“監視”是不是更精准了?

除此之外,在商業上,國內互聯網公司還會考慮到“後發優勢”的問題。中國互聯網市場競爭相當激烈,“百模大戰”尚未結束,如果能夠等待競爭對手先出手,觀其效果而後動,或者在市場中尋找差異化AI産品進行收購,則更可能在未來的市場競爭中占據優勢。---[出品 : 虎嗅科技組*作者 : 齊健*編輯 : 王一鵬]