01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

GPT、Sora,爲什麽王炸都來自OpenAI?

2024022915:46

視頻生成模型 Sora 橫空出世半個月後,仍在強勢刷屏。

這款 AI 可以生成長達 60 秒的高質量視頻。最令人恐懼的是,其學習的對象不局限于畫面、像素,Sora 還“學會”了一些視頻中呈現的物理規律(比如人在雨後走過,水面有倒影)。因此,研發它的 OpenAI 稱其爲“世界模擬器”。

但很多人的疑問是:幾乎所有的科技巨頭都在 All in 大模型,爲什麽這次出圈的模型,又是來自 OpenAI?

*真正的偉大,無法被計劃

2015 年 OpenAI 成立之初,對如何實現目標毫無頭緒。

公司的創始人兼 CEO 薩姆·奧爾特曼(Sam Altman)回憶道,最初這個團隊連辦公室都沒有,大家聚集在公寓裏,他腦子一直在想:我們該怎麽辦?



OpenAI 成立第一天的場景,奧爾特曼于 2023 年 1 月 4 日分享在社交媒體 X 上。

這種狀態持續了很久。OpenAI 成立一年多時,所有的事情都還進展緩慢。大家只是胡亂嘗試一通,鑽研了解決視頻遊戲的系統,在機器人技術上花費了大量精力,然後發幾篇論文。

奧爾特曼想起當時公司的景象時說:“我們知道我們想做什麽,我們知道爲什麽要這麽做,但我們不知道怎麽做。”

不過,這個團隊一直被一種樂觀力量所驅使,大家對于 AGI 的瘋狂願景,讓事情在最終迎來了轉機。所謂 AGI,即通用人工智能,也就是像人類一樣完成複雜任務的 AI。

這個願景人類期待了很久,奧爾特曼和他的團隊也是。

奧爾特曼 8 歲時,父母送給他一台電腦。一次玩至深夜,他的腦海中突然閃現出一個想法:“有一天,這台計算機將會學會思考。” 等奧爾特曼 2003 年進入斯坦福大學就讀時,他仍想完成年少時的夢想,爲此修了部分人工智能的課程,但他覺得這些“根本沒什麽用”。

退學後,奧爾特曼進入科技孵化器 Y Combinator 工作,並在 28 歲接任 CEO。那時,計算機已經能通過深度學習和神經網絡完成一些任務,比如給照片貼標簽、翻譯文本等。這些進步第一次讓他相信,AGI 是觸手可及的。

然而,把 AGI 交到大公司手中讓他感到擔憂。奧爾特曼認爲大公司會過于專注于自己的産品,而無法抓住機會盡快開發出通用人工智能,即使他們真的開發出來,也可能很魯莽地將其公之于衆。

當時,奧爾特曼一直在考慮競選加州州長,但很快他意識到,自己可以做一件更大的事:“領導一家可能改變人類的公司”。奧爾特曼開始尋找一些同行者,幫他共同創辦一家新型人工智能公司。

彼時,埃隆·馬斯克(Elon Musk)正因與谷歌聯合創始人拉裏·佩奇的一場 AI 討論,而倍感不快。馬斯克事後在 CNBC 的一次節目中談到此事,佩奇認爲機器人和人類應當擁有平等的權利,並指責自己是物種歧視者(speciesist)。這種對于 AI 安全的“漠然”態度,讓馬斯克感到擔憂。

奧爾特曼和馬斯克一拍即合。幾個月內,奧爾特曼就從馬斯克和裏德·霍夫曼等人那裏籌集了資金。奧爾特曼開始招兵買馬,他將招聘範圍定得極窄:必須是 AGI 的信徒。憑借他本人和馬斯克的號召力,以及探索 AGI 這套誘人的話術,奧爾特曼挖來了 Stripe CTO Greg Brockman 和谷歌大腦核心科學家 Ilya Sutskever 等人。



轉折點出現在公司成立一年多後,OpenAI 先後等來了一個人和一項技術。

一個人是傳奇 AI 研究員 Alec Radford。他 2016 年加入 OpenAI 時,最大的興趣是讓神經網絡與人類進行清晰的對話。

他先是通過 20 億條 Reddit 評論來訓練語言模型。和 OpenAI 的許多早期實驗一樣,這個實驗失敗了,但這個 23 歲的年輕人獲得了繼續前進、再次失敗的許可。Alec Radford 繼續使用 1 億條亞馬遜評論訓練模型,去預測、生成評論中的下一個字符。這一模型能夠判斷評論是正面還是負面的,如果讓模型創建一條正面或負面的評論,它也能做到。“這完全是意外之喜”,辨別評論的情感是一個複雜函數,但不知爲何,Alec Radford 的模型找到了一點感覺。

而 OpenAI 等來的技術則誕生自它的競爭對手谷歌。2017 年初,一篇由 8 位谷歌研究人員合著的研究論文預印本出現了,但並未引起人們的注意。這篇論文的正式標題是“Attention Is All You Need”,它後來被稱爲“Transformer 論文”。Transformer 使神經網絡能夠更高效地理解和生成語言,通過並行分析語料,找出哪些元素值得關注。這極大地優化了生成連貫文本以響應提示的過程。後來人們意識到,同樣的技術也可以生成圖像甚至視頻。

雖然該論文後來被稱爲當前 AI 狂潮的催化劑,但在當時,Ilya Sutskever 只是少數幾個了解這一突破有多麽強大的人之一。Brockman 回憶道,Ilya 看到 Transformer 出現時,驚喜地喊到:“這就是我們一直在等待的”。

之後,Alec Radford 開始試驗 Transformer 架構。他表示,當時在兩周內取得的進展超過了過去兩年的進展。

Radford 和他的合作者給他們創建的模型起的名字是“generatively pretrained transformer”——這就是今天我們耳熟能詳的 GPT 一詞縮寫的全稱。最終,這個模型被通稱爲“生成式 AI”。該模型包含 1.17 億個參數或變量,在理解語言和生成答案方面的表現優于之前的所有模型。

僅從事後的敘述來看,OpenAI 的成功仿佛是一步一腳印的,它把握住了所有關鍵時點,無一遺漏。但是奧爾特曼仍然強調:“我們沒有總體規劃”,OpenAI 所做的一切就像“穿過迷宮到達終點”,而終點即是安全的 AGI。

即便是對于 GPT 的誕生,奧爾特曼也感到吊詭。他十歲時,對于 AI 的想象遵循這樣的路徑:有機器人後,先體力再腦力;在初級腦力工作後,再會做複雜腦力工作,比如證明一個數學定理,最後才是擁有創造、寫作等深層次能力的 AI。但“事實正朝著完全相反的方向發展”。

OpenAI 的科學家肯尼斯·斯坦利(Kenneth Stanley)和喬爾·雷曼(Joel Lehman)在近期出版的書籍《爲什麽偉大不能被計劃》對此進行了高度總結:真正的偉大無法在計劃中誕生。

來自 OpenAI 的科學家肯尼斯·斯坦利和喬爾·雷曼撰寫的書籍《爲什麽偉大不能被計劃》

作者喬爾·雷曼在一次專訪中表示 OpenAI 做了很多了不起的事,但ChatGPT 絕對不是 OpenAI 成立之初的目標。OpenAI 的許多早期探索還與電子遊戲、多代理模擬(multi-agent simulations)和機器人有關,許多通往 ChatGPT 的踏腳石都沒有把 ChatGPT 當成最終目標。

某種意義上,ChatGPT 的緊急推出,也是一種營銷策略。

*營銷踩點,OpenAI 搶走谷歌風頭

OpenAI 成立之初,頗有一層與谷歌對抗的意味。奧爾特曼和馬斯克都認爲:與其讓大公司控制少量的 AI 系統,不如讓大量獨立的 AI 系統同時存在予以制衡,人們可以根據開放的源代碼建立各自 AI 系統。

彼時的谷歌確實是 AI 領域的老大哥,ChatGPT 最初依賴的 Transformer 架構即來源于谷歌。但現在的 OpenAI 至少在 AI 領域,已有足夠的底氣和谷歌掰手腕。

最近一次商戰在 2 月 16 日。

當時,谷歌推出了據稱性能上超越 GPT-4 Turbo 的 Gemini 1.5 PRO ,而僅僅在兩小時後,OpenAI 就推出了 Sora。Sora 推出後,奧爾特曼在社交媒體 X 上在線接單,按照用戶給出的提示詞一連發布了 8 條視頻。此外,OpenAI 官方號還進駐 TikTok 發布 Sora 視頻,僅一周時間就收獲了超 14 萬粉絲。這些方式進一步“炒火”了 Sora。

很難說,這只是一種巧合。我們發現在谷歌推出某項新産品、新模型或新計劃後,奧爾特曼常常會從“武器庫”裏翻出一把利器。人們的目光便立刻從谷歌身上移開,並且不再回來。360 創始人周鴻祎對此表態:“OpenAI CEO 是個營銷大師,知道怎樣掌握節奏,他們手裏的武器並沒有全拿出來。”



這樣的例子並不鮮見。

谷歌在 2023 年 3 月 22 日推出聊天機器人 Bard,當被問及與 ChatGPT 的區別時,Bard 就回複:“我不僅基于文本和代碼,並且有互聯網上的真實世界的信息作爲支撐,因此我能夠做到 ChatGPT 做不到的事”。僅僅兩天後,OpenAI 就宣布向部分用戶開放插件和聯網功能。

到了 2023 年 5 月,谷歌和 OpenAI 的擂台仍不休止。前腳是谷歌在開發者大會上宣布一系列 AI 成果——推出據稱部分能力超越 GPT4 的 PaLM 2 模型、演示 Bard 聯網,後腳 OpenAI 就宣布向會員開放插件和聯網功能。

當然 OpenAI 的營銷瞄准對象並不僅谷歌一家。

OpenAI 在 2022 年 4 月份小範圍內推出了文生圖模型 DALL·E2,不過很快風頭就被開源的 Stable Diffusion 和另一競爭對手 Midjourney 蓋過。數以百萬計的用戶都在使用文生圖産品,一時間呈現出病毒式傳播的現象。

OpenAI 從中獲得的啓示是,向大衆公開生成式 AI 産品,不僅能吸引大量用戶,收獲有價值的用戶數據,還可能引來更多資金。



谷歌搜索趨勢顯示,OpenAI 推出的文生圖模型 DALL·E,風頭很快被對手 Stable Diffusion 和 Midjourney 蓋過。
注:官方名稱爲 DALL·E,而圖中用網上較爲普遍使用的 DALL-E 進行檢索

那什麽樣的營銷事件能讓話題關注度迅速回來?

OpenAI 的答案是聊天機器人。

彼時,OpenAI 在 GPT 4 上已經花了一整年,模型也基本准備就緒。但是來自市場層面的壓力迫使 OpenAI 調轉車頭,迅速發布一個聊天機器人。從計劃推出 GPT 4 轉到做一款聊天機器人,僅僅十三天後,ChatGPT 就誕生了。

這種策略後來被稱爲“叠代部署”,構建所謂的“最小可行産品”:先拼湊出一個很酷的演示,吸引一小群喜歡它的用戶,並根據用戶反饋進行改進,再把産品推向全世界。最終,如果足夠幸運並且做得正確的話,這將吸引大量用戶,點燃媒體炒作周期的導火索,巨額資金將隨之而來。

* 暴力美學,Scaling Law 信仰

這次出圈爆火的 Sora 可以生成長達 60 秒的高質量視頻。令人恐懼的是,其學習的對象不再限于畫面和像素,它還“學會”了視頻中展示的物理規律。

Sora 使用一種新的 Diffusion Transformer 模型,它融合了擴散模型與自回歸模型的雙重特性。不過,在 Sora 的技術文檔裏,OpenAI 並沒有展開模型的技術細節,只有透露了諸如“patch(視覺補丁)技術”、“重新字幕技術”等拼圖碎片。

但是,一個核心理念——Scale 又再次被提及。文檔寫道:Sora 基于的 Diffusion Transformer 模型也是符合規模效應的(scale effectively),隨著訓練計算量增加,視頻質量顯著提升。

OpenAI 給出的小狗視頻案例,可以看出 Sora 在 Scaling Law 下的效果提升。

這一理念以 Scaling Law(規模法則)的名稱爲業內熟知。根據 Scaling Law,模型性能會在大算力、大參數、大數據的基礎上像摩爾定律一樣持續提升,這不僅適用于語言模型,也適用于多模態模型。

OpenAI 是 Scaling Law 的忠實信徒,其將 Scale 列爲企業核心價值觀之一:“我們相信規模——在我們的模型、系統、自身、過程以及抱負中——具有魔力。如有疑問,擴大規模。”

來自 OpenAI 的科學家喬爾·雷曼在一次專訪中對此強調:有一條主線貫穿 OpenAI 研究的始終,即規模——大型神經網絡、大數據、大量算力的重要性,很多人遲遲沒有意識到這一點。這一表述揭示了 OpenAI 持續領跑的另一原因。

無論是一年多前風靡全球的 ChatGPT,還是目前火出圈的 Sora,再到 OpenAI 早期爆發業內地震的 GPT-3(有 1750 億參數,一位圖靈獎得主稱“全宇宙無非是 4.32 萬億個參數而已”),可以說都是 Scaling Law 的産物——當模型足夠“大”,就會産生智能湧現的能力。


上圖展示了 AI 模型正在往暴力美學方向進行範式遷移,隨著時間推移,模型運算量指數級上升。
https://ourworldindata.org/grapher/artificial-intelligence-training-computation

那麽,模型一定是越大越好嗎?如果數據量足夠大、算力足夠充沛,是否永遠觸不到上限?目前的觀點仍是莫衷一是的。

支持者認爲,超大規模及足夠多樣性的數據、超大規模的模型、充分的訓練過程,是讓 AI 智能“湧現”的必由之路。路途之中,可能會出現出人意料的驚喜,也可能是驚嚇。

反對者認爲,大模型雖好,但其性能有一個上限,雖然這個上限尚不明確。

最易被人理解的原因是“數據是有限的”,一篇 2022 年 MIT 的論文給出了這樣的估算結論:高質量的語言數據將會在 2026 年左右用光,低質量語言數據會在 2030 到 2050 年用光,低質量圖像數據會在 2030 到 2060 年用光。

還有一種觀點認爲大模型存在方向上的路線錯誤。這一派觀點主要認爲:大模型本質上只具有通過觀察進行因果歸納的能力,不具備因果演繹的能力。但是,AGI 應該是一個“能夠理解世界的模型”,而不僅僅是描述世界。

*拼算力,抱緊微軟

但問題在于,大模型訓練的“暴力美學”法則的可行性已人盡皆知,那爲什麽這次文生視頻最出圈的模型,又是出自 OpenAI ?

一個現實因素是,Scaling Law 需要高昂的算力支出來支撐,而這正是 OpenAI 比較擅長的。視頻模型的競爭最終也從拼團隊的調參能力,衍變到最後是拼算力。這便是 OpenAI 走在前列的第三個原因:能拼算力,不缺錢。

OpenAI 前期的資金支持基本都來源于馬斯克。但在 2018 年,特斯拉開始研究將 AI 技術用于自動駕駛,而剛好 OpenAI 已經有了顯著的技術突破。

馬斯克在當時提議,不如把整個公司都交給他來打理——直接把 OpenAI 並入特斯拉。但這個提議遭到奧爾特曼和其他高管的拒絕,于是雙方分道揚镳,馬斯克撤走了他全部的投資,在一次全體會議上宣布自己會離開。會上,他預言 OpenAI 將以失敗告終,他還稱至少有一名研究人員是“蠢貨”。

由于公司沒有收入,馬斯克撤資無疑是一場生存危機。雖然 OpenAI 正在做的研究是矽谷最時髦的 AI,但它是一家非盈利機構,這無疑限制了它融資的吸引力。

2019 年 3 月,OpenAI 想到了一個辦法。在保持非盈利的同時,再創建一個盈利實體。但這個盈利部門的營收有一個上限——這個數字並沒有公開,從公司章程推測,可能高達數萬億美元。在達到這個上限之後,盈利實體所得的一切都要歸還給非盈利的研究實驗室。

對 OpenAI 來說,AI 研發是一個誇張的無底洞。創造大型語言模型的 Big Transformer 方法需要大型硬件,GPT 系列的每一次叠代都需要呈指數級增長的算力,只有少數幾家公司有負擔的能力。

OpenAI 很快鎖定了微軟。

奧爾特曼後來對記者表示,這是因爲微軟 CEO Satya Nadella 和 CTO Kevin Scott 足夠有魄力:在花費了 20 多年時間和數十億美元建立了一個所謂的尖端 AI 研究部門之後,承認自己的工作一團糟,然後押注一家成立僅幾年的小公司。

微軟最初出資 10 億美元,並提供當時全球排名前五的超級計算機作爲回報。但隨著雙方信心的增強,交易規模不斷擴大。現在,微軟已經向 OpenAI 投入了 130 億美元。

微軟也爲自己爭取到了一大筆好處。根據財經媒體 Semafor 報道,直到微軟收回投資之前,都將獲得 OpenAI 75%的利潤。在達到這一門檻後,微軟將擁有 49% 的股份,OpenAI 的非營利性母公司則持有 2% 的股份。此外,微軟還獲得了 OpenAI 技術獨家商業化授權,並且成功讓旗下雲計算平台 Azure 成爲 OpenAI 的獨家雲服務商。

當然,根據交易條款,OpenAI 最初的一些理想——爲所有人提供平等訪問權——被丟進了垃圾桶。

在交易的過程裏,OpenAI 逐漸有了營利性機構的性質,這讓一些員工感到反感,幾位高管隨之離職,他們認爲,OpenAI 已經變得過于商業化,偏離了最初的使命。

*“強者,便使它更強”

“凡有的,還要加給他,叫他有余。凡沒有的,連他所有的,也要奪去。”馬太效應再次在 OpenAI 身上得到應驗。

2023 年後,OpenAI 的強勢領先從模型本身開始落到了賬面上。根據金融媒體 FT 在 2024 年 2 月的最新報道,OpenAI 最新年化收入突破 20 億美元,這一水平與另一家科技巨頭 Meta 相當。而在 2022 年,OpenAI 的年化收入爲 0.28 億美元。不斷刷新的年化收入,沒人能看到 OpenAI 的營收天花板。

此外,OpenAI 還拿到了當前生成式 AI 領域的最多融資。

截至 2023 年 9 月 30 日,微軟就向 OpenAI 投資了 100 億美元(折合人民幣 719.6 億元),占了當時生成式 AI 領域融資額的 57.8%。

營收和融資如此強勁的 OpenAI,還在廣泛進行戰略布局。OpenAI 已經至少投資了 19 家公司,範圍涉及機器人、代碼編輯、新聞報道、交友育兒等多種垂直領域。此外,OpenAI 還收購了一家創意設計公司,全球照明(Global Illumination),以拓展生成式 AI 的應用可能性。

而 OpenAI 的每次大動作也使得一部分投身生成式 AI 領域的創業小公司感到無窮危機。此次 Sora 的推出,就被認爲“吊打”此前爆火的 Pika 和 Runway。

科技孵化器 Y Combinator 一場討論,直接發出了靈魂提問:“OpenAI 會殺死所有創業公司嗎(Will OpenAI Kill All Startups)?”

時間回到 2022 年底,答案似乎是顯而易見的。金沙江創業投資基金主管合夥人朱嘯虎對此表示,“ChatGPT 太強大了,對創業公司很不友好。”

當時,直接受到沖擊的企業大多生産基于 GPT 二次開發的“套殼産品”,明星獨角獸公司 Jasper 就是其中之一。其業務是在 GPT-3 的基礎上進行高精度的前端提示和交互界面設計,再利用營銷經驗對模型微調,生成文章。但 ChatGPT 推出後,這一模式完全翻船了。 用戶可以使用自然語言與 ChatGPT 對話。“中間商”不需要了。

不僅如此,OpenAI 的發展似乎開始偏離了他們的初心。

馬斯克就曾直接開炮,他爲 OpenAI 取了這個名字,意圖抗衡谷歌,“然而現在它卻變成一個不開源、追求最大化利潤的公司,並且還由微軟控制。”

而 OpenAI 成立營利性子公司,不再開源 GPT 模型的做法,也使得更多人贊同了馬斯克的評價。難怪有人認爲,OpenAI 已經不再 “Open”。

此前的 OpenAI“宮鬥”之爭,實質上也是關于 AI 發展的“理念之爭”——到底是加速 AI 的商業化進程,還是確保 AI 的安全性再推向全世界。

因此,OpenAI 對人類走向通用人工智能時代到底意味著什麽,仍是未知。

*封面圖由 Stable Diffusion 生成---來源: 澎湃新聞 -