01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

深夜發布“王炸”模型Sora:OpenAI首個文生視頻模型將顛覆現實?

2024021617:02

“隆重介紹 Sora,我們的文本轉視頻模型。”當地時間2月15日,OpenAI突然發布首款文生視頻模型——Sora,震驚程度可以讓熬夜黨們徹底清醒到睡不著覺,直呼“王炸來了”。

據OpenAI在社交平台X上發文,Sora 可以創建長達60秒的視頻,其中包含高度詳細的場景、複雜的攝像機運動以及充滿活力的情感的多個角色。


2月16日淩晨,OpenAI發布了首個文生視頻模型Sora。(圖源:截圖)

爲了展示這個王炸級技術,OpenAI還配上了一個帶有提示詞的視頻:“美麗、白雪皚皚的東京城很繁華。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天並在附近的攤位購物。美麗的櫻花花瓣隨著雪花在風中飛舞。”視頻中,60s一鏡到底的畫面中,不僅做到了畫面主角表現流暢——一對情侶攜手悠閑地漫步在東京的街道,甚至攤販兩邊的背景人物,都流暢真實得難以置信。從大中景無縫切換到臉部特寫。

“60s超長長度”“單視頻多角度鏡頭”“這怎麽辦啊!”“太卷了吧!”……當“世界模型”越來越真實,人類社會虛擬和現實的界限,還能區分得清嗎?

Sora誕生 讓現實不存在了?

“這是我們的視頻生成模型 Sora,今天,我們開始爲紅隊以及有限數量的創作者提供訪問權限。”OpenAI創始人兼CEO山姆·阿爾特曼(Sam Altman)在社交媒體直言@_tim_brooks @billpeeb@model_mechanic真是不可思議。“他們和團隊的出色工作,造就了非凡的時刻。”


2月16日,OpenAI創始人兼CEO山姆·阿爾特曼發問介紹Sora。(圖源:截圖)

目前OpenAI在官網上已經更新了Sora生成的48個視頻demo,這些demo不僅准確呈現出指令細節,還能理解物體在物理世界中的存在,並生成具有豐富情感的角色。該模型還可以根據提示、靜止圖像甚至填補現有視頻中的缺失幀來生成視頻。

例如一個Prompt(大語言模型中的提示詞)的描述是:在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標志的街道上。

在Sora生成的視頻裏,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩定,還有多鏡頭,包括從大街景慢慢切入到對女士的臉部表情的特寫,以及潮濕的街道地面反射霓虹燈的光影效果。

更令諸多網友熱議的視頻,是一只會踩奶的貓:一只貓試圖叫醒熟睡的主人,要求吃早餐,主人試圖忽略這只貓,但貓嘗試了新招,最終主人從枕頭下拿出藏起來的零食,讓貓自己再多待一會兒。在這個AI生成視頻裏,貓甚至都學會了踩奶,對主人鼻頭的觸碰甚至都是輕輕的,接近物理世界裏貓的真實反應。

但值得注意的是,在這則Prompt中也有一些小瑕疵:貓主人翻身的時候胳膊肘跟被子融爲一體。

根據OpenAI解釋的工作原理,Sora是一個擴散模型,它生成的視頻一開始看起來像靜態噪音,通過多個步驟逐漸去除噪聲後,視頻也從最初的隨機像素轉化爲清晰的圖像場景。


Sora技術團隊發文。(圖源:截圖)

與GPT模型類似,Sora使用了Transformer架構,因此可以實現極強的擴展性。

OpenAI將視頻和圖像表示稱作“補丁”(patch)的較小數據單位集合,每個“補丁”都類似于GPT中的一個“標記”(Token),通過統一的數據表達方式,能實現在更廣泛的視覺數據上訓練和擴散變化,包括不同的時間、分辨率和縱橫比。

Sora是基于過去對DALL·E和GPT的研究基礎構建,利用DALL·E 3的重述提示詞技術,爲視覺模型訓練數據生成高描述性的標注,因此模型能更好地遵循文本指令,實現用戶想要的視頻場景。

除了能夠僅根據文字說明生成視頻外,該模型還能根據現有的靜態圖像生成視頻,並准確、細致地對圖像內容進行動畫處理。該模型還能提取現有視頻,並對其進行擴展或填充缺失的幀。

技術破壁之後 “深度造假”將更進一步嗎?

隨著人工智能成爲世界各地科技界的焦點,新工具Sora進一步引發了人們對深度造假的擔憂:根據簡單的文本提示生成高度逼真的60秒視頻,這不大大提高了人工智能視頻和已被用來欺騙民衆“深度造假”內容的質量嗎?

對此,OpenAI 也表示,這款名爲“ Sora ”的新工具最初只會供一小部分藝術家和電影制作人以及“紅隊成員”或試圖找到將人工智能工具用于惡意目的的方法的研究人員使用。

過去一年,人工智能生成的圖像、音頻和視頻的質量迅速提高,OpenAI、Google、Meta 和 Stable Diffusion 等公司競相制造更強大的工具並尋找銷售方式。與此同時,民主倡導者和人工智能研究人員警告說,這些工具已經被用來欺騙和欺騙民衆。

實際上,其他公司也構建了自己的文本到視頻的人工智能生成器。谷歌正在測試一個名爲 Lumiere 的模型,Meta 有一個名爲 Emu 的模型,人工智能初創公司 Runway 已經在開發産品來幫助電影制作人制作視頻。但人工智能專家和分析師均表示,Sora 視頻的長度和質量超出了迄今爲止所見的水平。

伊利諾伊大學厄巴納-香槟分校信息科學教授特德·安德伍德 (Ted Underwood) 表示:“我沒想到在接下來的兩到三年內還會出現這種持續、連貫的視頻生成水平。” 雖然他警告說 OpenAI 可能會選擇展示模型最佳狀態的視頻,但他表示,與其他文本到視頻工具相比,“容量似乎有所提升”。

如果你認爲 OpenAI Sora 是像 DALLE 一樣的創意玩具,那可能就略顯膚淺了。Sora 是一個數據驅動的物理引擎。它是對許多世界的模擬,無論是真實的還是幻想的。模擬器通過一些去噪和梯度數學來學習複雜的渲染、“直觀”物理、長期推理和語義基礎。

“如果 Sora 使用虛幻引擎5對大量合成數據進行訓練,我不會感到驚訝。它必須如此!”英偉達高級研究科學家兼人工智能代理負責人Jim Fan通過Sora生成的視頻分析到,提示詞是兩艘海盜船在一杯咖啡內航行時互相戰鬥的逼真特寫視頻。

“模擬器實例化了兩種精美的3D資産:具有不同裝飾的海盜船。 Sora 必須在其潛在空間中隱式地解決文本到3D 的問題; 3D 對象在航行並避開彼此路徑時始終保持動畫效果。”還有咖啡的流體動力學,甚至是船舶周圍形成的泡沫。流體模擬是計算機圖形學的一個完整子領域,傳統上需要非常複雜的算法和方程,而照片寫實主義,幾乎就像光線追蹤渲染一樣。

Jim Fan指出,視頻中模擬器考慮到杯子與海洋相比尺寸較小,並應用移軸攝影來營造“微小”的氛圍。“場景的語義在現實世界中並不存在,但引擎仍然實現了我們期望的正確物理規則。接下來:添加更多模式和條件,然後我們就有了一個完整的數據驅動的 UE,它將取代所有手工設計的圖形管道。"

王炸技術將帶來行業落日?

技術的快速進步使得從電影制作到新聞行業等各個行業的人們都在爭先恐後地了解它可能會對他們的工作産生怎樣的影響。

在Sora誕生前,AI視頻的工作流都是單鏡頭單生成,在一個視頻中,多角度且連貫流暢的自由切換,是無法想象。“不管多麽悲傷和恐懼,這就是所有工作的未來。”某電影後期制作人告訴封面新聞記者,技術的進步是不會止步的,不能更不會因爲我們預感未來它可能取代我們的工作而停止。“對于行業來說也是好事,技術進步意味著我們能制作出更精良的影視作品,告別‘5毛’特效。”

AI視頻生成器已在好萊塢引起了轟動。制作電影成本高昂、耗時,並且需要數十或數百人。一些技術專家推測,人工智能可以讓一個人制作出與漫威大片具有相同視覺複雜性的電影。

“看看我們在圖像生成的一年裏取得了什麽進展。一年後我們會在哪裏?” 電影導演兼視覺效果專家邁克爾·格雷西(Michael Gracey)一直密切關注人工智能對行業的影響。Gracey 預測,很快,像 Sora 這樣的人工智能工具將允許電影制作者仔細控制他們的輸出,從頭開始創建各種視頻。“當技術剝奪了其他人的創造力、工作、想法和執行力,卻沒有給予他們應有的榮譽和經濟報酬時, 不是一件好事情。”

Sora視頻的質量,尤其是那些看起來像現實生活的視頻,比大多數其他人工智能公司迄今爲止能夠制作的質量要高。普林斯頓大學計算機科學教授 Arvind Narayanan 表示,根據 OpenAI 周四發布的視頻,Sora“似乎比任何其他視頻生成工具都“先進得多”。他表示,“這可能會導致‘深度僞造’視頻,人們更難識別出人工智能生成的視頻。如果你仔細觀察一些視頻,你仍然可以發現許多不一致的地方。例如,他在X上的一篇帖子中指出,在東京街頭的視頻中,一名女子的左右腿交換了位置,背景中的人在有東西經過他們面前後消失了。”

無論如何,OpenAI送上的春節大禮包已經足夠震撼了。---[責任編輯:荀建國/封面新聞記者 : 邊雪*來源:封面新聞/科技觀察]