震撼一夜!OpenAI首個AI視頻模型炸裂登場,谷歌升級Gemini 1.5完爆GPT-4
人工智能(AI)行業又迎來了瘋狂、震撼的一夜。
北京時間2月16日淩晨2點左右,美國OpenAI公司正式發布其首個文本-視頻生成模型Sora。
據悉,通過簡短或詳細的提示詞描述,或一張靜態圖片,Sora就能生成類似電影的逼真場景,涵蓋多個角色、不同類型動作和背景細節等,最高能生成1分鍾左右的1080P高清視頻。
這是繼Runway、Pika、谷歌和 Meta 之後,OpenAI 正式加入到這場 AI 視頻生成領域“戰爭”當中,同時也是繼GPT、DALL·E之後,2024年 OpenAI 發布的旗下最新、最重要的 AI 産品系列。
OpenAI強調,“Sora是能夠理解和模擬現實世界的模型的基礎,我們相信這一功能將成爲實現通用人工智能(AGI)的重要裏程碑。”
更早之前,谷歌昨夜23點突然升級了Gemini系列模型,並發布用于早期測試的Gemini 1.5第一個版本——Gemini 1.5 Pro,采用稀疏MOE架構,配備了128000 個 token 上下文窗口,性能和長文本都超過了GPT-4 Turbo。
從Sora到Gemini,所有人都在感歎:行業真的變天了,AI 快要把人類KO了;好萊塢的時代真的要結束了?
OpenAI視頻生成模型Sora誕生:效果炸裂、現實不存在了
OpenAI今晨公布的首個視頻生成模型Sora,采用一種名爲擴散模型的技術(diffusion probabilistic models)。
而且,與 GPT 模型類似,Sora 也使用了Transformer 架構,並完美繼承DALL·E 3的畫質和遵循指令能力,生成的視頻一開始看起來像靜態噪音,然後通過多個步驟去除噪音,逐步轉換視頻。
對于初學者來說,Sora 可以生成各種風格的視頻(例如,真實感、動畫、黑白),最長可達一分鍾 —— 比大多數文本-視頻模型要長得多。
這些視頻保持了合理的連貫性。相比其他 AI 視頻模型,Sora視頻生成質量好多了,更讓人“舒服”——沒有出現“人工智能怪異”類場景。
比如,AI 想象中的“龍年春節”,Sora能形成緊跟舞龍隊伍擡頭好奇的兒童,也能生成海量人物角色各種行爲。
輸入 prompt(提示詞):一位 24 歲女性眨眼的極端特寫,在魔法時刻站在馬拉喀什,70 毫米拍攝的電影,景深,鮮豔的色彩,電影效果。
輸入 prompt(提示詞):一朵巨大、高聳的人形雲籠罩著大地。雲人向大地射出閃電。
輸入 prompt(提示詞):幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走近,它們長長的毛茸茸的皮毛在風中輕輕飄動,遠處覆蓋著積雪的樹木和雄偉的雪山,午後的陽光下有縷縷雲彩,太陽高高地挂在空中産生溫暖的光芒,低相機視角令人驚歎地捕捉到大型毛茸茸的哺乳動物,具有美麗的攝影和景深效果。
通過這些動圖來看,Sora不僅可以在單個視頻中創建多個鏡頭,而且還可以依靠對語言的深入理解准確地解釋提示詞,保留角色和視覺風格。
當然,Sora也存在一些弱點,OpenAI表示,它可能難以准確模擬複雜場景的物理原理;可能無法理解因果關系;還可能混淆提示的空間細節;可能難以精確描述隨著時間推移發生的事件,例如遵循特定的相機軌迹等。
但瑕不掩瑜,Sora不僅能模擬真實世界,而且包括學習了攝影師和導演的表達手法,將 AI 視頻惟妙惟肖地展現出來。
因此,Sora已經成爲了目前最強的 AI 視頻生成類模型。
在社交平台上,已經有一些視覺藝術家、設計師和電影制作人(以及OpenAI員工)獲得Sora訪問權限。他們開始不斷放出新的提示詞,OpenAI CEO奧爾特曼開始了“在線接單”模式。
帶上提示詞@sama,你就有可能收到奧爾特曼“親自發布”的 AI 視頻回複。
截至發稿前,OpenAI公布了更多關于Sora的技術細節。
技術報告顯示,OpenAI並不是把Sora單純當作一個視頻模型來看待:將視頻生成模型作爲“世界模擬器”,不僅可以在不同設備的原生寬高比直接創建內容,而且展示了一些有趣的模擬能力,如3D一致性、長期一致性和對象持久性等。
“我們探索視頻數據生成模型的大規模訓練。具體來說,我們在可變持續時間、分辨率和寬高比的視頻和圖像上聯合訓練文本條件擴散模型。我們利用對視頻和圖像潛在代碼的時空補丁進行操作的Transformer架構。我們最大的模型 Sora 能夠生成一分鍾的高保真視頻。我們的結果表明,擴展視頻生成模型是構建物理世界通用模擬器的一條有前途的途徑。”OpenAI表示。
整體來看,Sora生成的視頻噪音比較少,原始的訓練數據比較“幹淨”,而且基于ChatGPT、DALL·E 文生圖技術能力,Sora視頻生成技術更加高超。
消息公布後,網友直呼,工作要丟了,視頻素材行業要RIP。
論文鏈接:https://shrtm.nu/sqr
谷歌Gemini1.5火速上線:MoE架構,100萬上下文
除了Sora之外,今天淩晨,計劃全面超越GPT的谷歌,宣布推出 Gemini 1.5。
Gemini 1.5 建立在谷歌基礎模型開發和基礎設施之上,采用包括通過全新稀疏專家混合 (MoE) 架構,第一個版本Gemini 1.5 Pro 配備了128000個token 上下文窗口,可推理100,000 行代碼,提供有用的解決方案、修改和注釋使 Gemini 1.5 的訓練和服務更加高效。
谷歌稱,Gemini 1.5 Pro性能水平與谷歌迄今爲止最大的模型 1.0 Ultra 類似,並引入了長上下文理解方面的突破性實驗特征,性能、文本長度均超越了GPT-4 Turbo。
從今天開始,少數開發人員和企業客戶可以通過 AI Studio 和 Vertex AI 的私人預覽版在最多 100 萬個 token 的上下文窗口中進行嘗試 1.5 Pro 預覽版。
谷歌表示,其致力于負責任地將每個新一代 Gemini 模型帶給全球數十億人、開發者和企業用戶使用。未來,當模型進行更廣泛的發布時,屆時谷歌將推出具有標准 128,000 個 token的 1.5 Pro版本,甚至擴展到100 萬個 token 的定價等級。
One More Thing:AI 行業都“卷”起來了
有趣的是,截至發稿前,Meta也公布了一種視頻聯合嵌入預測架構技術V-JEPA。
這是一種通過觀看視頻教會機器理解和模擬物理世界的方法,V-JEPA可以通過自己觀看視頻來學習,而不需要人類監督,也不需要對視頻數據集進行標記,甚至根據一張靜止圖片來生成一個動態的視頻。
與其他模型相比,V-JEPA的靈活性使其在訓練和樣本效率上實現了1.5到6倍的提升。另外,在圖像分類中,它可識別圖像中的主要對象或場景;動作分類方面,它識別視頻片段中的特定動作或活動;時空動作檢測方面,可識別視頻中動作的類型及其發生的具體時間和位置。
跑分方面,V-JEPA在Kinetics-400達到了82.0%的准確率;Something-Something-v2達到了72.2%的准確率;ImageNet1K圖像分類任務上達到了77.9%的准確率。
Meta稱,這是人工智能模型邁出的又一重要一步利用對世界的學習理解來計劃、推理和完成複雜的任務。而且,V-JEPA展示了Meta在通過視頻理解推進機器智能方面的先進成就,爲實現更高級的機器智能和人工通用智能(AGI)奠定基礎。
總結來看,2024年開年,AI 大模型技術進展全面加速,視頻、圖像、文本生成能力比一年前大大增強。
如果說,2023年還是“AI 圖文生成元年”的話,今年,OpenAI將推動行業進入”AI視頻生成元年”。
如果按照最近估值超過800億美元的OpenAI公布新産品的速度來計算,GPT-5將很快對外發布。
2月初,被譽爲“女版巴菲特”的方舟投資管理公司CEO凱茜·伍德(Cathie Wood)最新預測,AI 技術發展速度快于市場預期,AGI最早將在2026年出現,最晚則到2030年出現。---(钛媒體/作者 : 林志佳|钛媒體AGI)