谷歌VideoPoet負責人蔣路跳槽TikTok!對標Sora,AI視頻模型大戰在即
【新智元導讀】谷歌Research Lead,負責VideoPoet項目的蔣路,即將加入TikTok,負責視頻生成AI的開發。
谷歌VideoPoet項目Research Lead,CMU兼職教授蔣路的Google Scholar資料顯示已加入TikTok。
最近,有傳聞TikTok招募了某篇論文的作者作爲北美技術部門負責人,研發能和Sora對抗的視頻生成AI。
而蔣路3周前在Linkedin上發布了離職谷歌的消息,也向外界揭開了謎底。
他作爲谷歌VideoPoet項目的負責人,將離開Google Research,不過會留在灣區,繼續視頻生成領域的工作。
「人才第一,數據第二,算力第三」,謝賽甯的AI突破「3要素」,已經爲大廠在未來構建自己的AI護城河指明了方向。
而蔣路帶領谷歌團隊在去年年底推出了在技術路線上與Sora相似的視頻生成技術:VideoPoet,讓他成爲了世界上爲數不多的有能力構建最前沿AI視頻生成技術的科學家。
VideoPoet在Sora發布之前就已經將AI視頻的前沿推進到了生成10秒長,一致性非常強,動作幅度大且連貫的視頻。
而與此同時,他還是CMU的兼職教授,有非常豐富的科研經曆和成果。
蔣路這樣既有深厚的理論功底,又有最前沿大型項目的工程和管理經驗的複合型專家,自然成爲了大廠必爭的AI基石型人才。
個人介紹
蔣路在Google擔任研究科學家和管理崗位,同時也是卡內基梅隆大學計算機科學學院語言技術研究所的兼職教授。
在CMU,他不僅指導研究生的科研項目,還親自講授課程。
他的研究成果在自然語言處理(ACL)和計算機視覺(CVPR)等領域的頂級會議上屢獲佳績,還在ACM ICMR、IEEE SLT 和 NIST TRECVID等重要會議上獲獎。
他的研究對多款谷歌産品的開發和完善起到了至關重要的作用:包括YouTube、Cloud、Cloud AutoML、Ads、Waymo和Translate 等。
這些産品每天服務全球數十億用戶。
除了上述這些內容以外,還有另一個側面能很好地說明蔣路學術水平的高度:他與衆多計算機視覺和自然語言處理領域的頂尖研究者都有過合作。
2017至2018年期間,他是Google Cloud AI首批研究團隊的創始成員,由李佳博士和李飛飛博士親自挑選。
隨後,他加入了Google Research,與Weilong Yang博士(2019-2020)、Ce Liu博士(2020-2021)、Madison Le(2021-2022)和Irfan Essa博士(2023)等人都有過合作。
此外,在卡內基梅隆大學讀博期間,他的論文由Tat-Seng Chua博士和 Louis-Philippe Morency博士共同指導。2017他在Alexander Hauptmann博士和Teruko Mitamura博士的幫助下成功畢業。
他在雅虎、谷歌和微軟研究院的實習時,得到了Liangliang Cao博士、Yannis Kalantidis博士、Sachin Farfade、Paul Natsev博士、Balakrishnan Varadarajan博士、Qiang Wang博士和Dongmei Zhang博士等人的指導。
從他在領英上的履歷可以看出,很多科技大廠都留有過他的足迹。
在CMU和NSF都有過實習經歷。
而在畢業之前,他在雅虎,谷歌,微軟都實習過。
他本科畢業于西安交通大學,研究生畢業于布魯塞爾自由大學,博士畢業于CMU。
VideoPoet
他在谷歌帶領的團隊在去年底推出的VideoPoet,已經用Transformer代替了傳統的UNet,成爲AI視頻生成當時的SOTA.
這項成就,也成爲了TikTok相中他最主要的原因。
相比起只能生成小幅動作的Gen-2,VideoPoet一次能夠生成10秒超長,且連貫大動作視頻,可以說是實現了完全碾壓!
另外,VideoPoet也並非基于擴散模型,而是多模態大模型,便可擁有T2V、V2A等能力,或將成爲未來視頻生成的主流。
相比起其他模型,谷歌的方法是將多種視頻生成功能無縫集成到單一的大語言模型中,而不依賴針對各個任務分別訓練的專用組件。
具體來說,VideoPoet主要包含以下幾個組件:
- 預訓練的MAGVIT V2視頻tokenizer和SoundStream音頻tokenizer,能將不同長度的圖像、視頻和音頻剪輯轉換成統一詞彙表中的離散代碼序列。這些代碼與文本型語言模型兼容,便于與文本等其他模態進行結合。
- 自回歸語言模型可在視頻、圖像、音頻和文本之間進行跨模態學習,並以自回歸方式預測序列中下一個視頻或音頻token。
- 在大語言模型訓練框架中引入了多種多模態生成學習目標,包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻修複/擴展、視頻風格化和視頻到音頻等。此外,這些任務可以相互結合,實現額外的零樣本功能(例如,文本到音頻)。
VideoPoet能夠在各種以視頻爲中心的輸入和輸出上進行多任務處理。其中,LLM可選擇將文本作爲輸入,來指導文本到視頻、圖像到視頻、視頻到音頻、風格化和擴圖任務的生成
使用LLM進行訓練的一個關鍵優勢是,可以重用現有LLM訓練基礎設施中引入的許多可擴展的效率改進。
不過,LLM是在離散token上運行的,這可能會給視頻生成帶來挑戰。
幸運的是,視頻和音頻tokenizer,可以將視頻和音頻剪輯編碼爲離散token序列(即整數索引),並可以將其轉換回原始表示。
VideoPoet訓練一個自回歸語言模型,通過使用多個tokenizer(用于視頻和圖像的MAGVIT V2,用于音頻的SoundStream)來跨視頻、圖像、音頻和文本模態進行學習。
一旦模型根據上下文生成了token,就可以使用tokenizer解碼器將這些token轉換回可查看的表示形式。
VideoPoet任務設計:不同模態通過tokenizer編碼器和解碼器與token相互轉換。每個模態周圍都有邊界token,任務token表示要執行的任務類型
相比于之前的視頻生成模型,VideoPoet有這麽三個比較大的優勢。
一個是能生成更長的視頻,一個是用戶能對生成的視頻有更好的控制能力,最後一個則是VideoPoet還可以根據文本提示,生成不同的運鏡手法。
而在測試中,VideoPoet也是拔得頭籌,碾壓了不少其它視頻生成模型。
文本保真度:
文本保真度的用戶偏好評級,即在准確遵循提示方面首選視頻的百分比
動作趣味性:
用戶對動作趣味性的偏好評級,即在産生有趣的動作方面,首選視頻的百分比
綜上可見,平均有24-35%的人認爲VideoPoet生成的示例比其他模型更加遵循提示,而其他模型的這一比例僅爲8-11%。
此外,41%-54%的評估者認爲VideoPoet中的示例動作更有趣,而其他模型只有11%-21%。
而有關未來的研究方向,谷歌研究人員表示,VideoPoet框架將會實現「any-to-any」的生成,比如擴展文本到音頻、音頻到視頻,以及視頻字幕等等。---[新智元報導*編輯:編輯部/來源: 新智元]
參考資料:http://www.lujiang.info/bio.html
https://scholar.google.com/citations?user=jIKjjSYAAAAJ&hl=en