圖靈諾獎得主等大佬齊聚海澱！清華版Sora震撼首發，硬核AI盛會破算力黑洞-(1)

2024042810:44

【新智元導讀】在今天的2024中關村論壇年會「人工智能主題日」上，可謂精彩紛呈，亮點頻出。清華團隊發布了最接近Sora的Vidu視頻大模型，驚艷的demo令現場觀眾連連驚呼。北大教授、中科院院士鄂維南和中國工程院院士、中國人工智能學會理事長戴瓊海等的演講，則將論壇推向了無比專業的高度。

中關村論壇舉辦以來的首個主題日活動：「人工智能主題日」今日開啟！

到場嘉賓，也是星光熠熠，大佬雲集，還有著濃濃的國際範兒，與世界頂尖水平接軌。

一共161位嘉賓，近一半是外籍AI大佬和從業者。

而嘉賓陣容也是非常豪華，匯集了國內外30多名院士，還有諾獎、圖靈獎得主，清北港科大等知名高校的校長副校長。

百度、螞蟻、微軟、亞馬遜等世界領軍科技企業，也都前來參會。

可以說，「人工智能主題日」堪稱如今AI界的頂級盛會，亮點滿滿，精彩紛呈。

重磅技術成果發布~國產Sora，又上新了！

在今天的中關村論壇「人工智能主題日」上，生數科技聯合清華大學，共同發布了最新的視頻大模型「Vidu」。

Vidu生成的畫面一亮相，就讓全場驚呼——這個效果也太像Sora了！

在人物和場景時間一致性的保持上，Vidu的表現令人印象深刻。

而且，它生成的視頻最長可達16秒左右，在時長上破了紀錄。

甫一亮相，Vidu就得到了業內公認——

綜合考慮時長、一致性、真實度、美觀性等因素，它是「國產Sora」模型中當之無愧的佼佼者，是國內最能和Sora全面對標的視頻模型。

清華大學人工智能研究院副院長、生數科技首席科學家朱軍為我們放出了Vidu的以下演示。

一只小狗在遊泳池裏遊泳，毛發纖毫畢現，狗腳劃水的動作十分自然，和水的相互作用十分符合物理學原理。

人物眼睛的特寫、做陶罐的女人手中正在轉動的陶罐、一對坐著的男女同時擡頭的動作，都刻畫地細致入微，逼真到仿佛現實。

總的來說，Vidu具有以下幾大特點——模擬真實物理世界

森林裏的湖邊風光，無論是樹、水面、雲朵，還是整體的光影效果，很逼真寫實。

汽車行駛在崎嶇山路上的場景，也是非常經典的Sora演示。

Vidu模擬了非常真實的光影效果，連揚起的灰塵，都十分符合物理規律。

富有想象力

在這艘AI視頻模型必考題中，Vidu生成的視頻效果實在太驚艷！

畫室裏的一艘船駛向鏡頭的場景。

這道題，考驗了模型虛構場景的能力，為了生成超現實主義的畫面，它們需要具有超強的想象力。

理解多鏡頭語言

可以看出，Vidu能夠理解多鏡頭的語言，不再是簡單的鏡頭推拉。這樣，就能模擬我們的攝影過程。

生成的這個視頻中，要求它包含海邊小屋、鏡頭過渡到陽臺、俯瞰大海、帆船、雲朵等元素。

Vidu生成的視頻，具有復雜的動態鏡頭，遠、近、中景、特寫，以及長鏡頭、追焦等效果，都十分驚艷。

一鏡到底，16s時長

而在這個視頻中，Vidu展現出了16s的超長「一鏡到底」。

而且，視頻完全是由單一大模型生成的，不需要任何插幀、剪切，直接就實現了端到端的生成。

超強時空一致性

要求它以《戴珍珠耳環的少女》為靈感，生成一只藍眼睛的橙色貓，可以看出，Vidu生成了連貫的視頻。

從旋轉的各個視角看，都非常逼真，甚至讓人產生了「這是一個3D模型」的錯覺。

它生成的視頻中，人物和場景在時空中始終保持一致。

* 理解中國元素

相比國外的AI視頻模型，Vidu也更理解中國元素。

熊貓、龍這樣的中國元素，它都能理解和生成。

和Pika、Gen-2比起來，Vidu的表現也絲毫不弱。

一艘木頭玩具船在地毯上航行。

兩位對手的視頻一個只有4s，一個更是畫面簡單的循環播放，而Vidu的視頻以16s的自然畫面秒殺了它們，在一致性的保持和語義理解上，也都非常突出。

用和Sora同樣的prompt，Vidu的表現甚至更好。

Sora並未理解旋轉的鏡頭是什麼意思，而Vidu不僅表現出了旋轉，還保持了一致性的效果。

幾分鐘的視頻結束，全場響起經久不息的掌聲。

之所以能在短時間做出如此驚艷的視頻AI模型，離不開團隊的長期積累和多項原創成果。

團隊的技術路線，竟也和Sora的高度一致。

全球首個低碳、高性能多語言LLM

此外，全球首個低碳、高性能、低幻覺多語言大模型Tele-FLM，由北京智源人工智能研究院與中國電信人工智能研究院（TeleAI）在今天正式聯合發布——所有核心技術、權重、訓練過程中的各種細節全面開源。

520億參數的Tele-FLM在2T token的數據上，用時2個月完成訓練。

值得一提的是，據Meta3官網信息，Llama 3-70B模型的訓練，可能使用了近5萬塊H100。而Tele-FLM僅用了896×A800的算力，完成了訓練。

此外，模型訓練過程還對數據質量進行嚴格把控。

通過使用高質量的中文數據，雖然只占30%，但Tele-FLM的中文能力明顯超越了對標的模型，取得了領先的成果。

未來，還將推出千億、六千億、甚至萬億參數版本，而且都將全部開源，供所有人使用。

順便提一句，會上最精彩的部分，莫過於機器人上臺表演了。

看看來自宇樹科技的這只機器狗，倒立行走，簡直太颯了。

除了頗有前沿範兒的技術成果發布，人工智能主題日上，國內大佬的演講也是幹貨滿滿。

大佬演講精彩亮點

北大教授、中科院院士鄂維南的演講，讓我們重新審視，大模型+大數據庫相結合的價值所在。

如今，我們能夠暢想人工智能的未來，那都是因為有一個最基本的工具——深度學習。

其實，深度學習很早就誕生了。

但真正將其帶向世界，釋放出重大威力的標誌性事件便是——2012年，Hinton和兩位學生訓練的大型深度神經網絡一舉贏得ImageNet大賽。

每個人都知道，若想開展機器學習研究，需要有三個最基本的工具：

一是模型工具，借助諸如Pytorch、TensorFlow、MindSpore等工具，AI開發者才能寫出深度神經網絡。

二是算力工具，當然非GPU莫屬，再結合CUDA這樣的架構，實現高效的算力利用率。

三是數據工具。

現在，全世界包括OpenAI、谷歌等在內的公司，都希望獲取高質量的數據。同時，數據稀缺已然成為LLM訓練的一大難題。

也正是在數據這個領域，現在的發展還不是很成熟，缺少可以利用的工具。

對於數據的處理，大家還是主要憑經驗，沒有一個完整的系統，去解決這一問題。

其中，「非結構化數據」處理，是機器學習方法的主要困難之一。

我要留言

圖靈諾獎得主等大佬齊聚海澱！清華版Sora震撼首發，硬核AI盛會破算力黑洞-(1)

美國高校抗議背後出現金融大鱷身影.....

圖靈諾獎得主等大佬齊聚海澱！清華版Sora震撼首發，硬核AI盛會破算力黑洞-(2)

美國高校抗議背後出現金融大鱷身影.....

圖靈諾獎得主等大佬齊聚海澱！清華版Sora震撼首發，硬核AI盛會破算力黑洞-(2)