圖靈諾獎得主等大佬齊聚海澱!清華版Sora震撼首發,硬核AI盛會破算力黑洞-(1)
【新智元導讀】在今天的2024中關村論壇年會「人工智能主題日」上,可謂精彩紛呈,亮點頻出。清華團隊發布了最接近Sora的Vidu視頻大模型,驚艷的demo令現場觀眾連連驚呼。北大教授、中科院院士鄂維南和中國工程院院士、中國人工智能學會理事長戴瓊海等的演講,則將論壇推向了無比專業的高度。
中關村論壇舉辦以來的首個主題日活動:「人工智能主題日」今日開啟!
到場嘉賓,也是星光熠熠,大佬雲集,還有著濃濃的國際範兒,與世界頂尖水平接軌。
一共161位嘉賓,近一半是外籍AI大佬和從業者。
而嘉賓陣容也是非常豪華,匯集了國內外30多名院士,還有諾獎、圖靈獎得主,清北港科大等知名高校的校長副校長。
百度、螞蟻、微軟、亞馬遜等世界領軍科技企業,也都前來參會。
可以說,「人工智能主題日」堪稱如今AI界的頂級盛會,亮點滿滿,精彩紛呈。
重磅技術成果發布~國產Sora,又上新了!
在今天的中關村論壇「人工智能主題日」上,生數科技聯合清華大學,共同發布了最新的視頻大模型「Vidu」。
Vidu生成的畫面一亮相,就讓全場驚呼——這個效果也太像Sora了!
在人物和場景時間一致性的保持上,Vidu的表現令人印象深刻。
而且,它生成的視頻最長可達16秒左右,在時長上破了紀錄。
甫一亮相,Vidu就得到了業內公認——
綜合考慮時長、一致性、真實度、美觀性等因素,它是「國產Sora」模型中當之無愧的佼佼者,是國內最能和Sora全面對標的視頻模型。
清華大學人工智能研究院副院長、生數科技首席科學家朱軍為我們放出了Vidu的以下演示。
一只小狗在遊泳池裏遊泳,毛發纖毫畢現,狗腳劃水的動作十分自然,和水的相互作用十分符合物理學原理。
人物眼睛的特寫、做陶罐的女人手中正在轉動的陶罐、一對坐著的男女同時擡頭的動作,都刻畫地細致入微,逼真到仿佛現實。
總的來說,Vidu具有以下幾大特點——模擬真實物理世界
森林裏的湖邊風光,無論是樹、水面、雲朵,還是整體的光影效果,很逼真寫實。
汽車行駛在崎嶇山路上的場景,也是非常經典的Sora演示。
Vidu模擬了非常真實的光影效果,連揚起的灰塵,都十分符合物理規律。
富有想象力
在這艘AI視頻模型必考題中,Vidu生成的視頻效果實在太驚艷!
畫室裏的一艘船駛向鏡頭的場景。
這道題,考驗了模型虛構場景的能力,為了生成超現實主義的畫面,它們需要具有超強的想象力。
理解多鏡頭語言
可以看出,Vidu能夠理解多鏡頭的語言,不再是簡單的鏡頭推拉。這樣,就能模擬我們的攝影過程。
生成的這個視頻中,要求它包含海邊小屋、鏡頭過渡到陽臺、俯瞰大海、帆船、雲朵等元素。
Vidu生成的視頻,具有復雜的動態鏡頭,遠、近、中景、特寫,以及長鏡頭、追焦等效果,都十分驚艷。
一鏡到底,16s時長
而在這個視頻中,Vidu展現出了16s的超長「一鏡到底」。
而且,視頻完全是由單一大模型生成的,不需要任何插幀、剪切,直接就實現了端到端的生成。
超強時空一致性
要求它以《戴珍珠耳環的少女》為靈感,生成一只藍眼睛的橙色貓,可以看出,Vidu生成了連貫的視頻。
從旋轉的各個視角看,都非常逼真,甚至讓人產生了「這是一個3D模型」的錯覺。
它生成的視頻中,人物和場景在時空中始終保持一致。
* 理解中國元素
相比國外的AI視頻模型,Vidu也更理解中國元素。
熊貓、龍這樣的中國元素,它都能理解和生成。
和Pika、Gen-2比起來,Vidu的表現也絲毫不弱。
一艘木頭玩具船在地毯上航行。
兩位對手的視頻一個只有4s,一個更是畫面簡單的循環播放,而Vidu的視頻以16s的自然畫面秒殺了它們,在一致性的保持和語義理解上,也都非常突出。
用和Sora同樣的prompt,Vidu的表現甚至更好。
Sora並未理解旋轉的鏡頭是什麼意思,而Vidu不僅表現出了旋轉,還保持了一致性的效果。
幾分鐘的視頻結束,全場響起經久不息的掌聲。
之所以能在短時間做出如此驚艷的視頻AI模型,離不開團隊的長期積累和多項原創成果。
團隊的技術路線,竟也和Sora的高度一致。
全球首個低碳、高性能多語言LLM
此外,全球首個低碳、高性能、低幻覺多語言大模型Tele-FLM,由北京智源人工智能研究院與中國電信人工智能研究院(TeleAI)在今天正式聯合發布——所有核心技術、權重、訓練過程中的各種細節全面開源。
520億參數的Tele-FLM在2T token的數據上,用時2個月完成訓練。
值得一提的是,據Meta3官網信息,Llama 3-70B模型的訓練,可能使用了近5萬塊H100。而Tele-FLM僅用了896×A800的算力,完成了訓練。
此外,模型訓練過程還對數據質量進行嚴格把控。
通過使用高質量的中文數據,雖然只占30%,但Tele-FLM的中文能力明顯超越了對標的模型,取得了領先的成果。
未來,還將推出千億、六千億、甚至萬億參數版本,而且都將全部開源,供所有人使用。
順便提一句,會上最精彩的部分,莫過於機器人上臺表演了。
看看來自宇樹科技的這只機器狗,倒立行走,簡直太颯了。
除了頗有前沿範兒的技術成果發布,人工智能主題日上,國內大佬的演講也是幹貨滿滿。
大佬演講精彩亮點
北大教授、中科院院士鄂維南的演講,讓我們重新審視,大模型+大數據庫相結合的價值所在。
如今,我們能夠暢想人工智能的未來,那都是因為有一個最基本的工具——深度學習。
其實,深度學習很早就誕生了。
但真正將其帶向世界,釋放出重大威力的標誌性事件便是——2012年,Hinton和兩位學生訓練的大型深度神經網絡一舉贏得ImageNet大賽。
每個人都知道,若想開展機器學習研究,需要有三個最基本的工具:
一是模型工具,借助諸如Pytorch、TensorFlow、MindSpore等工具,AI開發者才能寫出深度神經網絡。
二是算力工具,當然非GPU莫屬,再結合CUDA這樣的架構,實現高效的算力利用率。
三是數據工具。
現在,全世界包括OpenAI、谷歌等在內的公司,都希望獲取高質量的數據。同時,數據稀缺已然成為LLM訓練的一大難題。
也正是在數據這個領域,現在的發展還不是很成熟,缺少可以利用的工具。
對於數據的處理,大家還是主要憑經驗,沒有一個完整的系統,去解決這一問題。
其中,「非結構化數據」處理,是機器學習方法的主要困難之一。