中國版GPT-4o炸場:國內首個流式多模態交互模型,現場實時且絲滑
沒等到GPT-4o,商湯先把《Her》給發布出來了!
就在剛剛,商湯直接在現場來了個炸裂的Live Show,話不多說,直接看效果:
(視頻地址:https://mp.weixin.qq.com/s/ytbGOtzGcqMeAIq_625_6A)
不僅聲音非常擬人(觀眾直呼好磁性),而且還是實時、隨時可以打斷的那種!
它宛如被安上了一對兒眼睛,可以做到精準無誤的所見即所得。
就連手繪的粗糙的簡筆畫,AI也能俏皮地跟人類做互動:
(視頻地址:https://mp.weixin.qq.com/s/ytbGOtzGcqMeAIq_625_6A)
一波Live Show秀下來,引得觀眾掌聲連連、「哇」聲一片。
這就是商湯發布的國內首個流式原生多模態交互模型——6000億參數日日新5.5系列中的5o所達到的效果。
據了解,這是一種全新的AI交互模式,把文本、聲音、圖像還有視頻等模態全都囊括到了一起,可以讓AI跟人們交流的時候變得更加生動豐富。
(視頻地址:https://mp.weixin.qq.com/s/ytbGOtzGcqMeAIq_625_6A)
可以說是真·電影走進現實了。
而且商湯CEO徐立現場表示,很快就可以用上了!
但新的AI交互模型,也還僅僅是商湯在這次發布中的一隅。
縱觀整場活動,商湯可以說是圍繞著日日新5.5,把多模態這事給玩兒得66的。
各位看官,咱們繼續往下瞧。
* 計算機巨佬們「活」了起來
你沒看錯,商湯用新AI搞的另一個花活兒,就是「復活」了圖靈、馮諾依曼等計算機巨佬們。
並且還致敬了已故的人工智能科學家,商湯科技創始人湯曉鷗老師,徐立表示:
致敬我們的創始人湯曉鷗教授對人工智能的執著,以及對於人才的培養,奠定了我們今天可以站在這裏跟大家分享我們關於人工智能的一些想法。
請看VCR:
(視頻地址:https://mp.weixin.qq.com/s/ytbGOtzGcqMeAIq_625_6A)
這個新AI,名叫Vimi,是基於日日新5.5能力打造的首個可控人物視頻生成大模型。
而且是只需要一張任意風格照片就能搞定、普通用戶都可以用、長達1分鐘的那種哦~
要知道,「人物可控」這事一直是用大模型搞生成的一道難題,就連Sora在內大模型也面臨無法精準控製動作、連續性不穩定(突然變臉)等問題。
但Vimi就不一樣了,它不僅能夠精確地控製人物的面部表情,還能在半身像的範圍內調節人物的自然姿態。
並且也能夠自動生成與人物相匹配的頭發、服裝以及背景的變化;時長方面更是達到了分鐘級別。
由此,以後要是想打造一個自己的大片兒,例如冰雪女王,那就是一張照片的事兒了:
(視頻地址:https://mp.weixin.qq.com/s/ytbGOtzGcqMeAIq_625_6A)
以為這就完了?No,No,No。
你的表情包又要變豐富了。
總而言之,Vimi的出現可以說是利好視頻創作者,讓他們有了另一個高質量AI工具的選擇。
值得一提的是,Vimi還被這次世界人工智能大會(WAIC)官方授予了最高榮譽——鎮館之寶。
怎麽做到的?
對於能取得上述效果背後的殺手鐧技術,商湯在現場也做出了大揭秘。
一方面是架構。
日日新5.5采用的是混合端邊雲協同專家架構,可以最大限度發揮雲邊端協同,降低推理成本。
另一方面是數據。
日日新5.5在模型訓練上基於超過10TB tokens高質量訓練數據,包括大量合成的思維鏈數據,其語言理解和交互能力全面升級。
因此,日日新5.5在數學、推理、編程等多個維度較上個版本具有較大的提升,尤其是在數學推理(↑31.5%)英文理解(↑53.8%)、指令跟隨(↑26.8%)等核心指標方面。
那麽這一點又該如何體現呢?權威評測榜單,便是一個很好的印證。
例如根據OpenCompass的評測,日日新5.5的平均分數已經與GPT-4o持平,並且多想細分維度的分數是超越了GPT-4o的。
不要999,不要99,只要9.9元全年
除了多模態之外,端側,也是此次商湯著重的發力點之一。
現在的日日新端側模型5.5 Lite同樣也在性能指標的各維度上做到了全面升級。
基於手機旗艦平臺,5.5 Lite首次安裝包的耗時僅為0.19秒,相較於之前的版本減少了40%。
它的推理速度提高了15%,達到每秒90.2個漢字的處理速度。
此外,商湯還推出了端側模型矩陣,其中包括商量Mini寫作助手、總結助手和百科助手等專門定製的模型。
這些專項模型在相應的場景下具有更優異的性能,能夠滿足客戶復雜業務場景的需求,同時也能夠提供不同的專項模型供客戶選擇或定製。
而且基於日日新5.5的端側大模型還做到了「多快好」,還做到了「省」——每臺使用成本最低可達每年9.9元。
在企業方面,與商湯達成合作的企業用戶已經超過3000家,覆蓋領域包括互聯網、醫療、金融和編程等等。
而說到價格,說到普惠,就不得不提商湯此次提出的「0元Go」計劃了:
即日起,成為商湯「日日新SenseNova」用戶,可獲得涉及調用、遷徙、訓練等多項免費服務大禮包。
同時贈送5000萬Tokens包,並且派出專屬搬家顧問,讓新用戶入駐新家舒適順利。
那麽看完商湯此次的整場發布,我們還需要回答一個問題:
重塑交互為什麽重要?
對於這個問題,商湯CEO徐立給出了他的解讀: 我曾經的想法是我們所處的行業雖然很熱,但它還沒有到超級時刻,是因為它沒有真正的走進到一個行業的垂直應用當中引起廣泛的變化。
但現在我的想法有點改變,超級時刻和應用應該是互相成就的,只有超級時刻帶來的認知的變化,最後才能推動這樣一個應用。
因此,應用,或許就成為了決定這個時代是不是人工智能超級時刻的一個關鍵。
這也就是為什麽商湯要推出流式原生多模態交互模型的原因了,只有做到了更豐富更精準的多模態,以及更低延時更可控,方可讓應用這件事更上一層樓。
總而言之,思路已然清晰,技術不斷進步,屬於AI2.0的超級時刻或許正在加速向我們逼近。
---[金磊 發自: WAIC*量子位: 公眾號 QbitAI/來源: 量子位]