01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

華爲“天才少年”4萬字演講:現在的AI技術要麽無趣,要麽無用-(3)

2024040515:15


我們知道圖片生成現在已經比較成熟,視頻生成會是 2024 年一個非常重要的方向。視頻生成不僅僅是生成素材這麽簡單,更重要的是讓每個人都能輕松成爲視頻內容的創作者,更進一步,讓每個 AI 數字分身都有自己的形象,可以用視頻的方式來交流。

有幾條典型的技術路線,比如 Live2D,3D 模型,DeepFake,Image Animation 和 Video Diffusion。

Live2D 是很老的技術,不用 AI 也行。比如很多網站上的看板娘就是 Live2D,一些動畫遊戲也是用 Live2D 技術做的。Live2D 的優點在于制作成本低,比如一套 Live2D 皮套,一萬元人民幣一兩個月就能做出來。缺點在于只能支持指定的二次元人物,沒辦法生成背景視頻,也沒辦法做出皮套範圍以外的動作。Live2D 作爲 AI 數字分身的形象,最大的挑戰是如何讓大模型輸出的內容跟 Live2D 人物的動作和口型一致。口型一致相對容易,很多皮套都支持 LipSync,也就是讓音量和口型一致。但是動作一致就相對複雜,需要大模型在輸出中插入動作指示,告訴 Live2D 模型該做什麽動作了。

3D 模型跟 Live2D 類似,也是很老的技術,跟 Live2D 就是二次元和三次元的區別。大多數遊戲都是用 3D 模型和 Unity 之類的物理引擎做的。今天數字人直播裏面的數字人一般也是用 3D 模型做的。目前 AI 很難自動生成 Live2D 和 3D 模型,這還需要基礎模型的進步。因此 AI 能做的事就是在輸出中插入動作提示,讓 3D 模型一邊說話一邊做指定的動作。

DeepFake、Image Animation 和 Video Diffusion 則是通用視頻生成 3 條不同的技術路線。

DeepFake 是錄制一個真人視頻,隨後利用 AI 把視頻中的人臉換成指定的人臉照片。這種方法其實也是基于上一代深度學習的方法,它從 2016 年開始就存在了。現在經過一系列的改進,它的效果已經非常好了。有時我們會認爲當前的真人視頻與我們想要表達的場景,比如說遊戲中的場景,是完全不同的。事實上,因爲 DeepFake 可以使用這個世界上所有的 YouTube 視頻資料,所有的電影剪輯,甚至是用戶上傳的抖音短視頻。AI 學習了這些視頻的內容,對視頻做文字總結和標注之後,我們總能從海量的視頻庫中找到一個我們想要的視頻,然後在這個時候把視頻中的人臉換成我們指定的人臉照片,就能達到非常好的效果。實際上,這個有點類似于現在短視頻中比較常用的混剪技術。

Image Animation,比如說最近比較火的阿裏通義千問的 Animate Anyone 或者字節的 Magic Animate,它實際上是給定一張照片,隨後根據這張照片生成一系列的對應視頻。然而,這個技術相比于 DeepFake 的缺點是它可能目前還達不到實時視頻生成,而且視頻生成的成本相比 DeepFake 要高一些。但是 Image Animation 可以生成大模型指定的任意動作,甚至可以把圖片背景填充進去。當然,不管是 DeepFake 還是 Image Animation 生成的視頻,都不是完全准確,有時候可能發生穿幫的情況。

Video Diffusion 我認爲是一個更爲終極的技術路線。雖然這條路線現在還不夠成熟,比如像 Runway ML 的 Gen2,以及 PIKA Labs 都在探索這一領域。(注:本演講是在 2023 年 12 月,當時 OpenAI 的 Sora 還沒有發布。)我們認爲,可能未來基于 Transformer 的方式端到端的生成視頻是一個終極的解決方案,可以解決人和物體的運動以及背景生成的問題。

我認爲視頻生成的關鍵是要對世界有一個很好的建模和理解。現在我們的很多生成模型,比如 Runway ML 的 Gen2,在對物理世界的建模方面實際上存在很大的缺陷。許多物體的物理規律和其物理屬性並不能被正確地表達出來,因此它生成的視頻的一致性也較差,稍微長一點的視頻就會出現問題。同時,即使是非常短的視頻,也只能生成一些簡單的運動,而對于複雜的運動,是沒辦法正確建模的。

此外,成本也是一個大問題,現在 Video Diffusion 的成本是所有這些技術中最高的。因此,我認爲 Video Diffusion 是 2024 年一個非常重要的方向。我相信,只有當 Video Diffusion 在效果足夠好的同時,成本也大幅降低,每個 AI 的數字分身才真的能擁有自己的視頻形象。

有趣的靈魂:個性



剛才我們討論了好看的皮囊這一部分,包括怎麽讓 AI Agent 理解語音、理解視頻,以及怎麽讓 AI Agent 生成語音、生成視頻。

好看的皮囊之外,同等重要的是有趣的靈魂。其實我覺得,有趣的靈魂是現有市場上的 AI Agent 存在更大差距的地方。

比如,就拿這個截圖中 Janitor AI 的例子來說,我們當前市場上的主要 AI Agent 大部分是使用 GPT 或者其他的開源模型套上一個殼。所謂套殼,就是定義一個人物設定以及編寫一些樣本對話,然後大模型基于這些人物設定和樣本對話去生成內容。

但是,我們想,一個 prompt 它總共也就幾千字的內容,它怎麽可能完整地刻畫出一個人物的曆史、個性、記憶和性格呢?這是非常困難的。



其實,除了基于 prompt 的方式之外,在構建人物個性方面我們還有一種更好的方法,就是基于微調的 agent。比如說,我可以基于 Donald Trump 的三萬條推特來訓練一個數字化的 Trump。這樣的話,他說話的風格其實就能非常類似于他本人,也能非常了解他的曆史和思維方式。

比如說,像圖裏面提到的三個問題:“你會不會想和 Elon Musk 交換人生?”、“你會不會競選 2024 年的總統?” 以及 “你的推特賬號被封了以後你怎麽想?”

左邊的這張圖是 Character AI 的,這個說話的風格有點像特朗普,但並不是完全一樣。而右邊這張圖則是我們基于自己的模型,然後采用微調的方法做的,它也是基于一個並不是特別大的開源模型微調出來的。但是他的說話內容可以看出非常的川普風,而且經常會提到一些有趣的故事。



我們剛才提到了基于微調和基于 prompt 的兩種方案。那麽,有人會問,如果把特朗普所有的三萬條推特內容全部放到我們的 prompt 裏面去,他說話是不是也能非常有特朗普的風格。答案是肯定的,這樣的數字特朗普也能夠了解到特朗普所有的曆史。但問題是,這三萬條推特可能會有上百萬 token 的量級,先不說現在的模型能不能支持上百萬 token 的上下文,即使能夠支持,成本也會非常高。

基于微調的 agent,則相當于說我僅用了 1% 的權重就能把特朗普的這些推特存下來。這裏就有一個問題,那就是在保存這 1% 的權重時,實際上也會消耗幾百 MB 的內存,每次推理都需要加載和卸載。現在即使使用了一些優化方案,這 1% 的權重的加載和卸載也會占掉整個推理過程 40% 左右的時間,意味著整個推理的成本大約增加了將近一倍。

在這裏我們就要算一筆賬了:基于 prompt 的方法和基于微調的方法哪種成本更低。基于 prompt,我們也可以把它的 KV cache 存下來,假設有一百萬 token,對于 LLaMA-2 70B 這樣的模型,算上默認的 GQA 優化,它的 KV cache 會高達 300 GB,這是一個非常恐怖的數字,比模型本身的 140 GB 都大。那麽我把它存下來每次加載消耗的時間也會非常恐怖。而且,輸出每個 token 所需的算力是跟上下文長度成正比的,如果不做優化,可以認爲一百萬 token 上下文的推理時間是 4K token 上下文推理時間的 250 倍。

因此,很有可能基于微調的方法更劃算一些。通俗的講,把人物完整的曆史放進 prompt 裏,就像把說明書完全攤開在桌面上,注意力機制每次都去線性翻找之前的所有內容,因此它的效率不可能非常高。而基于微調則可以看作是把信息記憶在大腦裏。微調過程本身就是一個信息壓縮的過程,把三萬條推特裏面零散的信息整理到大模型的權重裏面,這樣信息提取的效率就會高很多。



微調的背後更關鍵的還是數據。我知道知乎有一個很有名的 slogan,叫做有問題才會有答案。但是現在 AI Agents 基本上要人工去造很多的問題和答案,爲什麽呢?

比如說我如果去爬一個 Wikipedia 頁面,然後 Wikipedia 裏面的一長篇文章其實沒辦法直接用來做微調。它必須把它組成從多個角度去提問,然後把它組織成問題和答案對稱的這樣一種方式才能去做微調,那因此它就需要大量的員工,一個 Agent 可能需要上千美金的成本才能做出來,但是如果說我們把這個流程自動化,一個 Agent 可能只要幾十美金的成本就能夠做出來,其中就包含自動采集、清洗大量的數據等等。

其實咱們在場很多做大模型的同事都應該感謝知乎,爲什麽呢?因爲知乎給我們中文大模型提供了很重要的預訓練語料,知乎的語料質量在國內 UGC 的平台裏算是非常高的了。

我們用來做微調的語料可以大致分爲對話性語料和事實性語料兩類。對話性語料包括像 Twitter、聊天記錄等,往往是第一人稱的,主要是用來微調人物的個性和說話的風格。而事實性語料包括 Wikipedia 上關于他的頁面、關于他的新聞以及博客等,往往是第三人稱的,這些可能更多的是關于這個人物事實性的記憶。這裏就有一個矛盾,就是如果只用對話性語料去訓練,他可能只能學到該人的說話風格和思維方式,但學不到關于他的很多事實性記憶。但如果只用事實性語料訓練,又會導致其說話風格像是寫文章的人的風格,而不是那個人本人的說話風格。

那麽如何平衡這兩者呢?我們采用了一個兩步訓練的方法。第一步,我們先用對話性語料去微調他的個性和說話風格。第二步,再去把事實性語料進行數據清洗後,基于各種角度提問,生成這個人物第一人稱口吻的回答,這叫做數據增強。用這種數據增強之後生成的回答,再去微調人物的事實記憶。也就是說,所有用來微調事實記憶的語料都已經以第一人稱的口吻組織成了問題和回答對。這樣也解決了微調領域的另一個問題,即事實性語料往往是長篇文章,而長篇文章不能直接用來做微調,只能用來做預訓練。微調需要一些 QA pair,也就是問題和回答對。

我們不是使用 LLaMA-2 Chat 或者 Vicuna 這樣的通用 Chat 模型作爲基礎模型,因爲這些模型其實並不是爲真人對話設計的,而是爲 ChatGPT 這樣的智能助手設計的;它們說話往往太官方、太正式、太冗長,並不像人實際說話。因此,我們采用了影視字幕、公開群組聊天這樣的一些通用對話語料進行微調,從 LLaMA、Mistral 這些開源基礎大模型的基礎上,微調出一個對話大模型,它說話的感覺更像日常生活中的真人。在這個對話模型的基礎上再微調具體人物的說話風格和記憶,效果會更好。

有趣的靈魂:目前的差距



有趣的靈魂絕不僅僅是上面說的微調記憶和個性,還有很多深層次的問題。我們結合幾個例子來看一下,現在的 AI Agents 在有趣的靈魂方面還有哪些差距。

比如我跟 Character AI 上面的馬斯克去聊天,同一個問題問五遍,“馬斯克” 永遠不會抓狂,每次都回複類似的內容,好像之前從來都沒有問過。