會在AI領域被美國甩開嗎？---對ChatGPT，Sora的一些想法

2024022613:08

最近這段時間，OpenAI公司的Sora火爆了，查了下時間是2月15日（美國當地時間）發布的。

當然了，每一次有新的東西出來，都是我們學習的機會，比如AGI這個詞，最近因爲Sora火了，我們就經常看到，但這個詞是什麽意思呢？平時我們不是都說AI（人工智能）嗎，怎麽又出來一個AGI。

像360的董事長周鴻祎就針對Sora的發布評論說“AGI真的就不遠了，不是10年20年的問題，可能一兩年很快就可以實現”。

AGI是Artificial General Intelligence的的縮寫，直譯過來就是通用人工智能，直接點說就是能在各個領域都達到人類水平的人工智能。

人類是智慧的生物，所以一個人可以訓練爲醫生，護士，司機，飛行員，士兵，工程師，快遞員等等，表現出從事各行各業工作的通用性，對現實世界有強大的理解能力，而且還可以在工作中不斷學習成長。

當然了，AGI是未來的事情，

相對于人類的水平而言，現在普遍應用的人工智能有以下幾個特點：

1：只能做特定的工作，

比如你家裏的智能攝像頭，它能做的就是圖像識別，

再比如我們手機裏面的智能語音輸入法，它能做的就是把你說的漢語轉化爲文字。

再比如我們汽車裏面的各種車機對話機器人，什麽理想同學，小藝，小P等等，它能做的就是聽懂你說的指令然後打開空調，調溫度，打開車窗，導航什麽的。

2：缺乏對世界的理解

我們現在登錄一些程序的時候，經常會彈出一些圖片，讓你把它指定的選出來，比如汽車，自行車，女性，海邊的男孩什麽，這樣做的目的是確認你是人類在登陸，因爲人類有對世界的理解，我們腦子裏不需要去存儲記憶那麽多海邊男孩的畫面，而是憑著對描述的這個畫面的理解可以把相關圖片篩選出來。

現在智能手機已經可以很方便的用文字搜索圖片了，

比如在相冊裏面搜索駕駛證，那麽駕駛證的圖片就可以很快的顯示出來，我今天就在我的華爲手機上用了這個功能，因爲在試駕車需要出示駕照。

而且如果搜索“兩個人”，也能把含有兩個人的照片顯示出來。

但是如果如果搜索複雜一點的東西，比如搜索“父親和兒子“，就顯示不出來了。

如果再搜索“認真工作的照片”，就更搜不出來了。

這就是自然語言理解能力還不行。

再比如有的AI畫出來的畫，或者做出來的視頻，感覺就是怪怪的，和現實物理世界不一樣，以至于人類可以分辨出這就是AI風格圖片視頻。

3：自主學習功能較差。

像現在新能源汽車的車機對話機器人，

我過去的半年開了一些火熱的國産新勢力新能源車型，有時候讓它放一首歌，它放出來的是錯的，不是我想聽的版本，那能不能做到我說話告訴它放出來的歌不對，什麽版本才是我想聽的，然後它下次就能把正確的歌放出來了？目前還不能。簡單的說，就是沒有記憶功能，就像是一個沒有記憶的人。

現在還只能依靠後台的工程師，通過不斷搜集反饋的數據在雲端訓練，

然後發布更新版本再推送到端側，而且更新的版本也不一定是我們想要訓練出的效果。

如果能夠達到AGI的話，我們就可以自己把車機聊天機器人越訓練越聰明了，訓練成我們想要的樣子了。

當然等AGI通用人工智能實現了，上面的問題也就解決了。

這次Sora出來，之所以能夠出現這麽大的震撼，是因爲在第二點上，也就是對世界的理解上實在是太驚豔了，根據文本生成的視頻居然沒有什麽邏輯錯誤，和人類生存的物理世界表現一致，讓人難以分辨這是AI生成的視頻還是人類做出來的視頻。

我們看一下OPENAI公司是怎麽介紹自己的産品的。

首先說Sora是一個能夠通過文本描述來創造現實和想象的場景的AI模型。

然後具體介紹說：

We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.

Introducing Sora, our text-to-video model. Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.

我們教AI來理解和模擬一個運動中的物理世界，目的是訓練模型來幫助人們解決需要真實世界互動的需求。

Sora可以生成長達一分鍾的視頻，同時保證視頻質量和遵守用戶的指示。

接下來OpenAI公司說了下他們在邀請技術專業人士評估技術能力，包括對視覺藝術家，設計者以及影視從業者開放了使用，以獲得他們的反饋來改進。

Today, Sora is becoming available to red teamers to assess critical areas for harms or risks. We are also granting access to a number of visual artists, designers, and filmmakers to gain feedback on how to advance the model to be most helpful for creative professionals.

We’re sharing our research progress early to start working with and getting feedback from people outside of OpenAI and to give the public a sense of what AI capabilities are on the horizon.

接下來說Sora能夠生成具有多個角色、特定運動類型以及主題和背景的准確細節的複雜場景。該模型不僅了解用戶的要求，還了解這些東西在物理世界中是如何存在的。

Sora is able to generate complex scenes with multiple characters, specific types of motion, and accurate details of the subject and background. The model understands not only what the user has asked for in the prompt, but also how those things exist in the physical world.

然後說該模型對語言有著深刻的理解，使其能夠准確地解釋Prompt(也就是用戶輸入的文本），並生成令人信服的人物，表達充滿活力的情感。Sora還可以在一個生成的視頻中創建多個鏡頭，准確地保持角色和視覺風格。

The model has a deep understanding of language, enabling it to accurately interpret prompts and generate compelling characters that express vibrant emotions. Sora can also create multiple shots within a single generated video that accurately persist characters and visual style.

最後說目前的模型還是有弱點。它可能難以准確模擬複雜場景的物理特性，也可能無法理解因果關系的具體實例。例如，一個人可能咬了一口餅幹，但之後，餅幹可能沒有咬痕。

該模型還可能混淆提示的空間細節，例如混淆左右，並可能難以准確描述隨著時間的推移發生的事件，例如遵循特定的相機軌迹。

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie may not have a bite mark.The model may also confuse spatial details of a prompt, for example, mixing up left and right, and may struggle with precise descriptions of events that take place over time, like following a specific camera trajectory.

然後提到了安全的問題，這個比較長，簡單的說主要就是想避免Sora的技術被濫用，不僅要通過專業團隊測試來確保Sora能拒絕用戶輸入有害文本，而且還要確保Sora産生的視頻中沒有各種誤導性，仇恨和偏見的有害內容，而且還在開發工具來檢測産生的視頻內容是否包含有害信息。

We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers — domain experts in areas like misinformation, hateful content, and bias — who will be adversarially testing the model.

We’re also building tools to help detect misleading content such as a detection classifier that can tell when a video was generated by Sora. We plan to include C2PA metadata in the future if we deploy the model in an OpenAI product.

In addition to us developing new techniques to prepare for deployment, we’re leveraging the existing safety methods that we built for our products that use DALL·E 3, which are applicable to Sora as well.

For example, once in an OpenAI product, our text classifier will check and reject text input prompts that are in violation of our usage policies, like those that request extreme violence, sexual content, hateful imagery, celebrity likeness, or the IP of others. We’ve also developed robust image classifiers that are used to review the frames of every video generated to help ensure that it adheres to our usage policies, before it’s shown to the user.

We’ll be engaging policymakers, educators and artists around the world to understand their concerns and to identify positive use cases for this new technology. Despite extensive research and testing, we cannot predict all of the beneficial ways people will use our technology, nor all the ways people will abuse it. That’s why we believe that learning from real-world use is a critical component of creating and releasing increasingly safe AI systems over time.

最後是一段關于技術的描述，很技術化，包括Sora是一個diffusion的模型，並且和GPT一樣是Transformer架構，這個非技術人員不需要去了解細節。

但在最後提到，Sora除了能夠僅根據文本指令生成視頻外，還能夠獲取現有的靜止圖像並從中生成視頻，從而准確地動畫化圖像內容，並注意小細節。該模型還可以獲取現有視頻並對其進行擴展或填充缺失的幀。

最後說Sora是能夠理解和模擬真實世界的模型的基礎，我們相信這一能力將是實現AGI的重要裏程碑。

In addition to being able to generate a video solely from text instructions, the model is able to take an existing still image and generate a video from it, animating the image’s contents with accuracy and attention to small detail. The model can also take an existing video and extend it or fill in missing frames. Learn more in our technical report.

Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.

看完OpenAI公司的介紹，我的感受是OpenAI公司強調的是對物理世界的理解能力，包括對人類語言（文本）的理解能力，以及生成的視頻對物理世界的模擬真實度，相比之前有了很大的進步。

我完整的說一下我對Sora的看法，以下不分先後：

1 ：當前 AI的三個特點（弱點），只能用于特定領域，物理世界理解能力，自主學習能力這三項。

Sora主要是在第二項也就是物理世界的理解能力方面實現了進步，

盡管其承認在辨別左右，以及吃餅幹後的變化等場景還不行，但相比之前已經是進步。

Sora目前來看，仍然是一個特定領域的工具，

OpenAI公司提高其邀請的進行評估反饋的行業人士爲“ visual artists, designers, and filmmakers”，也就是都是藝術家，視頻創作者和電影行業人士。

2：一項技術最後的價值是體現在商用，而Sora的潛在市場並不小，因爲Sora最終商用的話，將極大的降低視頻制作門檻

Sora最終應用的市場空間有多大，這個我還沒有查到比較公認的數字，

但就我想到的應用，就已經有廣告，安全教育，電影，短劇，電視劇，自媒體文章，短視頻平台作者發視頻等等了。

其中尤其是廣告市場是個極大的市場，像字節跳動，百度，快手，拼多多（沒錯，一個電商企業收入大頭居然是廣告），微博和谷歌等等的收入都是主要來自廣告，靠著廣告的收入，就能成爲巨頭企業。

2023年光是谷歌的總營收超過3000億美元，其中大部分是來自廣告，而視頻是廣告的主要形式之一。

2022年外界估計字節跳動的總營收超過800億美元，其中大部分也是來自廣告。

而廣告産業的收入，相當一部分會進入到廣告視頻制作公司和作者的錢包。

例如作爲播放廣告平台的互聯網公司，如果實現了超低門檻制作視頻的話，爲什麽不可以向自己的客戶提供廣告視頻制作服務呢？這可是巨大的市場。

不僅是給廣告客戶，而且互聯網公司還可以把這項服務提供給普通用戶，讓普通用戶可以極快的生成視頻，這可能也會産生巨大的引流能力，像現在B站，西瓜視頻，油管等等都有大量的自媒體視頻作者，而視頻制作本身有一定的技術門檻，

如果人人都能很容易生成視頻，那可能會造成視頻作者數量大大增加，那些率先實現低成本視頻制作的互聯網平台，可能會迎來大量的視頻新作者，實現平台的繁榮，獲得發展的機會。

當然由于Sora當前還沒有商用，其實用性還需要驗證，

比如理論上假設1萬個用戶輸入同樣的文本，那麽Sora應該輸出1萬個不同的視頻，因爲用戶不想要雷同重複的內容，那麽當前Sora具備這樣的能力嗎？

同時不管是廣告行業，還是電影行業，還是自媒體視頻作者，客戶的個性化需求極多，這就要求對視頻進行各種調整，我前幾個月就在當甲方做一段兩分鍾左右的演示視頻，我回想了一下，由于負責做視頻的人的理解和我要求的不一致，前後我提出的各種修改意見真的不少，Sora能夠承擔這種工作嗎？還是只能用戶自己手動調整？

如果Sora能夠做到以上能力，那麽價格是多少呢？能做到低成本嗎？如果成本很高，還不如繼續用人工呢。

這些問題都要到商用的時候才有答案。

而之前ChatGPT語言模型的發展已經給OPENAI公司帶來了越來越高的收益，因爲能夠低成本的提供服務：

2018年6月，OpenAI公司發表了題爲《Improving Language Understanding by Generative Pre-Training》的論文，

提出了GPT（Generative Pre-trained Transformer），這是一種預訓練的大型自然語言（NLP）處理模型。

2019年2月：GPT-2

2020年6月：GPT-3

2022年11月：ChatGPT（火爆）。

根據媒體的報道，OpenAI公司在2023年10月的年化收入（也就是當月收入*12）達到了13億美元，

同時在 2023年12月的收入，乘以12之後達到了20億美元的裏程碑。算下來單月收入大約1.7億美元。

3：盡管可能不如Sora驚豔，但中國公司預計也會推出同類的産品

ChatGPT的發布時間是2022年11月30日，

2023年3月16日百度就開放了文心一言語言大模型邀請測試，

2023年5月6日，科大訊飛發布了訊飛星火認知大模型。

其他中國公司也紛紛發布。

盡管水平參差不齊，但是在緊跟美國公司的步伐的。

今年的技術挑戰顯然比去年大，但我認爲先不說技術水平如何，國內公司也會跟進並且較快的推出類似的産品。

因爲兩個原因，

其一是由于視頻新技術可能會帶來對視頻平台，廣告，影視等行業的改變，這就直接影響到國內相關互聯網企業的未來發展，會讓相關企業産生不確定感和危機感，有很大的動力去投入研發類似産品。

像廣告，電商，遊戲是互聯網公司三大收入之一，如果廣告行業因爲新技術發生了改變，會不會影響到公司長期發展？

像阿裏，拼多多，京東這類電商公司，如果電商廣告技術發生了改變，會不會影響到電商的收入？

例如國內的各種視頻平台已經不少了，從字節跳動，快手，騰訊（騰訊視頻，視頻號）等等，現在不管是制作長中視頻還是制作短視頻還是門檻較高的，很多人就不知道如何剪輯10分鍾視頻，如果技術變革了，門檻降低了，誰都能夠更快的生成有趣的視頻，會不會發生新的變革？

舉個例子，我經常上B站，但是我自己從來沒有自己做過視頻並且在B站上傳，爲啥呢，因爲剪輯視頻費時費力而且收益又低，一個粉絲較多的up主一個月流量收入就幾千塊。

如果B站推出了新技術，我寫文字就能夠一鍵制作成視頻，而且基本符合我的原意，而且成本還低，內容還不會和其他人重複，那我何樂而不爲呢？這可能會大大的增加B站的up主活躍度。

再比如騰訊的視頻號如果率先推出了這種低門檻低成本的文字生成視頻技術，會不會導致大量用戶湧向視頻號發作品嘗鮮，結果影響其他短視頻平台的用戶數量和時長？

所以我覺得應用市場大，其結果就是國內不少公司會受到影響，他們是有很大動力去把這個技術搞下來，畢竟跟他們的切身利益有關系。

不怕在技術上暫時的落後，落後是可以追趕的，怕的是國內沒有相關公司，尤其是大公司投入這個賽道搞研發。好在中國的視頻産業夠大，也有足夠的驅動力。

企業的重視很重要，像OpenAI公司就是微軟投的錢。

其二是中國在國家和省市層面都已經高度重視人工智能，算力中心的發展了。各種政策不斷出台，我就不再一一列舉了，這說明中國從政府到企業對人工智能的態度是一致的，而且是積極的。

就在2月19日，國務院國資委召開“AI賦能産業煥新”中央企業人工智能專題推進會。

會議明確中央企業要把發展人工智能放在全局工作中統籌謀劃，加快布局和發展人工智能産業，把主要資源集中投入到最需要、最有優勢的領域，加快建設一批智能算力中心，開展AI+專項行動。

像Sora發布後，已經有省委副書記+市委書記這樣的地方主官已經公開提及其重要性。

4：要改造人類的物理世界，即使最終達到AGI也是不夠的，需要有物理層面的感知，算力和執行，最終還是要有強大的制造業。

可以把人，比如我自己看成一個AGI，雖然我的頭腦智力就是人類水平，比現在的人工智能還要先進，但沒有物理層面的配合，仍然無法改造世界。

如果沒有眼睛，我就無法輸入世界的實時畫面信息，

如果沒有低功耗的神奇生物大腦，那我就無法長時間思考，也不能具備複雜思考能力；

如果沒有雙手，以及我使用的各種物理工具和裝備，就無法實現對世界的改造，當然也包括對物理世界的破壞。

就跟人其實就是高水平智能，

但是如果我們沒有自行車，汽車，飛機這些硬件幫忙，我們一天的最高移動距離也就是幾十公裏；

沒有大型工程機械，即使我們智能水平很高，光靠雙手也無法快速完成大型工程。

美國也是對此有深刻理解，因此限制了英偉達向中國所有公司出售先進算力芯片，迫使中國公司大量轉向華爲購買。

但美國制造業的總體勢頭，我覺得還是有些問題的，重設計輕制造，

電子産品方面蘋果手機100%在中國印度生産，大部分零部件也采購自東亞地區。

英偉達因爲AI的爆發現在如日中天，但其計算芯片當前100%由東亞地區制造，主要是台積電（其中H100更是100%來自台積電），少量由三星制造。

汽車方面電動化轉型最好的特斯拉，上海工廠成爲其全球最大工廠，實際上如果沒有上海工廠的高速度擴産和銷售，特斯拉能不能挺過當年的困境都不好說。

因爲需要算力的關系，因此不管是英偉達這樣的全球計算芯片巨頭，還是華爲等國産計算芯片公司都成爲關鍵變量，尤其是現在國內已經買不到英偉達的先進計算芯片了。

自從去年8月底華爲Mate 60系列發售，華爲海思芯片已經可以在國內批量生産開始，我就非常關注華爲旗艦手機的銷量情況，因爲華爲的旗艦手機銷量越大，那麽國産高端手機處理器芯片的銷售數量就越多，對上遊國産芯片制造業的拉動也就越大，從而也會惠及到計算芯片的制造。

其實我對人工智能這種中國從國家，企業，民間都一致重視，並且都認爲應該大力推進，同時又有大量國內巨頭企業參與其中的産業並不是很擔心，不管是上次的ChatGPT，還是這次的Sora，都在國內掀起了巨大的輿論熱潮，這是大好事，也說明了國內各方面認爲這很重要。

同時它是個龐大的産業，最終還要在硬件設備上落地才能真正發揮改造世界的作用，因此美國其實挺難全方位的超越和領先，也意味著中國有趕超的機會。

倒是那些輿論上重視不多，投入資本也少，缺乏民間巨頭企業參與的産業，我國追趕速度就很慢，比如科研用的科學儀器儀表，我查詢了行業報告，每年國內市場就高達三千多億人民幣，這方面我國落後歐美就很多，大量依賴進口，雖然國家有部署專項國産化任務，但是缺乏民間巨頭企業參與。

再比如機床産業，現在居然還要從台灣進口不少機床，而台灣機床本來相比日本德國等是要低一檔的。

還有2018年之前的半導體生産設備和材料行業，國內都不重視國産化，反正能從美國日本荷蘭等國買到，後來被美國制裁才被打醒了，下遊企業開始大量采購和扶持國産設備和材料，從國家，企業到公衆，對半導體産業鏈國産化的重視程度空前提高了，這才有了這幾年的高速增長。

實際上對于我們個人而言，也要關注AI時代帶來的變革，比如現在各種AI工具越來越多，能不能用這些AI工具提升我們的工作效率？

像我老婆給孩子買的學習機，只需要把作業本放在桌上上，學習機就可以通過攝像頭識別作業本的內容，並且把作業本內容的圖片顯示在屏幕上哪些題做對了，哪些題做錯了，大人輕松了很多。

我在想如果學校給老師配置了這種AI設備，老師批改卷子，作業是不是高效了很多？老師只需要看一眼屏幕，就知道哪個地方錯了，知道該在卷子上哪個地方打叉，連分數都算出來了。

天天做PPT焦頭爛額的社畜，被各種排版，素材，字體搞的很痛苦，有沒有關注有哪款 AI工具可以幫助自動寫PPT，你只需要輸入文字內容就可以了？

那些想在工作之外開辟第二職業的打工人，

有沒有想過關注AI視頻技術的發展，有沒有哪款AI視頻制作工具，可以把你拍攝的視頻內容迅速自動剪輯好，配好字幕，這樣你也可以當一個視頻作者，通過視頻分享自己的行業知識，在各個視頻平台賺取流量費？

現在各個視頻平台的作者都是有流量收益的。

中國廣大各行各業的大中小企業也是一樣，要思考什麽樣的AI工具能夠幫助自己的企業更加高效，更加高質量的運行，這不僅能給自己帶來好處，反過來也是給國內搞AI的企業帶來市場機會，拉動國産AI産業的發展。

面對AI技術的發展，包括美國AI技術的發展，不需要恐懼AI會不會把我的工作替代了，也不需要擔憂美國會不會又把中國遠遠甩在後面了。

人類的恐懼和擔憂主要來自于未知，研究它，學習它，使用它，不僅能給我們帶來極大的好處，而且各種恐懼和擔憂也就煙消雲散了。---來源: 甯南山 -

我要留言

會在AI領域被美國甩開嗎？---對ChatGPT，Sora的一些想法

日本拼力再造第二個“台積電”

地球是銀河監獄嗎？

日本拼力再造第二個“台積電”

地球是銀河監獄嗎？