01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

用計算機訓練計算機,人工智能如何自我學習?

2023022715:54



人工智能的發展應用離不開數據。比如,訓練當前大火的ChatGPT,就需要大量的數據——根據OpenAI披露,ChatGPT的訓練使用了45TB的數據、近1萬億個單詞,大概是1351萬本牛津詞典所包含的單詞數量。

基於龐大數據集訓練而成的ChatGPT獲得了前所未有的成功,而ChatGPT想要向前迭代,就需要更多的數據進行訓練。但真實世界的數據總歸是有限的,並且面臨着難以獲取、質量差、標準不統一等諸多問題。在這樣的情況下,計算機模擬技術或算法生成的合成數據受到了愈發廣泛的關注。作為真實世界數據的廉價替代品,合成數據正日益被用於創造精準的AI模型。

為什麼需要合成數據?

顧名思義,合成數據就是通過計算機模擬或人工智能算法合成的數據,這樣的數據並不基於現實世界的現象和事件,但由於在數學上或統計學上,合成數據也能夠反映真實世界數據的屬性,因此,合成數據可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。

2022年以來,Forrester、埃森哲(Accenture)、Gartner、CB Insights等研究諮詢公司都已經將合成數據列為人工智能未來發展的核心要素,認為合成數據對於人工智能的未來而言是「必選項」和「必需品」。

比如,Forrester將合成數據和強化學習、Transformer網絡、聯邦學習、因果推理視為實現人工智能2.0的五項關鍵技術進展,可以解決人工智能1.0所面臨的一些限制和挑戰,諸如數據、準確性、速度、安全性、可擴展性等。

Gartner預測稱,到2024年,用於開發人工智能和分析項目的數據 60% 將是生成式合成數據,到2030年合成數據將徹底取代真實數據,成為AI模型所使用的數據的主要來源。MIT科技評論將AI合成數據列為2022年十大突破性技術之一,稱其有望解決AI領域的數據鴻溝問題。

數據對於人工智能發展的意義不言自明——如果說以深度學習為代表的智能算法是人工智能應用和發展的「引擎」,那麼數據就是用於驅動「引擎」的「燃料」。而合成數據之所以在今天會受到關注,正是因為目前現實世界的數據已經難以滿足人工智能繼續迭代,並向前發展的數據需求。

要知道,現實世界的數據收集和處理是一種昂貴且緩慢的過程,公司通常無法在短時間內獲取大量的數據來訓練準確的模型,就算是獲取現實世界的數據也要符合隱私規定,然而,除去獲取成本高昂以外,特定領域的數據集還受限於用戶隱私,極難採集。可以說,現實世界數據的稀缺性已經成為人工智能發展的最大瓶頸——如何高效、廉價並在不侵犯隱私的情況下獲取大量數據,成為當前人工智能領域的關鍵問題之一。

合成數據就是這個關鍵問題的解法。首先,合成數據能夠實現數據增強和數據模擬,解決數據匱乏、數據質量等問題,包括通過合成數據來改善基準測試數據的質量等;其次,避免數據隱私問題,利用合成數據訓練AI模型可以避免用戶隱私問題,這對於金融、醫療等領域而言尤其具有意義;第三,合成數據還能最大限度地確保數據多樣性,更多反映真實世界,提升AI的公平性,以及糾正歷史數據中的偏見,消除算法歧視;第四,合成數據能夠應對長尾、邊緣案例,提高AI的準確性、可靠性,因為通過合成數據可以自動創建、生成現實世界中難以或者無法採集的數據場景,更好確保AI模型的準確性。

不僅如此,合成數據還具有低成本的特點。合成數據服務商AI.Reverie指出,人工標註一張圖片可能需要6美元,但人工合成的話只需要6美分。總的來說,利用合成數據可以更廉價、更高效、更準確、更安全可靠地訓練AI模型,進而極大擴展AI的應用可能性,將人工智能推向新的發展階段。

用計算機訓練計算機

2021年,尼日利亞數據科學公司的研究人員就注意到,旨在訓練計算機視覺算法的工程師可以選用大量以西方服裝為特色的數據集,但卻沒有非洲服裝的數據集。於是,這個團隊通過人工智能算法成功實現了人為生成由非洲時尚服裝的圖像組成的數據來解決這一不平衡問題。

可以說,合成數據真正實現了用計算機訓練計算機,這也讓機器智能向前更進一步。實際上,人類的學習正是遵循着這樣的方式,一方面,我們可以從外部信息來源收集知識和觀點,比如,通過閱讀一本書。但我們也可以通過思考一個問題,自發產生想法和見解,換言之,我們能夠通過內部反思和分析來加深對世界的理解,而不直接依賴於任何新的外部輸入。

而人工智能通過合成數據來自我訓練,就像是人工智能也無需任何新的外部輸入,而是通過合成數據來有效地引導它們自己的智能。

試想一下,今天的人工智能大模型吸收了世界上存在的大量信息和數據,比如維基百科、書籍、新聞文章等。如果人工智能能夠根據這些數據合成新的數據,然後再將這些合成數據進一步訓練來改進自己,那人工智能就將不斷迭代,且功能愈發強大。換言之,AI在合成數據構建的虛擬仿真世界中自我學習、進化,這將極大擴展AI的應用可能性。

實際上,用計算機訓練計算機的想法並不新鮮,例如,無人駕駛汽車已經在虛擬街道上進行了許多訓練。要知道,由於實際道路交通場景千變萬化,因此,讓自動駕駛汽車通過實際道路測試來窮盡其在道路上可能遇到的每一個場景是不現實的,必須藉助於合成數據才能更好地訓練、開發自動駕駛系統。

為此,許多自動駕駛企業都開發了複雜的仿真引擎來「虛擬地合成」自動駕駛系統訓練所需的海量數據,並高效地應對駕駛場景中的「長尾」問題和「邊緣案例」。比如,騰訊自動駕駛實驗室開發的自動駕駛仿真系統TAD Sim 可以自動生成無需標註的各種交通場景數據,助力自動駕駛系統開發。

在安全的、合成的仿真環境中,計算機可以模擬任何人類想象得到的駕駛場景,諸如調節天氣狀況、添加或移除行人、改變其他車輛的位置等等。可以說,合成數據和仿真技術是自動駕駛的核心支撐技術。實際上,最早湧現的一批合成數據創業公司就瞄準的是自動駕駛汽車市場,幫助自動駕駛企業解決其在自動駕駛系統開發過程中所面臨的數據和測試難題。

目前,合成數據還在向金融、醫療、零售、工業等諸多產業領域拓展應用,用計算機訓練計算機正在成為人工智能發展的必經之路。

下一次飛躍

由於對人工智能未來發展的巨大價值,合成數據也加速成為AI領域的一個新產業賽道。

一方面,國外的主流科技公司紛紛瞄準合成數據領域加大投入與布局。微軟的Azure雲服務則推出了airSIM平台,可以創建高保真的(high fidelity)的3D虛擬環境來訓練、測試AI驅動的自主飛行器,微軟還開發了可以生成合成和聚合數據集的開源工具Synthetic Data Showcase,並創建了合成人臉數據庫,和國際移民組織(IOM)合作打擊人口販賣。亞馬遜則在多個場景探索合成數據的應用,例如使用合成數據來訓練、調試其虛擬助手Alexa,以避免用戶隱私問題;其合成數據技術Wordforge工具可以用來創建合成場景(synthetic scenes)。

另一方面,合成數據作為AI領域的新型產業,相關創新創業方興未艾,合成數據創業公司不斷湧現,合成數據領域的投資併購持續升溫。據國外研究者統計,目前全球合成數據創業企業已達100家。在過去的18個月,公眾視野中已知的合成數據公司融資總額達到3.28億美元,比2020年高出2.75億美元。

看起來,合成數據是對真實數據稀缺性的重要解法,但這並不代表合成數據毫無問題。首先,雖然高質量的合成數據集不僅可以作為真實數據集的補充,更可以作為訓練人工智能模型的主要數據來源,但在全面應用合成數據集之前,需要充分研究合成數據集與真實數據集的差異,從而避免應用合成數據集帶來的偏差。因此,如何評估合成數據集與真實數據集的差異仍是一個有待解決的問題。

其次,合成數據仍存在「非自然數據」的問題。目前大多合成數據技術是基於統計機器學習方法的,由於經典統計學只關注了數據中蘊含的相關性,而忽視了因果性,因此有可能會生成不合邏輯的數據。比如,合成圖像中可能會出現具有異常背景的圖像,這類數據被稱為「非自然數據」。「非自然數據」對智能算法的影響目前仍然未知。刻畫影響的邊界並提早思考應對辦法將會是合成數據能否進入風險敏感領域的關鍵。

最後,合成數據仍然涉及的隱式隱私泄露問題。雖然「合成數據」並不由某個用戶產生,但是目前的合成數據仍然需要借用數據來訓練用於合成數據的模型,比如生成對抗網絡。由於生成對抗網絡結構的複雜度較高,因此在模型訓練的過程中,存在記憶原始訓練樣本分布的可能。已經有最新研究結果表明,可以通過合成的數據反向推斷出原始訓練樣本。所以,數據合成技術存在上述「隱式隱私」泄露問題,如何更嚴密地保護隱私仍是有待探究的問題。

從數據到合成數據,當人工智能能夠合成數據,並使用它來繼續自我改變,這可能會使迫在眉睫的數據短缺變得無關緊要。對於人工智能來說,這將代表下一次的飛躍。-(文:陳根/鈦媒體)