圖靈諾獎得主等大佬齊聚海澱!清華版Sora震撼首發,硬核AI盛會破算力黑洞-(2)
如果我們可以將文本、視頻之類的數據,能夠將其放在一個表格當中,那將會大大降低ML門檻。
就在這個月初,國際上第一個AI「非結構化數據庫」MyScale正式宣布開源。
通過自研高性能和高數據密度的向量索引算法,成為目前綜合性能最好,功能最強的AI數據庫。
LLM+大數據雙輪驅動
那麼,現在有了如上這些能力,接下來可以做什麼?
或者說,下一個技術路線是什麼?
當我們將所有數據放在「數據庫」中,基於此,就可以構建各種各樣的小模型,由此產生了「模型庫」。
最後,就可以通過操作系統對模型進行調度。
這樣的優勢在於,不僅可以將所有結構化數據,以及非結構化數據,放在同一個數據庫中,還能通過常見的SQL語言實現搜索查詢。
此外,還可以很高效地訓練出小樣本的數據模型。與訓大模型不同,訓練小模型,如何選取數據是非常困難的。
比如針對自動駕駛場景,無用樣本只會影響模型的效率和精度問題。
有了AI數據庫,就可以快速獲取相應的樣本數據,比如紅燈、左轉彎等。
由此一來,訓練後的自動駕駛模型,準確率可以提升50%-90%。
除此以外,模型管理平臺,可以提供對模型全周期的管理。
一個很典型的場景是——政府智慧城市管理,以前遇到的是數據孤島的難題,到現在的模型孤島。
每個企業基於不同的模型做一個應用,由此帶來的問題是,正度很難實現全面、方便快捷的管理。
而雲平臺的出現,可以讓企業基於此做低門檻的開發,根據需求即可調用成千上萬的模型。
而現在,大模型誕生可以大大提升基礎AI能力,還有可以實現具體任務的Agent。
接下來,就可以在原來框架下稍作改動:
- 小模型改成Agent
- 模型生產平臺以預訓練模型作為基座
另一方面,模型操作系統可以將模型和任務完成對接。
比如,把政府的需求梳理後,針對每個需求去做一個模型,結果就會產生很多模型。甚至一個需求,需要做不同的模型。
然而,針對復雜場景,模型操作系統卻很難將模型和任務完成對接。
鄂維南院士表示,「這恰恰是未來大模型能夠提供的真正的核心能力——一個能完全將模型和任務匹配的操作系統」。
另外,大模型還可以和大數據庫進行結合。
比如,鄂維南院士預告的團隊成果——Science Navigator平臺。
它是將所有理工科的文獻塞到一個數據庫裏,由此訓出的文獻大模型,具備了查詢文獻、提供論文寫作靈感等能力。
未來,還可設想將國家圖書館所有資料塞進數據庫中,讓模型釋放出更大的潛力。
總而言之,想要訓出優質大模型,構建一個高效的數據處理的系統,是關鍵所在。
光電智能計算登上Nature
接下來,是中國工程院院士、中國人工智能學會理事長戴瓊海對於光電智能計算方面的介紹。
要說大模型再發展下去,面臨的最大危機是什麼?
大家都知道,答案無疑就是算力和電力的巨大缺口了。
如今,GPT系列的研究,已經累計投入了超過30億美元。