AI大模型仍然只是復讀機?這是螞蟻集團CTO的幾點最新研判
圖片由AI生成
「如果將螞蟻集團的上一個十年總結為金融,那麽下一個十年是科技。」
在近日的螞蟻技術日上,螞蟻集團CTO何征宇發言分享了該公司「未來十年的科技戰略」以及對於AI大趨勢的判斷,並在會後與鈦媒體App等展開了對談。螞蟻技術日源起2015年5月27日,當日因光纖被挖斷,部分支付寶用戶兩個小時無法登錄賬戶,是螞蟻歷史上的一次重大技術事故。
據何征宇介紹,螞蟻集團的長期科技戰略將圍繞兩大技術方向:大模型與隱私計算:
一是重投AI全棧布局大模型,讓AI像掃碼支付一樣便利每個人的生活。二是探索下一代隱私計算技術,讓數據價值的流動像自來水一樣即開即用。
二者構成表裏,包括大模型技術在內,AI本質上是數據驅動,當前的AI大模型正是過去幾十年來積累的數據和知識所湧現的結果。但現在數據孤島化嚴重,如果將數據形容為水流,那麽隱私計算幫助聯通水網的「管道」技術。
螞蟻大模型當下重點圍繞三個應用,分別是「支付寶智能助理」、「安診兒」和「支小寶」,分別定位為生活管家、就醫助理和金融管家。從目前來看,這三個應用均聚焦在to C業務場景,且當前的服務入口較深,並未在首頁顯示。
何征宇表示,大模型仍處於鉆木取火階段,規模落地需要攻堅三大挑戰:可靠性、經濟性、易用性。
鈦媒體App總結了何征宇發言及對談中的核心觀點,略經鈦媒體編輯:
AI,仍然是一個復讀機
在大模型、在AI範式變遷下,最新的一波浪潮跟上一波沒有什麽區別。因為本質上它是數據驅動的AI,大模型今天的出現是一種歷史的必然。它建立在前面的諸多科技突破和創新的基礎之上。首先得有文字把你的知識、經驗傳承下來。近20年來,互聯網讓全世界將近70億人能夠連接起來,這些數據成了我們今天所有大模型最關鍵的原材料。大模型就是通過不斷的吸收數據裏面的知識,才能夠讓它仿佛有了智能。
至少從我的視角看來,今天的AI與人類的差距非常遠。它就是一個復讀機,因為它學的東西不夠多。人之所以成為人是因為人的思維模式或者是智慧,而不只是人會講話本身。
舉個例子,大家看到很多機器人在模擬人的動作,但是它真正是不是學習到我們的腦幹。今天從語言到大腦的數據能夠被AI學習出來,但是腦幹、小腦的數據基本上采集不到的。大腦和小腦之間怎麽配合,跟腦幹之間怎麽配合,人的突發性的反應、靈感是很復雜的過程。我認為我們還沒有到那個能力。所以基於這個理解,我們覺得AI目前來說就是一個基礎技術,它也不是為了代替人。
有了AI,我們的很多產業發生一些效率提升或者一些變化,我覺得就已經非常偉大了,不需要貶低也不需要誇大了。
AI太貴,是由於它不夠聰明,依然在鉆木取火
AI貴有它的原因,我認為今天大模型產生效果的方法,是有點笨拙的、不聰明的。
所謂Scaling law(大模型的 Scalinglaw 最早由 OpenAI 在 2020 年的一篇論文中提出,其內涵是,大模型的最終性能主要與計算量、模型參數量和訓練數據量三者的大小相關,而與模型的具體結構(層數 / 深度 / 寬度)基本無關)其實是在逃避一個現實——我們今天並沒有找到AI產生如此效果的本質原因,或者沒有人能夠用數學的方法去描述它,能夠找到它的規律。
這跟原始人看到了火一樣,因為我鉆木取火了,我看到了火,然後火很有用,毋庸置疑。但是這個方法一定不是最好的方法,我有一個打火機更好了。但是什麽時候發明一個打火機才是一個突破。今天來看,我們依然是處在一個鉆木取火的階段,所以它的成本特別高,你得準備兩根棍子,還得消耗你大量的體力,才能把這個AI這個東西給取出來。所以,經濟性我覺得是一個很大的問題。
AI如果不找到新路,那試圖彎道超車非常難
如果大模型產品要支持億級規模的用戶,這個成本按照今天互聯網的模式其實很難。但是,不代表我們今天要放棄努力,從螞蟻來看我們有幾條路:
第一條是沿著今天這條路,在今天巨大資源投入之下,很多雲廠商的API都免費了,我認為這是一個逆市場的行為,但也代表了大量的資源在湧向這個領域。我沒想到AI時代以這麽快的方式進入到了補貼互聯網時代。但是本質上來講,它的技術價格一定會下降。
另外,我們需要去嘗試尋找一條真正的路,今天站在中國科技的角度,而不只是站在全世界大同的角度,我認為我們迫切需要第二條路。如果我們緊跟著Transformer加英偉達的這套緊耦合的算法結構+芯片的配合上,我們試圖彎道超車是非常難的,我們必須要有新的方法、新的理念、新的探索。
將聚焦原生多模態,聚焦對人的理解
我們很早開始就把原生多模態定為努力的方向,但這不同於谷歌的全模態,因為我們認為我們還是聚焦在對人的理解。我們過去的人工智能發力是在風控領域、人臉識別等領域,對人的理解是我們的擅長所在,我們對多模態的投入也是聚焦如此。AI與人在交互時,如何理解人在幹什麽、如何理解語言、表情和手勢,這就是我們理解的多模態。
因此,今天的標註工作已經不再是上一個AI浪潮裏的CV標註。我們的標註師團隊中裏面有醫生、有投資顧問以及很多專業人士。甚至今天很多代碼工程師就是標註師,或者是人工智能訓練師。我認為這也可能是人類在使用工具上的一個範式的改變——你在標註它時其實就在訓練這個模型,你是在使用一個工具去幫你完成事情,而不是直接去完成某個事件。
數據孤島化非常嚴重,隱私計算是幫助數據傳輸的管道技術
今天來看,數據的孤島化還非常嚴重。此前一個產品形成的數據能夠自產自銷,就像是自家「水井式」的數據使用方式。現在開始有一些跨行業、跨機構的數據流通開始出現,可以類比為「桶裝」,數據可以通過某一種方式讓另外一個行業在多場景裏面得以釋放它的價值。
未來,數據的流通應當像是「自來水網」。水是生命之源,數據也是未來數據經濟之源。打開水的時候你如果還想著這個水從哪兒來的?意味著你的生產力不會得到真正的釋放。所以,我們的願景是,未來應該有數據「自來水網」,數據就像自來水一樣即開即用。在這個過程中,隱私計算是一個管道技術,要能到做到更便宜,質量更好,更安全,傳輸效率更高。---(鈦媒體/作者:蔡鵬程*編輯:劉洋雪/鈦媒體金融)