01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

人工智能時代,如何重構現代數據架構 -數字經濟時代的AI創新探索盛宴

2024091815:58

9月11日-14日,由钛媒體與ITValue共同主辦的2024 ITValue Summit 數字價值年會在三亞舉行。

此次峰會主題爲“Ready For AI”,交流經驗教訓,交叉行業思考,推動創新交易,以創新場景爲基礎,共同探索AI驅動下數字經濟時代的全新機遇,共同打造一場數字經濟時代的AI創新探索盛宴。

大會上,OceanBase CEO楊冰以“人工智能時代,如何重構現代數據架構”的主題進行了分享。

楊冰表示,大數據和數據庫企業得益于互聯網與雲的機遇,迅速崛起,期間聚焦于解決分布式系統帶來的擴展性和複雜性挑戰。AI時代,CIO的關注點已不再局限于這一難題,而是聚焦于如何讓應用和業務實現更好的交互,如何挖掘數據價值,實現更精准洞察。從技術架構角度,其關鍵詞已從“分”切換到“合”,是融合、統一。



以下爲楊冰演講內容,經钛媒體整理:

各位嘉賓,大家上午好!非常開心钛媒體邀請我來數字價值年會跟大家交流。

我今天分享的主題是“人工智能時代,如何重構現代數據架構”。如今,數字化已經不是一個新話題了,有些行業處在在深水區,有些行業則在加速進行數字化轉型。

但今天在轉型過程中,加入了一個超級變量——AI,AI目前突破的形態是語言模型和多模態模型,它的發明改變的不僅僅是人和機器的交互方式。

我有兩個點感觸特別深,第一,AI對于整個物理世界的理解力得到了極大的增強。前段時間,聽說前谷歌CEO在斯坦福的演講很有意思,視頻很長我就先丟給了AI問它:Eric聊了什麽?有哪些有意思的觀點?對此你怎麽看?幾秒鍾後就出來了結果。比如,我剛才出去接了一個電話,漏掉了一段關鍵分享的信息,我可以馬上問AI,剛才我遺漏了什麽信息?這種理解力和效率結合各種場景,就會極大顛覆很多場景的數字化的實現方式,這是第一個感受。

第二個感受是AI正在改變寫代碼的方式,特斯拉的FSD從30萬行代碼簡化成3000行,很多的程序邏輯被模型替代了,這代表著構建數字世界的方式正在深刻變化,AI的能力不再是寫程序時候的一個外挂或者功能強大的函數,而是成爲程序邏輯本身。這僅僅是很小的兩個點,AI能力的突變正在深刻的改變著數字經濟發展的節奏。

在大的變革下,數據架構作爲數字經濟底座,我們將會遇見很多挑戰。第一個挑戰,是數據量的通貨膨脹,現在億級的數據量已經是個普通體量了,很多業務線上化或者數據彙聚後者打通後,自然就到了這個量級。

第二個挑戰,數據孤島和碎片化嚴重,現代應用需要用不同的數據模型來描述業務,比如關系模型,圖,時序,還有向量,底層用了一堆不同的數據存儲系統,但需要分析洞察的時候需要費很大的勁才能將其彙聚,對齊,很多時候這些數據是描述同一業務的不同側面。

第三個挑戰就是數字化後對數據的分析需求會爆發,只將數據存在那裏是沒價值的,只有分析才能挖掘更大的價值,但要想分析的更准確更深刻,數據也需要融合,所以這兩個挑戰的相關性很強。第四個挑戰是數據的安全,越來越多數據被存在雲上,而且目前雲上的安全和容災也比較完善,但安全是個相對的概念,同一朵雲的安全是一套同構系統的相對安全,如果數據極爲關鍵或者業務連續性要求極高,增加異構系統的備份是相對更安全的選擇。

最後個挑戰,是AI快速發展帶來的挑戰,AI會加速數據量增長的速度,也會帶來對數據使用的新要求,我後面會展開來講。

從架構層面的挑戰看,這幾年發展很快,在應用層已經分布式化了,在底層已經雲化,這兩層的戰爭已經結束,形成了標准的模式。在PaaS層,上半場最大挑戰是在解決有狀態數據的分布式的問題,尤其是數據層的軟件更是如此。

而隨著AI入局的下半場,我認爲主要的趨勢是讓系統具備 “分”的能力的同時,消除 “分”帶來的複雜性,尤其是讓數據能融合,架構能統一。

對于能應對這些挑戰的現代數據架構,全球領軍IT的的踐行者們有很多的共識,無論是老牌的IBM還是雲時代的領軍者AWS,還是數據領域持續領跑的當紅炸子雞Snowflake,他們的觀點有很多的共識,比如應對數據孤島、跨雲部署、多模態數據的處理,對AI/ML的支持、數據的實時分析能力等等。

Gartner在今年的Hype Cycle for Data Management的報告中提到,全球最領先的數據管理軟件公司有四個特點:第一,必須在雲上;第二,其産品線中一定有領先的數據分析類産品,承接持續增強的分析需求;第三,支持多模態數據類型的存儲;最後是開源。

作爲OLTP方向的數據庫,我們也非常認同這幾個方向,站在數據庫的角度總結了五個點,前面幾個是比較共性的就不展開講了,稍微解釋下後面三個:多模融合是指,未來的數據存儲應該是同時支持關系模型,KV模型,向量、地理位置、時序等不同的數據模型的一體化架構,避免數據的割裂和碎片;開放和靈活性是指對不同基礎設施的支持,架構開放解耦不綁定任何底座和硬件,支持異構的雲,也支持雲和IDC基礎設施長期並存的情況。

SQL和AI融合主要指AI能力在數據庫層的融合,會體現在SQL交互層,運維效率提升方面,後面會展開。

現代數據架構的演進也分上半場和下半場,上半場的主題是雲和分布式,中國能發展出一批優秀的數據庫公司,具備世界領先的能力,也得益于上半場中國在互聯網和雲計算方面的高速發展。

雲的上半場,數據架構的核心問題是如何在解決數據分布式的情況下保持一致且成本最低;具備極強的彈性擴縮容能力,能做到不停機不打擾業務;在出現故障後又自動恢複確保業務不中斷;這些都是現代架構下數據庫的必答題。

當年支付寶被挖斷光纜,倒逼我們實現了多地多活架構架構,雙十一的流量洪峰倒逼我們解決了極致彈性和高並發分布式事務問題,這是上半場解決“分”的創新,我認爲上半場滿足了雲時代的需求,今天全面適應和擁抱AI時代數據架構應該走向何方?

在下半場,分布式帶來的擴展性、成本、複雜性,已經不再是問題,從技術的架構角度來看就應該合並同類項,消除不必要的數據碎片和重複建設。

未來的應用重點和CIO關注點不應該是分布式如何擴展,而是應該把精力放在關注在如何讓系統和客戶之間有更好的交互方式,應該放在如何把數據的價值挖掘出來,數據只有融合、交叉才會有更精准的洞察。

我們現在從“分”慢慢走向“合”,從産品、引擎、存儲架構上走向統一和融合。我旁邊放了一張圖,這是三代SpaceX的猛禽引擎的架構演進,從雜亂無章到極簡主義,工程的難度增加,但是簡單並不意味著弱小,V3相比V1增加了1000多噸的推力。

我們如何在複雜場景下,讓AI更好地用融合的數據給上層應用提供價值,同時屏蔽複雜度,這是所有數據庫公司發展的必然趨勢。



接下去給大家分享幾個一體化數據架構的場景,一個是交易和分析的融合,這種場景有三種場景的情況,一種是實時報表,一天後的報表可以一小時內就看到,但在線庫支持交易和離線庫支持報表已經有兩套體系了,是不是還需要爲小時級的報表再建第三套數據?

另一種情況是在零售行業中,同一套進銷存的系統白天支持交易,晚上盤點分析庫存,銀行裏白天交易晚上跑批的場景也是類似的,在很多場景裏僅僅是在不同的時段支持不同的負載,但表結構和數據集是同一套,爲此往往需要搭建兩套數據存儲和一套數據同步系統,是否能讓架構變得更簡單?

最後一種情況是一邊在線上做實時交易,一邊做營銷,兩種負載同時進行,如何根據交易的情況分析洞察,給用戶最精准的優惠券。

實時風控也類似,能不能通過實時分析對幾分鍾之前的交易特征做出反應,更新風控模型識別出新的風險。

在這些場景中,如何把多套體系並到一套裏,提供更實時性更高,成本更節約,效率更高的數據架構方案,這正是OceanBase在做的。

除了多負載外,多模態的融合也是類似的。KV模型是最常見的數據模型,HBase裏大寬表和Redis裏的KV緩存應用極爲廣泛,這些場景往往是受制于原來TP庫的一些限制,複制了一份數據出去,做緩存加速或者是多維數據的存儲和分析,如今在TP分布式數據庫在同一個底座上可以通過增加一個接口就能實現一樣的效果,省去了增加一個數據庫的成本開銷和複雜度開銷簡化了技術棧,而且數據會更一致,更實時。

當然,即便是單獨用于 KV 場景,在部署和運維上也是更加簡單的。

另一個場景是在融入AI的能力下,能融合更多類型的數據進行智能查詢。

AI與SQL結合主要是兩個方面,一個是AI for DB,一個是 DB for AI,前者是指在 AI 的助力下,運維和SQL查詢是否能更智能,在這LLM出來後有了更多的探索空間,比如結合AI的智能提示和優化,如何在 SQL 的編輯器中更高效的寫出優雅,精准的SQL語句,如何結合很多診斷分析的知識、決策模型和數據來在SQL的問題診斷中給出更准確的問題分析,甚至如何用AI來做資源管理,這些都是目前我們在探索的,這個今天不展開。

另一個方向是看數據庫能爲AI的場景做什麽?現在最流行的就是向量數據庫,是AI時代最關鍵的數據存儲,是將物理世界轉化成數字世界多維度描述的數據模型,這種模式非常適合計算機認知、對比和計算,尤其對非結構化的圖像、視頻、音頻數據,因爲AI能力的提升,使得對這些數據的理解的准確性極大的提升,從而反過來促進越來越多場景會融入向量數據。

相比于傳統的結構化數據的描述和處理,向量模型的描述並非精確,也更多用于非結構化數據的存儲,但有時候這種描述更符合與人類的交互的習慣,比如這東西看起來不錯,看起來很像,更多人喜歡……這些都不是精確的描述。

有了這種能力,很多的業務的場景以及跟人的交互會變得更加自然,更能結合結構化的精確的信息和非結構化的模糊的描述來表達和處理數據。

我們來看這樣一個場景:查詢離我最近的,評分四分以上的奶茶店中評價最好的,且價格實惠近期熱銷的奶茶。離我最近是GIS信息,一種地理位置的結構化描述,而“評價最好“可能會是一個非常綜合的數據彙總出來的結果,可能有文本,有客戶上傳的視頻和圖片,也有結構化的打分,還能還會有語音評價,可以將這些信息做向量化處理做一個綜合的評價;價格實惠且熱銷這些就是實時的銷量分析和庫存查詢了,是典型的OLTP的範疇。

這樣一個場景往往需要2~3種存儲系統相互配合,但今天我們可以通過一種存儲系統就搞定,這是我們在分布式的底座上加入更多的能力,甚至加入向量化的能力帶來的結果。而目前向量的存儲將越來越廣泛的應用在AI Native 的場景中,而且往往是需要跟其它結構化的存儲配合使用才能有更大的價值。

OceanBase通過插件化的機制將螞蟻內部在人臉支付和安全風控下孵化出來的向量庫VSAG融入到了分布式數據庫的存儲引擎中,達到了強強聯合的效果。

一方面OceanBase的底座本身對于存在這種數據量較大的數據有很大的性價比優勢和擴展性優勢,而這個向量類庫的算法也是在螞蟻自身的海量業務場景打磨的産物,跟OceanBase在雙十一打磨一樣,經受了苛刻且持續的打磨。

這裏暫時先不展開介紹了,我們會在下個月的發布會中正式發布這個能力,敬請期待,這個類庫本身是獨立發展且開源的,大家如果感興趣可以下載來研究。

還有一種一體化體現在異構基礎設施上靈活部署的多雲原生能力。

上雲是一個明確的方向,雲原生也是上雲後架構層面上的最佳實踐,雲的本質是資源的池化和超賣,而雲原生架構的本質是如何充分利用池化資源的基礎件:計算、存儲、網絡來構建上層應用,而不只是用了個容量固定的虛機。

而多雲原生的本質是在遵循雲原生架構的基礎上,做到底座異構性、無關性,以及用戶對開發者體驗的一致性。

我們正在跟一個全球知名的快消品客戶合作,他們有上千家門店都運行在一朵雲上運行,但今天的業務要求更高,也許這幾千家門店碰到極端的情況下,有可能停服,這是企業無法接受的。

但即便是雲出了問題,應該是局部區域,如果在異構的朵雲上建了10:1的容災集群,確保一個雲出問題時可以很快切換到另一個雲上,確保一個雲單獨的機房出問題時,1/10的流量承接得住。

OceanBase在這方面可以平滑無感的幫助大家解決這樣的問題。在整個架構上,如何做到一體化,對上對下對于整個應用,提供現代化架構的能力,這是確定性的方向,也是這種多雲原生架構的數據底座提供的價值。我們相信,多雲原生一體化數據庫 必將助力更多企業構建現代數據架構,解決更多的實際需求。

這裏,快速分享幾個我們正在做的案例。我們在金融、政企方向有大量的客戶累計。對于OceanBase來說,過去十年在互聯網的高速發展,得以在這個大的命題下,生長出一個新的底座。

今天這些場景,是幫我們把上半場打磨出來的技術,做成一個商業産品的好機會。這不僅是數據架構中最爲關鍵的場景,也是人們生活中最關鍵的場景。

OceanBase本身的高性能、高可用和穩定性可以很好的支撐銀行、運營商等行業的核心場景,但如何讓這些傳統的架構比較平滑的遷移到新的底座,我們做了大量的工作,在對Oracle、MySQL的兼容,遷移和並跑的體系上打造了完善的能力。

目前有近百家銀行和大量的頭部保險、證券公司的系統遷移到了OceanBase上,資産超萬億的銀行已經超過了20家,超過1/3的機構已經或者正在開始用OceanBase來升級他們的核心系統。在運營商行業,我們支持的幾個大的省份已經覆蓋了全國3/5的客戶了。

很多政企和金融客戶沒有想到的是,OceanBase這種新的架構,不僅提升了擴展性和可靠性,還通過高性價比的壓縮技術、多租戶技術等使得新架構下計算和存儲的硬件成本反而更低,整體TCO下降20%~30%,存儲成本下降60%~70%。

比如交行在從大機和DB2遷移到雲和分布式數據庫的過程中,整個擴展性得到極大的提升,具備按需線性擴容的能力,更從容的應對日常的小型業務的大促,也讓每日的批處理作業從十幾個小時縮短到1~2個小時,通過分布式架構充分發揮出系統的並行能力。

在走進千行百業的過程中,我們觀察到一個現象,在數字化轉型的上半場,大家都在複制互聯網架構,互聯網技術很好,但比較百花齊放,每一種技術都能在特定場景很好的解決特定問題,但整體能配合協調好並不是件容易的事情,需要投入不少的人力和精力。

但互聯網的規模效應使得這樣的投入變得可能,其ROI也值得爲此投入一個不小的Infra團隊來開發和維護這些技術,甚至可以外溢孵化出像雲計算平台,數據庫這樣的底層技術産品。

但在其它行業落地的時候,這些技術的複雜度帶來的成本和效率上的問題會變得尤爲顯性化,使用這些技術紅利的同時也承受著它的複雜度和多樣化,雲計算通過Service的方式解決了一部分,而在數據層我們也逐步意識到用一體化化的數據架構來抵消這種複雜度會是一個正確的方向。

我們開始嘗試用一體化的方式,既在解決上半場由于“分”帶來的問題,屏蔽掉“分”的複雜度,保留分布式帶來的技術紅利。同時也爲企業迎戰數字化下半場做好准備,讓數據有機的“融合”在一起,讓數據的管理更簡單,洞察更高效,爲DATA+AI時代更好的挖掘數據的價值,提供一個更高效的底座。

OceanBase非常幸運,趕上了時代發展的紅利。而數據庫的發展在經曆由“合”到“分”,再由“分”到“合”的演進過程。

過去十年,第一個階段數據架構面臨的問題更多體現在“多”和“分”兩個關鍵字上,比如說場景多、數據多、引擎多,我們通過分布式解決這些問題。在計算架構上有流、有批。在數據存儲上有多樣化的數據,但複雜度非常高,尤其是在AI時代,深度的處理和高效處理這些數據的代價是比較高的。

同時,對于千行百業來說駕馭和管理的成本也比較高,所以自然而然架構就慢慢的走向了“合”的過程。

在AI新時代上,體現出兩個關鍵詞,一個詞是“融合“,前面的這些數據結構已經穩定了,哪一種最適合描述物理世界的什麽場景,優劣勢是什麽,都有非常豐富的最佳實踐了,但如何在一個底座上解決大部分的問題,這是新的命題。

在計算架構上,無論是流還是批,這些處理的範式已經比較成熟,但流批一體甚至是融入圖計算後的一體化計算框架如何實現,哪一種方式效果最好,還是一個在持續探索和叠代的命題。

但無論是存儲還是計算,都在往一體化的方向發展,這就是最大的共性,是分久必合的趨勢。第二個詞是AI,AI提升了計算機對數據的理解力,擴展了能夠處理的數據類型,極大增強了數據的處理效率。

這三個方面在非結構化數據上尤爲明顯,比如圖片、視頻、聲音,而這些也是物理世界轉換到數字世界最快最原始的方式,一但這些數據能被快速處理和挖掘價值,數字化的進程會進入快進模式。

而AI能力的加持和這些需求的爆發,會進一步促進計算架構和數據架構走向一體化。

未來,如何讓一體化架構更優雅、更簡單,是我們這些數據服務商不斷探索的命題。

而如何在融合一體化的架構之上,更好地用AI賦能的方式,挖掘數據的價值,並賦能業務,是每一位企業家和CIO們,都要思考和解決的大命題。---[來源 :  钛媒體/OceanBase CEO :  楊冰/2024 ITValue Summit 數字價值年會]