數據流通難題待解,萬億市場爆發,誰來保證安全?
在某個隱私計算脫口秀活動中,有人提出:「讓大媽在社群傳播的內容從搶購雞蛋變為隱私計算」。這是個相當炸裂的想法。
你和大媽講隱私計算,大媽可能並不會care,順便向你發問,什麼隱私?什麼計算?別耽誤我通知姐妹們搶蛋。但殊不知,我們早已被大數據包圍,每個個體都是數據的生產者,大媽們經掃碼而輕易交付的個人隱私數據也不只是幾個字符那麼簡單,其產生的價值,遠遠高過換來的一盒雞蛋。
類似大媽搶雞蛋的場景在生活中每時每刻都在發生,逛街購物時加的導購的微信、關注的商家公眾號,刷抖音快手時瀏覽過的視頻記錄,淘寶美團買過的衣服、下過的單……這些都會變成無形的數據資產留存在商家平台上。據測算,預計到2025年,中國產生的數據總量將達48.6ZB,約占全球的27.8%。
數字經濟發展迅猛,數據也已經成為社會生產發展重要的生產要素。去年年底,中共中央、國務院對外發布了《關於構建數據基礎制度更好發揮數據要素作用的意見》,又稱「數據二十條」,提出構建數據產權、流通交易、收益分配、安全治理等制度,初步形成我國數據基礎制度的「四梁八柱」。
由此可見,整個數據從確權、交易、收益的分配到安全的治理都是國家非常關注的問題。而涉及到我們生活中的各類數據生產和使用場景,數據要素價值的激活和數據流通過程中的安全、可信則成為一直以來的討論焦點。
數據流通待解難題:打破數據孤島
為了數據能真正作為生產要素被用起來,其實在國家層面就已經從數據安全入手實施。黨的二十大報告也明確了數據安全與經濟安全、金融安全、網絡安全同等的地位,在政府工作報告方面也是連續三年提及,關注度逐年增強。法律法規上有《網絡安全法》、《數據安全法》、《個人信息保護法》三法聯動,此外還推出了部分行業數據安全標準的制定與相關政策規劃。
在法律法規的前提下,做好所有的數據在安全方面的分類分級,有利於進一步釋放數據要素讓其流通。但真正打破數據孤島,讓數據被很好的使用起來,分類分級工作只是第一步,打破數據孤島才是潛藏在數據流通全生命周期的難點問題。
以國家微生物科學數據中心為例,他們的數據中心目前承擔着中國科學院微生物科學數據中心、中國科學院戰略生物資源信息中心、以及中國科學院所保藏所有生物資源類型總的數據中心。
與日常生活產生的數據不同,微生物數據是對國家、甚至是人類本身而言尤其特殊的數據。青黴素使人類認識了抗生素家族,其誕生使整個人類的壽命延長了20歲,這是微生物做好事的最典型的例子。微生物又做了很多壞事,每幾十年就有一個重大的微生物疾病的產生,新冠到現在來看有7億人確診、700萬人死亡,這也是小小的微生物帶給人類的災難。
微生物和我們息息相關,無論是好的方向還是壞的方向,對於微生物的科學研究發展都離不開海量數據做支撐。國家微生物科學數據中心承載着眾多微生物數據,如何更好地運用這些數據內容,在數據安全的基礎上實現數據的互聯互通,從而有效釋放數據價值?隱私計算功不可沒。
「所有的這些數據的涉及面其實比想象中更廣,它們不是來自於某一個單位或者某一個部委,而是多渠道的數據的產生,如科學的數據、開源的數據、政務的數據。但同時,這些數據都有很重要的共同點:要求安全、可溯源,並且希望數據可用;此外,最後分析的結果也需要準確,所以還需要很好的標準等等。」國家微生物科學數據中心馬俊才主任表示。
馬俊才主任所在的微生物數據領域只是一個縮影,金融、政務、能源、製造等行業都存在數據孤島現象。「我在青海參加中國科學技術和信息化會議的時候,有位專家就說現在的科學數據不是給的太多,而是太少,其實很多研究都需要國外覺得已經開放但是國內還沒有開放的數據。」談及數據安全流轉難題,綠盟科技集團首席創新官劉文懋博士也表示。
之所以存在數據孤島,總結下來:第一是數據存儲風險,如被拷走(全盤掃描)磁盤文件或進行虛擬機鏡像;第二是數據計算風險,如dump內存獲取數據、計算不可信;第三是數據傳輸風險,簡言之即數據在傳輸過程中被泄露;第四是內部安全運維風險,通常是內部員工權限設置有漏洞,出現「一次授權,永久訪問」。
問題存在,但數據流通的價值也很可觀。有業內人士曾直言,數據本身的流轉創造出來的價值非常大,市場可能在萬億級別。
為了讓數據充分釋放價值,如何打破數據孤島的問題隨之被提出。
打破數據孤島,解鎖萬億市場
「雖然有的數據沒辦法直接拿到手,但是有沒有可能通過技術手段,讓數據不在手中但能被用起來,做到數據的安全計算與安全流轉?」
目前,學術界、工業界做的比較多的是隱私計算,在保證數據,特別是敏感數據「可用不可見」的前提下實現數據互聯互通。通俗理解隱私計算的實現意義是:我們使用數據時看不到數據本身,原始的數據不會給到用戶,但用戶能夠拿到計算結果。
馬俊才表示,對於打破數據孤島,實現上文他所說的對數據內容的要求,在技術上也有不小的挑戰。所以在數據安全上,經過多方合作,形成了一系列的數據安全環境。
「合資夥伴通過這個平台可以在我們平台上傳需要進行分析、比對的模型,然後因為我們合作的是基於國產硬件和國產軟件可信的計算環境,我們可以把相應計算的功能、數據的服務、可信計算環境在這個『可信執行環境』下有效的去實現。」在馬俊才所說的「可信執行環境」,則是隱私計算的其中一個技術實現方式。
其實,現在行業內主流的隱私計算技術主要分為三大方向:基於現代密碼的聯邦學習、基於協議的多方安全計算、基於硬件的可信執行環境。不同技術往往組合使用,在保證原始數據安全和隱私性的同時,完成對數據的計算和分析任務。
隱私計算技術三種方式的特點
總的來說,以上三種隱私計算的技術路線都存在各自的優勢與劣勢,聯邦學習(FL)、多方安全計算(MPC)基於軟件和協議的方式確保隱私性,其弊端在於需要對算法進行重構,成本比較高,且大量的複雜計算還存在較大的性能瓶頸,難以大規模應用於實際場景;可信執行環境(TEE)計算成本相對低一些,不過需要硬件條件。
但是總體而言,基於可信硬件實現的方式能在保證計算效率的前提下完成安全計算,且大規模應用落地能力更強。
虛擬機級別TEE技術或會改變行業生態
俄羅斯自然科學院外籍院士、中國電子信息產業發展研究院副總工程師劉權認為,「可信執行環境 (TEE)技術和產品加速落地」是數字安全技術發展十大趨勢之一。
隨着TEE技術的發展,目前行業內發現了或會改變行業生態的有利機制:在TEE芯片上跑虛擬機,即能夠在虛擬機裡面部署應用、中間件和各種數據庫,而不改變它本身的邏輯。
劉文懋博士告訴鈦媒體App,目前有AMD SGX和海光的CSV技術,能夠實現虛擬機級別TEE。以前ARM的TrustZone、英特爾的SGX為代表的進程級別TEE,其因為升級而需要對程序多方面進行重新改造,成本非常高,現在通過虛擬化、甚至通過容器的方式,不僅可以大幅壓縮成本,還能與敏捷開發DevOps實現閉環,開發出來的鏡像可以直接放到TEE環境中的倉庫裡面供可信容器啟動。這個模式下沒有任何的改造成本,技術能夠與用戶場景很好結合。
不過,TEE技術尚未完全標準化讓相關產品的應用落地很難按下加速鍵,這也是業界致力於解決的問題。不同廠商使用的處理器存在差異性,並不能完全兼容,讓產品開發者和應用者雙方面臨額外的使用成本與學習成本。
不過,在產品側和應用側,中國信通院形成了一套「可信隱私計算評估測試」,其中會圍繞多方安全計算、聯邦學習、可信執行環境、區塊鏈輔助隱私計算四個技術方向,對參與測試產品的功能、性能、安全、場景、一體機等進行專項測試。
規範測試的好處則是有利於技術提供方與應用需求方產生互信,一方面有利於推動技術提供方緊密貼合實際,讓測試產品落地應用,另一方面讓需求方形成對隱私計算各類產品的框架、技術要求、測試方法的統一共識,減少信息壁壘。
鈦媒體App發現,通過評估測試的企業包括了螞蟻集團、騰訊雲、百度、阿里、華為、火山引擎等巨頭互聯網公司,綠盟科技、安恆信息、亞信科技等專注安全賽道的公司,微眾銀行、招商銀行、中信銀行等金融行業的公司等等。可信隱私計算的應用也已經從金融、政務、通信、互聯網、醫療等傳統場景擴展到能源、工業、教育、廣告、跨境流通等新興領域。
隨着隱私計算應用不斷落地,場景版圖持續擴張,或許有一天你正打開手機準備掃碼,旁邊「大媽」湊到耳邊來一句:「你知不知道隱私計算?每天搶雞蛋不用擔心數據被濫用了。」-(鈦媒體*作者:賈雨微*編輯:秦聰慧)