01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

云上的米開朗基羅:在不確定時代,尋找建築般的確定性

2023011720:21

文藝復興三傑之一的米開朗基羅,被稱為「天才建築師」。其實他一生留下的建築並不多,僅僅有美第奇禮拜堂、卡比多廣場、聖彼得大教堂穹頂等寥寥幾座。但米開朗基羅卻憑藉對建築層次與結構的精妙把握,影響了此後數百年的建築風格。很多人認為,米氏特別擅長在立體的空間與繁雜的結構中,尋求建築的最大確定性。得益於此,像聖彼得大教堂穹頂這樣原本被認為不可能的作品才最終問世——探尋確定性,也就此成為建築設計師的目標之一。

在今天,數字化和雲化正在容納一切。每天,不計其數的硬件連接雲端,軟件完成雲上開發、迭代。這讓雲端變成了一個空前複雜的賽博空間,同時也產生了海量的不確定性。但是,這種不確定性又是必須被治癒和解決的。根據GIV預測,至2025年,全球企業雲技術使用率將達到100%。全面雲化的不可逆趨勢下,企業必須確保自身數字化、智能化過程中的安全、穩定與可靠。


(華為雲貴安數據中心)

誰來再為全球企業尋得雲時代的確定性呢?答案是運維團隊。

過去,我們普遍認為運維應該是消防員,哪裡着火撲滅哪裡;但在雲時代的浩瀚業務與海量數據面前,這種模式顯然杯水車薪。於是,SRE應運而生,雲服務商和企業用戶開始追尋確定性的運維價值。運維人需要成為「雲上的建築師」,去設計可靠的建築結構,去預知建築可能面臨的種種風險,去構建安全與穩定的結構閉環。

在這樣的背景下,華為雲SRE團隊,是國內成長最快、發展最好的SRE團隊之一。他們不僅肩負起了華為雲業務體系的運維確定性,同時還為行業帶來了充沛的溢出價值。

今天,我們走進華為雲SRE,去了解一個運維人從消防員變成建築師的故事,一個如何成為「雲上的米開朗基羅」的故事。

圖紙之下:不確定性疊加的雲紀元

SRE,即Site Reliability Engineering,站點可用性工程師。這個概念起源於2003年,主要針對傳統IT運維中人工為主的操作模式,希望以整體設計、自動化工具取而代之。簡單來說,SRE的核心就是用軟件而非人工,來解決運維與安全問題。

當時代的鐘擺悄悄迴蕩,SRE的價值愈發凸顯了出來。因為在不經然中,我們已經來到了一個不確定性疊加的雲紀元。

一個全雲化的業務與服務系統,究竟會面臨多少安全問題?可能誰也無法給出精準答案。網絡異常、軟件故障、流量洪峰、硬件老化、機房斷電,都可能帶來一次運維問題。甚至一次技術人員的崗位調換,都可能造成意想不到的考驗。



而伴隨着雲原生的落地,雲上承載的軟件開發與業務上新更加頻繁。增加新的業務模塊,也將考驗現網的穩定性與可靠性。隨着雲上軟件開發與業務迭代成為常態,運維效率會成為考驗運維團隊與運維能力的最大難題。

另一個雲時代的不確定性,來自雲計算網絡急速發展。隨着現網規模的不斷壯大,雲服務體系連接的計算節點、用戶節點都在不斷增多,同時參加運維的人員規模也在不斷增加。這種網絡規模擴張,讓運維不確定性呈現出幾何級增長。傳統意義上「頭疼醫頭,腳疼醫腳」的運維模式,將難以抵禦網絡規模的海量衝擊。

這種情況下,就需要有一種工程性的方法,可以在承認這種不確定性的前提下,依舊能夠保障雲服務體系的穩定可靠。比如說,讓運維能力參與到前端設計中來;強化運行中的動態風險治理;建設高可用,可用容納故障與風險的業務架構——這些方法的統合,就是SRE。

或許可以這樣理解,SRE就像是在充滿不確定性的雲時代,畫上一張確定性的建築圖紙。它不是具體解決哪個運維安全問題,而是帶來宏觀的安全與可靠。

華為雲SRE,就是看到了這種必然趨勢,同時積極進行了嘗試與探索。

建築師的眼與手:先一步成長的華為雲SRE

未來,雲計算將會像水、電一樣觸手可及,隨取隨得。這個結論可以推導出一個必然:雲計算體系,必須像電網、水網一樣安全可靠。如今,我們再也不會常備蠟燭,預防停電。這背後的努力,是電網進行了大量運維工作來保障高可用——雲計算也將如此。

在華為雲的眼中,這個結論清晰可見。於是華為雲自成立的那一天起,就成立了SRE團隊。SRE負責維護華為雲的整體質量,看護整個雲計算網絡的安全與穩定運行。



(在新華社智庫《中國雲計算創新活力報告》中,華為雲斬獲安全可靠能力排名第一)

如今,華為雲SRE這位建築師,已經用雙手畫出了一張宏偉的「確定性」建築圖紙。在全球範圍內,支撐着華為雲在全球170多個國家和地區,超過240個雲服務、370萬開發者和海量企業業務,以及百萬級別的節點實例。這樣龐大的業務藍圖,都需要SRE團隊統一參與開發與部署規範,確保上線運維安全。

在這個過程中,華為雲SRE的「看家法寶」,就是構築了華為雲的高可用架構,讓雲服務在產品開發的前端就具備高可靠、高可用特性。整體而言,高可用結構在應對故障時可分為三個維度考量:首先是軟件具有確定性的失效率,確保不會頻繁發生故障,將軟件問題控制在一定範圍之內;其次是給出確定性的恢復時長,明確可以在怎樣的時間之內進行業務恢復;接下來是構築確定性的爆炸半徑,確保單點的故障擴散範圍有限,只影響到很小的範圍,而不影響整體業務。

在這樣的架構下,最終華為雲SRE實現了將可靠性、可恢復性、影響範圍控制的特性全面融入,真正面向萬千企業提供安全、可靠、高質量的服務承諾。從實際結果來看,在近幾年華為雲業務高速發展的同時,其出現的故障概率與故障烈度顯著低於全球主流雲廠商。或許可以說,華為雲SRE的運維能力做到了與公司業務規模一同成長,甚至先一步成長。



米開朗基羅的「溢出」效應:讓千萬企業從SRE中受益

我們知道,數字化技術會在發展到一定程度時,出現明顯的「溢出」效應。比如說數字化價值賦能,就從虛擬經濟溢出到實體經濟,帶來了「數實融合」的發展契機。

對於華為雲SRE「建築師」們而言,其也在雲上運維的探索上展現出了明顯的「溢出」效應。

華為雲SRE的基礎價值,就是通過確保華為雲服務與網絡的穩定,帶給客戶更好、更優質的雲體驗,尤其是在Devops 的場景下,保障了華為雲用戶敏捷創新、快速迭代的開發模式。讓用戶不僅能夠上雲,還可以有質量地用雲、有保障地用好雲。

再向前走一步,華為雲SRE通過服務客戶與無數應用的經驗總結,提出了「確定性運維」的發展方向與方法論,繼而梳理出適用於雲上業務的「確定性運維」能力體系和成熟度模型,供千行百業的企業進行參考。

這一業界獨有「確定性運維」能力體系成熟度模型包含:第一級基本運維,即基礎運維的能力構建,以此確保業務基本生存;第二級標準化運維,其能夠將運維帶到更加規律、規範的發展階段,確保業務的穩定可靠;第三級SRE轉型,意味着運維團隊開始從「消防員」轉型為「建築師」,開始勾勒整體的確定性運維藍圖;在第四級,企業獲得SRE帶來的初步確定性,而到第五級企業將獲得高度確定性。


在可見的未來,大部分企業都會上雲,每一家企業都需要開發、運營軟件的時代裡,確定性運維可以說是一種剛性需求。即使每家企業的業務訴求與業務種類不同,但對穩定可靠的追求其實是高度統一的。

面向這一趨勢,華為雲SRE的一系列自我成長,都可以變成賦能萬千企業的成熟價值。比如,通過智能運維工具提升組織的效率和可靠性;通過全質量管理的流程理念,形成組織人員管理的可控性;運維團隊變成設計師,參與前端標準設計,構築高可用架構。

這些由華為雲SRE綜合和探索出的技術與方法,或許是每一家企業的決策者、管理者,都應該看到的現實價值。

在全雲化紀元,每家企業都需要運維能力的提升,那或許每家企業也都可以成為「雲上的米開朗基羅」。SRE的核心文化,依舊需要各界攜手去探索和發揚。但就像運維所需的確定性那樣,SRE探索對每家企業的未來價值來說,也是充滿確定性的。-腦極體-