01-神魔宇宙 ***宇宙天國首部曲 彌勒天書閣 https://maitreya-books.com/ 神話從來就不是怪力亂神,而是原始先民在日常生活情況的觀察之中,所建立的真實認知。唯有相信神話中的真實,才能感受到神話的詩意隱喻背後,所具有的神聖力量。打開你的想像,打開你的相信,你才能知道神話告訴了你什麼宇宙生命的資訊。 生命起源於宇宙之中,生長於宇宙之中,結束於宇宙之中,因此,宇宙的起源就是生命背景的起源。生命形成的每一個階段,其實都在述說著生命的本能,也就是生命本就存在的一種力量,在此雖是說明一種狀況,然而將這狀況投射在生命的生活行動之中,你就會明白自己究竟有哪些不可思議的本能!

Meta兩個豪華AI集群曝光:每個配備2.4萬塊英偉達H100,價值幾十億

2024031317:34

3月13日消息,美國時間周二,Facebook母公司Meta公布了兩個數據中心規模新集群的技術細節,它們各自擁有超過2.4萬個GPU,並在硬件、網絡、存儲、設計、性能和軟件等方面上,專爲支持大型語言模型如Llama 3進行訓練而深度優化。

這兩個新集群基于Meta先前研究超級集群(RSC)的成功。RSC自2022年啓用以來,已展現出強大的計算力。

在硬件配置方面,每個集群都配備了24576個英偉達Tensor Core H100 GPU(每個數萬美元),與之前使用的16000個英偉達A100 GPU相比有了明顯提升,這將極大地促進自然語言處理、語音識別和圖像生成等人工智能研究和開發工作。

Meta表示,這種升級不僅在數量上有所增加,其性能上的躍進也將支持更大、更複雜的模型,爲生成式人工智能産品的開發鋪平道路。

Meta計劃在2024年底之前,將其人工智能基礎設施擴大到高達35萬個H100 GPU。目標是擁有相當于近60萬個H100 GPU的算力。



圖片來源:Meta官方博客

雖然兩個新集群的GPU數量相同,但它們在網絡基礎設施方面各有差異,均支持400 Gbps端點之間的互聯。其中一個集群采用了基于Arista 7800交換機配合Wedge400和Minipack2 OCP機架交換機的遠程直接內存訪問(RDMA)和融合以太網(RoCE)網絡解決方案,而另一個則應用了英偉達Quantum2 InfiniBand網絡架構。

值得一提的是,兩個集群均基于Meta自研的開放GPU硬件平台Grand Teton構建,這是公司爲支撐大型AI工作負載而開發的GPU基礎硬件平台。作爲Zion-EX平台的後續産品,Grand Teton在主機到GPU的帶寬、計算及數據網絡帶寬、以及功率包絡等方面都實現了顯著的增強。

此外,這些集群充分利用了Meta專爲Grand Teton等方案設計的Open Rack電源和機架架構,提高了數據中心的靈活性。

Meta的Open Rack v3硬件設計引入了一個靈活的機架配置方案。與傳統的固定母線設計相比,它允許在機架中的任意位置安裝電源架,從而使機架配置更加靈活。

在建設這些新集群時,Meta特別關注了每台服務器吞吐量、機架數量減少及能源效率之間的平衡。通過對機架內服務器數量的定制化設計,Meta確保了這些集群在提供高性能的同時,也達到了能源的高效利用。

在存儲技術上,這些集群運用了Linux Filesystem中的Userspace API,並得到了Meta自家Tectonic分布式存儲方案的加持。與此同時,Meta還與Hammerspace合作,一道開發了並行網絡文件系統(NFS)。

兩個集群均基于配備了最新高容量E1.S SSD的YV3 Sierra Point服務器平台。爲了優化網絡利用率,Meta進行了網絡拓撲和路由的調整,並部署了英偉達的集體通信庫(NCCL)。NCCL是一套針對英偉達GPU和網絡進行優化的標准通信例程庫。

Meta還在積極推進其PyTorch基礎AI框架的發展,以應對數十萬GPU的訓練需求。Meta的技術項目經理凱文·李(Kevin Lee)、生産網絡工程師阿迪·甘吉迪(Adi Gangidi)以及生産工程總監馬修·奧爾德姆(Mathew Oldham)在最新博客中共同表達了公司的技術願景和戰略。他們強調,Meta將致力于人工智能軟件和硬件的開放式創新,啓動人工智能聯盟,建立一個開放的生態系統,“爲人工智能開發帶來透明度、審查和信任,並帶來每個人都能從中受益的創新,這些創新以安全和責任爲首要考慮因素”。

這篇博文繼續強調:“面對未來,我們意識到昨天和今天有效的方法可能無法滿足明天的需求。因此,Meta將不斷評估和改進其基礎設施的各個方面,從物理和虛擬層到軟件層等。我們的目標是創建一個既靈活又可靠的系統,以支撐快速發展中的新模型和研究工作。”---(小小/來源: 易科技報導)