中國儲能網(wǎng)訊:構筑AI時代的數(shù)字底座。
數(shù)字時代下,誰是智算中心的領航者?智算中心將會給行業(yè)帶來哪些影響?如何充分發(fā)揮智算中心的技術優(yōu)勢,構筑數(shù)字經濟算網(wǎng)新底座,助力產業(yè)數(shù)字化發(fā)展?
智算中心發(fā)展面臨五大挑戰(zhàn)
近日,地處京津冀交匯的黃金區(qū)位的中國聯(lián)通京津冀數(shù)字科技產業(yè)園投產運營正式啟動。首期已交付一棟研發(fā)樓和4500架8KW機柜,將為智能產業(yè)數(shù)字科技提供智算服務與生態(tài)企業(yè)科創(chuàng)載體。在工程進度方面創(chuàng)造了多個“史無前例”,項目從土建開工到4500架機柜投產交付,整體用時不足一年,真正做到了業(yè)界最快。
中國聯(lián)通相關技術人員告訴《通信產業(yè)報》全媒體記者,當前,智算中心發(fā)展面臨五大挑戰(zhàn)。
第一,如何應對組網(wǎng)規(guī)模的大幅增長。AI應用計算量呈幾何級數(shù)增長,算法模型正向巨量化發(fā)展,人工智能模型參數(shù)在過去十年增長了十萬倍,當前AI超大模型的參數(shù)已達千億甚至萬億級別。訓練大模型毫無疑問需要超高算力,并且對顯存需求也很高。而且,在訓練過程中,各類中間變量均需要存儲,且中間變量在單次迭代中也會不斷增加。更高的顯存消耗,意味著需要幾十上百個GPU才能完整存儲一個模型的訓練過程。組網(wǎng)規(guī)模的大幅增長,將導致網(wǎng)絡管理更加復雜,擁塞控制、負載均衡的難度增加等問題,為智算中心發(fā)展帶來嚴峻挑戰(zhàn)。
第二,如何滿足超高帶寬的迫切需求。在AI大模型訓練場景下,機內與機外的集合通信操作將產生大量的通信數(shù)據(jù)量。服務器內GPU要求支持高速互聯(lián)協(xié)議,進一步避免GPU通信過程中依靠CPU內存緩存數(shù)據(jù)的多次拷貝操作;機間GPU的高速互聯(lián)也對網(wǎng)絡的單端口帶寬、節(jié)點間的可用鏈路數(shù)量,及網(wǎng)絡總帶寬提出了更高需求。
第三,如何解決網(wǎng)絡時延及抖動問題。當網(wǎng)絡拓撲與通信數(shù)據(jù)量確定時,在數(shù)據(jù)通信傳輸過程中產生的網(wǎng)絡時延主要由動態(tài)時延情況所決定。除時延外,網(wǎng)絡變化因素引入的時延抖動也可能導致集合通信的效率變低,從而影響AI大模型的訓練效率。因此,如何降低計算通信時延、減少網(wǎng)絡抖動、提升網(wǎng)絡吞吐是充分釋放AI大模型智算中心算力所面臨的重要挑戰(zhàn)。
第四,如何維持網(wǎng)絡的穩(wěn)定高效。過去5年時間,AI模型參數(shù)量從61M增長到540B,翻了近1萬倍,面對如此大的變化,集群算力已成為解決大模型訓練問題的有效方案。而在算力集群中,網(wǎng)絡系統(tǒng)的可用性又對整個集群的計算穩(wěn)定性起著關鍵性作用。一方面,集群中一個網(wǎng)絡節(jié)點的故障可能會影響數(shù)十個甚至更多的計算節(jié)點的連通性,降低系統(tǒng)算力的完整性;另一方面,網(wǎng)絡保證了集群內的資源共享,相較于單個計算節(jié)點不容易被隔離,因此性能波動會導致所有計算資源的利用率受影響。所以,在AI大模型訓練任務周期中,維持網(wǎng)絡的穩(wěn)定高效是極其重要的目標,對網(wǎng)絡運維帶來了新的挑戰(zhàn)。
第五,如何實現(xiàn)網(wǎng)絡自動化部署。智能無損網(wǎng)絡的構建往往基于RDMA協(xié)議及擁塞控制機制,但與之相伴隨的是一系列復雜多樣化的配置。其中,任一個參數(shù)配置錯誤都可能會影響到業(yè)務的性能,還有可能會引出一些不符合預期的問題。因此,實現(xiàn)高效或自動化部署配置能夠有效地提升大模型集群系統(tǒng)的可靠性與效率。由于AI大模型訓練中集群規(guī)模更大,會進一步增大配置的復雜度,如何實現(xiàn)多臺并行部署配置、自動選擇擁塞控制機制相關參數(shù),以及根據(jù)網(wǎng)卡類型與業(yè)務類型選擇相關配置等自動化部署配置,是智算中心發(fā)展面臨的又一大挑戰(zhàn)。
如何應對智算中心發(fā)展挑戰(zhàn)?
作為數(shù)字經濟時代的關鍵生產力,隨著人工智能、數(shù)字孿生、元宇宙等新興技術的發(fā)展,算力需求規(guī)模呈爆發(fā)式增長,智算中心的重要性愈發(fā)凸顯。智算中心不僅為企業(yè)提供強大的數(shù)據(jù)處理和分析能力,還通過智能算法幫助企業(yè)實現(xiàn)業(yè)務優(yōu)化和創(chuàng)新,促進企業(yè)的產業(yè)數(shù)字化升級。
天津移動規(guī)劃技術部算網(wǎng)能力室經理李強在接受《通信產業(yè)報》全媒體記者采訪時表示,智算中心是指基于智能化技術和算法的數(shù)據(jù)中心,它不僅具備通用數(shù)據(jù)中心的計算、存儲和網(wǎng)絡等基礎功能,還更加注重數(shù)據(jù)的智能化處理和應用,以實現(xiàn)更高效、更智能的數(shù)據(jù)管理和應用服務。智算中心和通用數(shù)據(jù)中心在多個方面存在顯著的不同,主要體現(xiàn)在算力供給、客戶受眾、網(wǎng)絡架構等方面。
一個智算中心需要多種技術和產業(yè)鏈企業(yè)的支撐,以確保其順利運行并滿足各種復雜的計算需求,具體包括IT基礎設施供應商、數(shù)據(jù)中心建設與運營企業(yè)、智算服務供應商、云服務供應商、AI算法,以及模型開發(fā)商和軟件開發(fā)商。
在李強看來,首先,智算中心技術在快速地演進,需要有敏銳的技術觸覺。其次,大模型訓練要求算力更加集中,規(guī)模更大,對智算中心基礎設施提出更高要求。最后,交付中的硬件集成和軟件集成難度加大。為構筑數(shù)字經濟算網(wǎng)新底座,助力產業(yè)數(shù)字化發(fā)展,智算中心應該健康發(fā)展并發(fā)揮其優(yōu)勢。
第一,構建高效的基礎設施。運營商及互聯(lián)網(wǎng)廠商正牽頭大規(guī)模推進智算中心建設,政府層面對于算力基礎設施的“新基建”已成為各實體行業(yè)及資本市場期待與關注的焦點。智算中心作為盤活數(shù)據(jù)資源、整合AI算法的載體,向上拉動智算硬件巨大的需求,向下促進AI應用繁榮,是AI時代重要的戰(zhàn)略資源。當前,智算中心由“資源服務”向“應用服務”轉變,產業(yè)進一步豐富。
第二,合理規(guī)劃布局。智算中心的建設應該與地區(qū)經濟發(fā)展和產業(yè)布局相結合,避免盲目建設和資源浪費;應該根據(jù)區(qū)域產業(yè)發(fā)展需求,合理規(guī)劃智算中心的布局和規(guī)模,確保其與當?shù)禺a業(yè)數(shù)字化發(fā)展的需求相匹配。
第三,加強數(shù)據(jù)安全保障。智算中心涉及大量數(shù)據(jù)的存儲和處理,數(shù)據(jù)安全保障至關重要;應該建立健全數(shù)據(jù)安全保障體系,加強數(shù)據(jù)安全管理和隱私保護,確保數(shù)據(jù)的安全性和可靠性。
智算中心應該與當?shù)禺a業(yè)數(shù)字化轉型緊密結合,為企業(yè)提供智能化解決方案和服務,推動傳統(tǒng)產業(yè)的數(shù)字化轉型和升級。同時,積極培育新興數(shù)字經濟產業(yè),推動數(shù)字經濟與實體經濟的深度融合。
李強表示,當前,各省份均在部署算力規(guī)劃建設。未來,我國將持續(xù)優(yōu)化算力設施建設布局,促進東西部地區(qū)算力高效互補和協(xié)同聯(lián)動,推動算力結構多元配置,逐步提升智能算力占比,推動智能算力與通用算力協(xié)同,滿足不同類型算力的業(yè)務需求。




