亚洲天堂1区在线|久久久综合国产剧情中文|午夜国产精品无套|中文字幕一二三四区|人人操人人干人人草|一区二区免费漫画|亚洲一区二区a|91五月天在线观看|9丨精品性视频亚洲一二三区视频|国产香蕉免费素人在线二区

中國(guó)儲(chǔ)能網(wǎng)歡迎您!
當(dāng)前位置: 首頁(yè) >雙碳目標(biāo)>智能算力與基站 返回

從算力到生態(tài):智算中心“集群”如何向上?

作者:黨博文 來(lái)源:通信產(chǎn)業(yè)網(wǎng) 發(fā)布時(shí)間:2024-11-13 瀏覽:次

中國(guó)儲(chǔ)能網(wǎng)訊:硬件打基礎(chǔ),布局上臺(tái)階。

  在數(shù)字化浪潮的席卷之下,人工智能已成為推動(dòng)時(shí)代前行的核心引擎。

  圖片智算中心已經(jīng)成為滿足大規(guī)模模型訓(xùn)練與推理需求的“生命線”。

  隨著AI的持續(xù)滲透與深化應(yīng)用,算力需求如潮水般洶涌而至,傳統(tǒng)計(jì)算架構(gòu)面臨前所未有的挑戰(zhàn),在此背景下,“萬(wàn)卡集群”作為新一代大模型競(jìng)賽的關(guān)鍵,正逐步成為智能計(jì)算領(lǐng)域的新常態(tài),其發(fā)展也備受業(yè)界關(guān)注。

智算中心駛?cè)肟燔?chē)道

  硬件打基礎(chǔ),布局上臺(tái)階,智算中心作為集算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)于一體的綜合性平臺(tái),正在以前所未有的速度發(fā)展。

  在實(shí)際應(yīng)用中,智算中心已經(jīng)成為滿足大規(guī)模模型訓(xùn)練與推理需求的“生命線”。隨著10億參數(shù)規(guī)模以上的大模型數(shù)量突破百個(gè),AI算力需求急劇增加。例如,OpenAI訓(xùn)練GPT-4模型時(shí)使用了2.5萬(wàn)張英偉達(dá)A100 GPU,這種大規(guī)模的算力需求推動(dòng)了智算中心向更高性能、更大規(guī)模的方向發(fā)展。

  近年來(lái),政府對(duì)于智算中心建設(shè)的重視程度不斷提升,通過(guò)出臺(tái)《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023年)》《“十四五”國(guó)家信息化規(guī)劃》《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》等一系列政策,為智算中心的發(fā)展提供了堅(jiān)實(shí)的政策保障。數(shù)據(jù)顯示,截至2023年底,全國(guó)名稱中帶有“智算中心”的項(xiàng)目已達(dá)128個(gè),僅2023年全年,全國(guó)建成或者正在建設(shè)的智算中心有20多座,且這一數(shù)字在2024年繼續(xù)快速增長(zhǎng)。

  智算中心的技術(shù)特點(diǎn)主要體現(xiàn)在其高性能計(jì)算能力和高效的資源整合上。隨著大模型訓(xùn)練與推理需求的爆發(fā),尤其是GPU供應(yīng)緊張,算力需求增長(zhǎng)遠(yuǎn)超單顆AI芯片性能的增長(zhǎng)速度。

  通過(guò)集群互聯(lián)彌補(bǔ)單卡性能不足,成為解決AI算力荒的必要路徑。千卡集群和萬(wàn)卡集群是滿足AI算力需求的抓手,特別是在未來(lái)幾年內(nèi),通用算力和智能算力的快速增長(zhǎng)將推動(dòng)智算中心的建設(shè)和發(fā)展?,通過(guò)整合高性能GPU計(jì)算、RDMA網(wǎng)絡(luò)、并行文件存儲(chǔ)和智算平臺(tái)等關(guān)鍵技術(shù),構(gòu)建了一臺(tái)“超級(jí)計(jì)算機(jī)”。

百舸爭(zhēng)流構(gòu)建新產(chǎn)業(yè)格局

  事實(shí)上,面向智算中心從千卡集群到萬(wàn)卡集群的構(gòu)建并非簡(jiǎn)單的GPU卡堆疊,而是一項(xiàng)高度復(fù)雜的超級(jí)系統(tǒng)工程,通過(guò)智算網(wǎng)絡(luò)技術(shù)把上萬(wàn)塊GPU芯片像“積木”一樣拼接在一起,大幅提升GPU節(jié)點(diǎn)間的通信效率,使其在瞬息之間便能處理海量數(shù)據(jù)與復(fù)雜計(jì)算任務(wù)。

  目前,業(yè)界主流的芯片主要是英偉達(dá)H100,近年來(lái),隨著部分國(guó)家對(duì)高端芯片的出口管制不斷加強(qiáng),國(guó)外廠商生產(chǎn)的高檔GPU出口受到限制,使得我國(guó)在智算領(lǐng)域面臨算力供應(yīng)不足的風(fēng)險(xiǎn)。這種外部壓力促使我國(guó)加快智算中心國(guó)產(chǎn)化的進(jìn)程,以減少對(duì)國(guó)外芯片的依賴。近年來(lái),國(guó)內(nèi)已經(jīng)涌現(xiàn)出了一些優(yōu)秀的芯片廠商,如昇騰、寒武紀(jì)、百度等。

  其中,華為昇騰910B是華為自主研發(fā)的AI芯片,采用了7納米制程工藝,昇騰910代表了昇騰系列的最強(qiáng)算力,其半精度FP16算力達(dá)到了320TFLOPS,整數(shù)精度INT8算力更是高達(dá)640 TOPS。昇騰910配合華為開(kāi)源的MindSpore框架,可以顯著提高AI訓(xùn)練的效率。

  寒武紀(jì)的思元370是采用7nm制程工藝,首款采用chiplet芯粒技術(shù)的AI芯片,就是在一顆芯片中封裝2顆AI計(jì)算芯粒,每一個(gè)MLU-Die具備獨(dú)立的AI計(jì)算單元。整體集成了390億個(gè)晶體管,具有256TOPS(INT8)的最大算力。

  昆侖芯2采用7nm制程,搭載昆侖芯自研的新一代XPU-R架構(gòu),是國(guó)內(nèi)首款采用GDDR6顯存的通用AI芯片,相比昆侖芯1代,昆侖芯2的整數(shù)精度(INT8)算力達(dá)到256 TeraOPS,半精度(FP16)為128 TeraFLOPS,而最大功耗僅為120W,昆侖芯2高度集成了ARM CPU算力,并支持硬件虛擬化、芯片間互聯(lián)、視頻編解碼等功能。同時(shí),它還支持C和C++編程,可編程性國(guó)內(nèi)領(lǐng)先、對(duì)標(biāo)全球業(yè)界最先進(jìn)水平。

  含光800是阿里巴巴旗下半導(dǎo)體公司平頭哥高性能AI芯片,含光800采用了自研的架構(gòu)、基于達(dá)摩院的算法和阿里巴巴的場(chǎng)景,由臺(tái)積電7nm工藝打造,在業(yè)界標(biāo)準(zhǔn)的ResNet-50測(cè)試中推理場(chǎng)景性能達(dá)到78563IPS,經(jīng)過(guò)公開(kāi)測(cè)試比業(yè)界的其他AI芯片性能高4倍。

  與此同時(shí),隨著國(guó)產(chǎn)芯片的異軍突起,有關(guān)萬(wàn)卡集群的構(gòu)建與兼容性挑戰(zhàn)也浮出水面。

  硬件方面,由于不同型號(hào)的GPU在性能、功耗、接口等方面存在差異,要求集群設(shè)計(jì)和部署時(shí)必須考慮硬件的兼容性。

  隨著GPU數(shù)量的增加,集群的擴(kuò)展性、散熱、能耗等問(wèn)題也日益凸顯,同時(shí),不同廠商、不同版本的操作系統(tǒng)、驅(qū)動(dòng)程序、深度學(xué)習(xí)框架等可能存在不兼容的情況。

  例如,某些特定的深度學(xué)習(xí)框架可能只支持某些型號(hào)的GPU,或在某些操作系統(tǒng)上運(yùn)行不穩(wěn)定,最后則是由于生態(tài)的興起,開(kāi)源軟件、商用軟件的配套也需要得到不斷完善。

圖片

從硬件到生態(tài):推動(dòng)AI產(chǎn)業(yè)可持續(xù)發(fā)展

  宏觀來(lái)看,隨著全球科技競(jìng)爭(zhēng)的加劇,構(gòu)建自主可控的國(guó)產(chǎn)萬(wàn)卡系統(tǒng),不僅關(guān)乎技術(shù)主權(quán),更是推動(dòng)AI產(chǎn)業(yè)持續(xù)健康發(fā)展的關(guān)鍵,其中生態(tài)的構(gòu)建尤為復(fù)雜且至關(guān)重要。

  今年三月,中國(guó)工程院院士鄭緯民指出,盡管?chē)?guó)產(chǎn)AI芯片與業(yè)界領(lǐng)先水平存在差距,但生態(tài)的完善能夠有效彌補(bǔ)這一短板,確保大多數(shù)任務(wù)不會(huì)因芯片性能的微小差異而受顯著影響。

  事實(shí)上,面對(duì)英偉達(dá)CUDA生態(tài)的強(qiáng)勢(shì)地位,國(guó)內(nèi)AI生態(tài)鏈建設(shè)顯得尤為迫切。英偉達(dá)憑借其完善的生態(tài)鏈,成為了全球AI大模型的首選算力供應(yīng)商,甚至國(guó)內(nèi)眾多AI公司也不得不依賴其生態(tài)。相比之下,我國(guó)計(jì)算生態(tài)鏈尚在建設(shè)中。

  因此,要打破封閉和壟斷,首要任務(wù)是推動(dòng)算力技術(shù)的開(kāi)放與標(biāo)準(zhǔn)化。通過(guò)采用多元開(kāi)放的架構(gòu),確保系統(tǒng)兼容主流軟件生態(tài),支持廣泛的AI框架、算法模型及數(shù)據(jù)處理技術(shù),從而降低應(yīng)用遷移門(mén)檻,促進(jìn)技術(shù)創(chuàng)新與應(yīng)用的快速迭代。

  同時(shí),軟硬件的深度融合是提升智算效能的關(guān)鍵。針對(duì)不同類型的GPU及其軟件環(huán)境,進(jìn)行細(xì)致的協(xié)同優(yōu)化,包括驅(qū)動(dòng)、框架、操作系統(tǒng)等各個(gè)層面,以實(shí)現(xiàn)性能的最大化和穩(wěn)定性的提升。

  最后,生態(tài)的構(gòu)建需要整個(gè)產(chǎn)業(yè)鏈的共同努力。通過(guò)鼓勵(lì)上下游企業(yè)的積極參與,推動(dòng)算力技術(shù)的標(biāo)準(zhǔn)化、模塊化,形成開(kāi)放共享的技術(shù)生態(tài)。這不僅能夠促進(jìn)技術(shù)間的互聯(lián)互通,還能加速資源的有效配置與利用。

  構(gòu)建國(guó)產(chǎn)萬(wàn)卡系統(tǒng),雖然很難,但很必要。人工智能的模型研發(fā)、模型訓(xùn)練、模型精調(diào)、模型推理都需要算力,算力存在于大模型生命周期的每一環(huán)。

  在智算領(lǐng)域,生態(tài)的構(gòu)建是一場(chǎng)持久戰(zhàn),也是決定未來(lái)格局的關(guān)鍵,這不僅是技術(shù)層面的追趕,更是生態(tài)體系、創(chuàng)新機(jī)制與全球合作模式的重塑。只有如此,國(guó)產(chǎn)萬(wàn)卡系統(tǒng)才能真正成為推動(dòng)中國(guó)乃至全球AI產(chǎn)業(yè)發(fā)展的強(qiáng)大引擎。


分享到:

關(guān)鍵字:智算中心

中國(guó)儲(chǔ)能網(wǎng)版權(quán)說(shuō)明:

1、凡注明來(lái)源為“中國(guó)儲(chǔ)能網(wǎng):xxx(署名)”,除與中國(guó)儲(chǔ)能網(wǎng)簽署內(nèi)容授權(quán)協(xié)議的網(wǎng)站外,未經(jīng)本網(wǎng)授權(quán),任何單位及個(gè)人不得轉(zhuǎn)載、摘編或以其它方式使用上述作品。

2、凡本網(wǎng)注明“來(lái)源:xxx(非中國(guó)儲(chǔ)能網(wǎng))”的作品,均轉(zhuǎn)載與其他媒體,目的在于傳播更多信息,但并不代表中國(guó)儲(chǔ)能網(wǎng)贊同其觀點(diǎn)、立場(chǎng)或證實(shí)其描述。其他媒體如需轉(zhuǎn)載,請(qǐng)與稿件來(lái)源方聯(lián)系,如產(chǎn)生任何版權(quán)問(wèn)題與本網(wǎng)無(wú)關(guān)。

3、如因作品內(nèi)容、版權(quán)以及引用的圖片(或配圖)內(nèi)容僅供參考,如有涉及版權(quán)問(wèn)題,可聯(lián)系我們直接刪除處理。請(qǐng)?jiān)?0日內(nèi)進(jìn)行。

4、有關(guān)作品版權(quán)事宜請(qǐng)聯(lián)系:13661266197、 郵箱:ly83518@126.com