中國(guó)儲(chǔ)能網(wǎng)訊:AI大潮下,今年的世界人工智能大會(huì)格外受到關(guān)注。大模型、人形機(jī)器人群雄并起的同時(shí),算力產(chǎn)業(yè)也在迭代升級(jí)。
會(huì)上,昇騰、摩爾線程、壁仞科技、燧原、天數(shù)智芯、浪潮、新華三等算力廠商悉數(shù)到場(chǎng)。從各家展臺(tái)看,相比于單體硬件,目前廠商更聚焦集群的一體化方案和實(shí)際運(yùn)營(yíng)效率。
整體而言,國(guó)產(chǎn)算力正在崛起。摩爾線程創(chuàng)始人兼CEO張建中接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)談道:“幾年前對(duì)于客戶來(lái)說(shuō),國(guó)產(chǎn)只是備份,現(xiàn)在很多國(guó)產(chǎn)已經(jīng)成為首選了,因?yàn)橐WC長(zhǎng)期供應(yīng)、本地服務(wù)?!?
近日,摩爾線程宣布其AI旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案實(shí)現(xiàn)升級(jí),從當(dāng)前的千卡級(jí)別大幅擴(kuò)展至萬(wàn)卡規(guī)模。當(dāng)然,摩爾線程作為GPU初創(chuàng)公司,也直面英偉達(dá)等巨頭的競(jìng)爭(zhēng)。
談及競(jìng)爭(zhēng)的挑戰(zhàn),張建中表示:“難點(diǎn)主要是在市場(chǎng)的推廣、用戶的生態(tài)適配和生態(tài)發(fā)展,肯定需要一個(gè)過(guò)程?!倍懿荒芙ê蒙鷳B(tài),需要上下游生態(tài)產(chǎn)業(yè)鏈一起合力發(fā)展,包括算力的供應(yīng)商、建設(shè)方、軟件服務(wù)等等。
萬(wàn)卡標(biāo)配
張建中認(rèn)為,當(dāng)前正處在生成式人工智能的黃金時(shí)代,GPU成為加速新技術(shù)浪潮來(lái)臨的創(chuàng)新引擎。
自大模型問(wèn)世出圈以來(lái),GPU的需求量就進(jìn)一步加大。比如,OpenAI的ChatGPT-4共有1.8萬(wàn)億參數(shù),一次訓(xùn)練需要在大約25000個(gè)A100上訓(xùn)練90到100天。
當(dāng)前,基礎(chǔ)大模型的混戰(zhàn)還在繼續(xù),各家繼續(xù)訂購(gòu)算力資源。同時(shí)從趨勢(shì)看,大模型對(duì)算力提出更高要求。比如Scaling Law將持續(xù)奏效,需要單點(diǎn)規(guī)模夠大且通用的算力才能快速跟上技術(shù)演進(jìn);Transformer架構(gòu)之外,Mamba、RWKV和RetNet等新興架構(gòu),同樣需要更高性能計(jì)算資源。
因此,在摩爾線程看來(lái),AI模型訓(xùn)練的主戰(zhàn)場(chǎng),萬(wàn)卡已是標(biāo)配。隨著計(jì)算量不斷攀升,大模型訓(xùn)練亟需超級(jí)工廠,即一個(gè)“大且通用”的加速計(jì)算平臺(tái),以縮短訓(xùn)練時(shí)間,實(shí)現(xiàn)模型能力的快速迭代。
而科技巨頭都在通過(guò)積極部署千卡乃至超萬(wàn)卡規(guī)模的計(jì)算集群,以確保大模型產(chǎn)品的競(jìng)爭(zhēng)力。隨著模型參數(shù)量從千億邁向萬(wàn)億,模型能力更加泛化,大模型對(duì)底層算力的訴求進(jìn)一步升級(jí),萬(wàn)卡甚至超萬(wàn)卡集群成為這一輪大模型競(jìng)賽的入場(chǎng)券。
然而,構(gòu)建萬(wàn)卡集群并非一萬(wàn)張GPU卡的簡(jiǎn)單堆疊,而是一項(xiàng)高度復(fù)雜的超級(jí)系統(tǒng)工程。它涉及超大規(guī)模的組網(wǎng)互聯(lián)、高效率的集群計(jì)算、長(zhǎng)期穩(wěn)定性和高可用性等諸多技術(shù)難題。
據(jù)介紹,摩爾線程夸娥(KUAE)萬(wàn)卡智算集群,以全功能GPU為底座,旨在建設(shè)能夠承載萬(wàn)卡規(guī)模、具備萬(wàn)P級(jí)浮點(diǎn)運(yùn)算能力的國(guó)產(chǎn)通用加速計(jì)算平臺(tái),專為萬(wàn)億參數(shù)級(jí)別的復(fù)雜大模型訓(xùn)練而設(shè)計(jì)。
張建中表示:“現(xiàn)在夸娥千卡集群MFU(算力利用率)有50%多,目標(biāo)是做到60%,做萬(wàn)卡集群的時(shí)候,會(huì)有很多技術(shù)手段去提升MFU,包括軟件、硬件很多方面,目標(biāo)是達(dá)到業(yè)內(nèi)較好水平?!?
目前,摩爾線程已經(jīng)聯(lián)合中國(guó)移動(dòng)通信集團(tuán)青海有限公司、中國(guó)聯(lián)通青海公司、北京德道信科集團(tuán)、中國(guó)能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司分別就三個(gè)萬(wàn)卡集群項(xiàng)目進(jìn)行了戰(zhàn)略簽約。
算力競(jìng)賽
近十年來(lái),全球的算力市場(chǎng)經(jīng)歷了不小的變化。一方面,云計(jì)算、AI需求驅(qū)動(dòng)下,算力市場(chǎng)規(guī)模不斷攀升;另一方面,數(shù)據(jù)中心的類型也從通用計(jì)算,拓展至更注重AI能力的智能計(jì)算,或者說(shuō)加速計(jì)算。
IDC中國(guó)研究經(jīng)理索引此前接受21世紀(jì)經(jīng)濟(jì)報(bào)道采訪時(shí)談道,中國(guó)的算力市場(chǎng)正在由高速增長(zhǎng)進(jìn)入到高質(zhì)量增長(zhǎng)的階段。過(guò)去十幾年,中國(guó)全面進(jìn)入數(shù)字化經(jīng)濟(jì)這個(gè)新的階段,對(duì)算力產(chǎn)生了大量的需求。
尤其是近兩年生成式AI,為算力產(chǎn)業(yè)帶來(lái)了新需求。在新的數(shù)據(jù)中心建設(shè)過(guò)程中,智算數(shù)據(jù)中心層出不窮,GPU則是底層的計(jì)算核心。
隨著各地智算中心的增長(zhǎng),業(yè)內(nèi)關(guān)注兩方面課題,其一是投資回報(bào)率,其二是需求是否會(huì)過(guò)剩。
談及投資和產(chǎn)出,張建中說(shuō)道:“目前智算中心投資回報(bào)率是5年左右,根據(jù)市場(chǎng)的租金、使用率以及用戶愿意付的價(jià)錢,這是正常的(周期),而且資本愿意去看5年回報(bào)周期。對(duì)于我們研發(fā)一顆芯片來(lái)說(shuō),研發(fā)費(fèi)用(成本)相對(duì)美國(guó)公司來(lái)說(shuō)更低,大概相當(dāng)于他們的1/10,我們?cè)趪?guó)內(nèi)可以得到更好的回報(bào)?!?
另一方面,對(duì)于智算中心的火熱建設(shè),張建中提到了兩個(gè)建議,首先是不應(yīng)盲目建設(shè),“不可能說(shuō)連市場(chǎng)客戶都沒(méi)有就盲目建設(shè),不是所有人都應(yīng)該去建算力中心,而是應(yīng)該由專業(yè)的人干專業(yè)的事?!?
其次建集群也有風(fēng)險(xiǎn),“建完之后好不好用、是不是能夠通用、是不是能穩(wěn)定運(yùn)行、有沒(méi)有能力去運(yùn)營(yíng),都是需要考慮的事情。所以我們給用戶提供建議的時(shí)候,希望使用我們的一攬子的解決方案,采用整體解決方案可以避免風(fēng)險(xiǎn)?!睆埥ㄖ姓劦?。
有產(chǎn)業(yè)鏈人士向記者指出,去年很多客戶的業(yè)務(wù)重心都放在AI訓(xùn)練上,但今年一些頭部互聯(lián)網(wǎng)和大模型公司面臨的主要挑戰(zhàn)是落地應(yīng)用。這也意味著,除了訓(xùn)練之外,各個(gè)行業(yè)的推理的需求也將快速增長(zhǎng)。
眼下,算力市場(chǎng)正在經(jīng)歷變革。未來(lái),隨著生成式AI和智能計(jì)算的不斷發(fā)展,算力需求將持續(xù)增加。從硬件、軟件、集群、到智算中心,合理規(guī)劃和體系化建設(shè)也將愈發(fā)重要。


 
 

