第二十屆中國(guó)IDC產(chǎn)業(yè)年度大典(IDCC2025)暨數(shù)字基礎(chǔ)設(shè)施科技展(DITExpo)即將于北京首鋼國(guó)際會(huì)展中心1號(hào)館拉開帷幕。這場(chǎng)以“重塑算力 破界而生”為主題的行業(yè)盛會(huì),將于2025年12月10日至11日期間,匯聚數(shù)萬名算力產(chǎn)業(yè)從業(yè)者,共同探討技術(shù)突破與商業(yè)模式創(chuàng)新的前沿議題。活動(dòng)報(bào)名通道現(xiàn)已開啟,誠(chéng)邀各界人士共襄盛舉。
當(dāng)前,人工智能大模型的參數(shù)規(guī)模正從百億級(jí)向萬億級(jí)躍遷,驅(qū)動(dòng)算力基礎(chǔ)設(shè)施進(jìn)入“萬卡集群”時(shí)代。從OpenAI的GPT-4到國(guó)內(nèi)“百模大戰(zhàn)”的激烈競(jìng)爭(zhēng),“萬卡”已成為AI巨頭參與全球競(jìng)爭(zhēng)的核心門檻。然而,這場(chǎng)變革的實(shí)質(zhì)遠(yuǎn)不止于機(jī)柜功率提升或液冷技術(shù)普及,其核心在于推動(dòng)數(shù)據(jù)中心從傳統(tǒng)“房地產(chǎn)”模式向“超級(jí)計(jì)算機(jī)”模式全面轉(zhuǎn)型。
傳統(tǒng)數(shù)據(jù)中心的建設(shè)邏輯長(zhǎng)期遵循“基建先行”原則,即先構(gòu)建標(biāo)準(zhǔn)化供配電、制冷和網(wǎng)絡(luò)布線的“白色空間”,再由IT設(shè)備“拎包入住”。這種模式雖具備通用性和靈活性,卻難以滿足萬卡級(jí)AI集群的極端需求。以GPU為核心的萬卡集群本質(zhì)上是“單一系統(tǒng)”,其系統(tǒng)架構(gòu)、網(wǎng)絡(luò)拓?fù)浜凸墓芾砭韪叨榷ㄖ苹仁箶?shù)據(jù)中心建設(shè)邏輯從“機(jī)房適配IT”轉(zhuǎn)向“IT定義機(jī)房”。
以NVIDIA DGX SuperPOD架構(gòu)為例,其設(shè)計(jì)需預(yù)先鎖定GPU服務(wù)器型號(hào)、InfiniBand交換機(jī)布局、光纖連接方式及機(jī)柜峰值功耗(可達(dá)60kW至100kW)。這意味著土建、暖通和電氣設(shè)計(jì)必須從IT架構(gòu)圖出發(fā),而非傳統(tǒng)建筑圖紙。機(jī)電工程師需與IT架構(gòu)師、網(wǎng)絡(luò)工程師協(xié)同,精確規(guī)劃液冷管路走向、配電單元點(diǎn)位及高密度光纖管理方案,將數(shù)據(jù)中心建設(shè)從“建筑設(shè)計(jì)”升級(jí)為“系統(tǒng)工程”。
在萬卡集群中,網(wǎng)絡(luò)的重要性首次超越計(jì)算本身,成為制約系統(tǒng)效能的關(guān)鍵瓶頸。大模型訓(xùn)練依賴數(shù)千顆GPU的高頻集體通信(如All-Reduce操作),任何單顆GPU的延遲或數(shù)據(jù)包丟失均會(huì)導(dǎo)致整個(gè)集群算力空轉(zhuǎn)。這一特性使得InfiniBand網(wǎng)絡(luò)憑借RDMA技術(shù)和高效擁塞控制機(jī)制占據(jù)主導(dǎo)地位,但其高昂成本和復(fù)雜拓?fù)浣Y(jié)構(gòu)(如“胖樹”網(wǎng)絡(luò))也帶來挑戰(zhàn)。與此同時(shí),以太網(wǎng)陣營(yíng)通過RoCE技術(shù)追趕,但需深度優(yōu)化交換機(jī)、網(wǎng)卡和軟件協(xié)議棧以實(shí)現(xiàn)“無損”通信。
網(wǎng)絡(luò)性能直接決定集群有效算力利用率,迫使行業(yè)重新設(shè)計(jì)AI數(shù)據(jù)中心系統(tǒng)。網(wǎng)絡(luò)架構(gòu)師的角色愈發(fā)關(guān)鍵,其需在成本、規(guī)模和效率間尋求平衡。例如,構(gòu)建支撐萬卡節(jié)點(diǎn)的網(wǎng)絡(luò),需規(guī)劃復(fù)雜的拓?fù)浣Y(jié)構(gòu)并完成高強(qiáng)度調(diào)試,這本身已成為一項(xiàng)全球性工程挑戰(zhàn)。
面對(duì)AI大模型“日新月異”的迭代速度,傳統(tǒng)數(shù)據(jù)中心18至24個(gè)月的建設(shè)周期已難以為繼。“上市時(shí)間”(Time to Market)成為算力競(jìng)爭(zhēng)的生命線,推動(dòng)交付模式從“工程項(xiàng)目”向“產(chǎn)品制造”轉(zhuǎn)型。工廠預(yù)制與模塊化集成成為核心解決方案,例如NVIDIA SuperPOD架構(gòu)不僅提供硬件清單,更包含完整的“制造藍(lán)圖”。
在這一模式下,系統(tǒng)集成在工廠潔凈環(huán)境中完成,GPU服務(wù)器、網(wǎng)絡(luò)交換機(jī)、液冷歧管、PDU及管理軟件被預(yù)集成至“Pod”或“AI模塊”,并經(jīng)高壓測(cè)試。現(xiàn)場(chǎng)部署則簡(jiǎn)化為“樂高式”拼接,預(yù)制模塊運(yùn)抵后僅需“即插即用”式組裝。這種模式將現(xiàn)場(chǎng)調(diào)試時(shí)間從數(shù)月壓縮至數(shù)周,但要求GPU廠商、網(wǎng)絡(luò)廠商、服務(wù)器廠商及數(shù)據(jù)中心運(yùn)營(yíng)商形成“命運(yùn)共同體”,以一體化設(shè)計(jì)和聯(lián)合研發(fā)替代傳統(tǒng)分包模式。
萬卡AI集群的建設(shè)浪潮,標(biāo)志著數(shù)據(jù)中心從“被動(dòng)容納”向“主動(dòng)生產(chǎn)”的范式轉(zhuǎn)移。其建設(shè)邏輯、系統(tǒng)瓶頸和交付模式的變革,正在重塑整個(gè)產(chǎn)業(yè)鏈。那些仍以“蓋房子”思維建設(shè)“超級(jí)計(jì)算機(jī)”的參與者,終將被這場(chǎng)革命的浪潮所淘汰。





















