摩爾線程公司近期正式揭曉了其面向PyTorch深度學(xué)習(xí)框架的MUSA擴(kuò)展庫(kù)新版本——Torch-MUSA v2.0.0。此次發(fā)布標(biāo)志著摩爾線程在AI計(jì)算領(lǐng)域邁出了重要一步。
該新版本基于MUSA Compute Capability 3.1計(jì)算架構(gòu),帶來(lái)了多項(xiàng)突破性升級(jí)。其中,最引人注目的是原生支持FP8數(shù)據(jù)類型。FP8作為一種前沿的低精度格式,對(duì)于大語(yǔ)言模型(LLM)的訓(xùn)練至關(guān)重要。在支持FP8的GPU上,采用FP8混合精度可以顯著提升GPU的算力,并大幅降低顯存占用。
摩爾線程的全功能GPU,憑借新一代MUSA Compute Capability 3.1計(jì)算架構(gòu),原生支持FP8計(jì)算。這一底層架構(gòu)的優(yōu)勢(shì)為Torch-MUSA v2.0.0提供了堅(jiān)實(shí)的基礎(chǔ),使其能夠充分發(fā)揮FP8的計(jì)算效能,在大語(yǔ)言模型的訓(xùn)練和推理中展現(xiàn)出更高的效率。
除了對(duì)FP8的支持外,Torch-MUSA v2.0.0還引入了多項(xiàng)創(chuàng)新功能,以進(jìn)一步提升深度學(xué)習(xí)任務(wù)的執(zhí)行效率。其中包括新增的虛擬內(nèi)存管理支持,該技術(shù)能夠有效緩解GPU內(nèi)存碎片化問(wèn)題,并降低模型訓(xùn)練過(guò)程中的峰值內(nèi)存占用。這對(duì)于FSDP、DeepSpeed和Megatron-LM等主流大模型訓(xùn)練框架來(lái)說(shuō),無(wú)疑是一個(gè)巨大的福音。
Torch-MUSA v2.0.0還新增了MUSA Graph支持。MUSA Graph技術(shù)將多個(gè)MUSA內(nèi)核整合到一個(gè)圖中,通過(guò)單次CPU調(diào)度大幅減少了啟動(dòng)開(kāi)銷,提升了計(jì)算效率。同時(shí),該技術(shù)還與CUDA Graph接口高效兼容,為開(kāi)發(fā)者提供了更多的選擇和便利。
在性能優(yōu)化方面,Torch-MUSA v2.0.0也取得了顯著進(jìn)展。通過(guò)多項(xiàng)針對(duì)MUSA計(jì)算平臺(tái)的性能優(yōu)化,該版本進(jìn)一步提升了對(duì)AI模型和大規(guī)模數(shù)據(jù)處理的支持能力。這使得開(kāi)發(fā)者能夠在基于MUSA Compute Capability 3.1計(jì)算架構(gòu)的全功能GPU上,無(wú)縫運(yùn)行新版本的PyTorch,并享受更高效的性能表現(xiàn)。
Torch-MUSA v2.0.0不僅支持PyTorch 2.2.0,還新增了對(duì)PyTorch 2.5.0的支持。這意味著開(kāi)發(fā)者可以更加靈活地選擇適合自己項(xiàng)目的PyTorch版本,無(wú)需擔(dān)心兼容性問(wèn)題。
最后,Torch-MUSA v2.0.0已完全開(kāi)源,開(kāi)發(fā)者可以通過(guò)訪問(wèn)GitHub獲取源代碼。這一舉措無(wú)疑將吸引更多的開(kāi)發(fā)者參與到Torch-MUSA的生態(tài)建設(shè)中來(lái),共同推動(dòng)AI計(jì)算領(lǐng)域的發(fā)展。