網(wǎng)站制作NEWS
阿里開源自研工業(yè)級稀疏模型高性能訓(xùn)練框架 PAI-HybridBackend
近年來,稀疏模型對算力的需求日益增長,CPU集群規(guī)模不斷擴(kuò)大以滿足訓(xùn)練時(shí)效,但這也帶來了資源成本和調(diào)試成本的上升。為解決這一問題,阿里云機(jī)器學(xué)習(xí)PAI平臺開源了高性能稀疏模型同步訓(xùn)練框架HybridBackend。該框架使在相同成本下,GPU集群的訓(xùn)練吞吐較CPU集群提升至5倍,大幅降低了調(diào)試成本,并被ICDE 22'收錄。HybridBackend旨在通過優(yōu)化設(shè)計(jì),發(fā)揮GPU設(shè)備優(yōu)勢,解決稀疏模型訓(xùn)練中硬件資源瓶頸與算子細(xì)碎化的問題。
HybridBackend是阿里云自研的高性能同步訓(xùn)練框架,面向稀疏模型訓(xùn)練,核心能力在于提升單位成本下的訓(xùn)練吞吐性能。在阿里巴巴內(nèi)部,HybridBackend已應(yīng)用于多個(gè)業(yè)務(wù)場景,將定向廣告業(yè)務(wù)的年數(shù)據(jù)訓(xùn)練任務(wù)時(shí)間從1個(gè)月縮短至2天。此外,在多個(gè)頭部互聯(lián)網(wǎng)企業(yè)中,HybridBackend也取得了成功應(yīng)用。
隨著稀疏模型對算力的需求增加,CPU集群的擴(kuò)展成為瓶頸,資源成本與調(diào)試成本隨之上升。GPU等加速器彌補(bǔ)了CPU單位成本算力低下的劣勢,在訓(xùn)練任務(wù)中廣泛應(yīng)用,但傳統(tǒng)的參數(shù)服務(wù)器訓(xùn)練范式未能有效發(fā)揮GPU設(shè)備性能。HybridBackend的出現(xiàn)正是為了應(yīng)對這一挑戰(zhàn),通過設(shè)計(jì)新的訓(xùn)練框架,解決硬件和軟件層面的問題,以適應(yīng)稀疏模型的特性和數(shù)據(jù)分布。
HybridBackend系統(tǒng)架構(gòu)設(shè)計(jì)考慮了硬件與軟件兩個(gè)層面的特點(diǎn),以實(shí)現(xiàn)協(xié)同設(shè)計(jì)。利用大批次同步訓(xùn)練,通過高性能網(wǎng)絡(luò)互連優(yōu)化通信性能,并保留統(tǒng)一的訓(xùn)練執(zhí)行單元,利用底層硬件資源間的局部性和多種異構(gòu)資源,提供靈活的混合并行訓(xùn)練策略。
為解決硬件資源瓶頸與算子細(xì)碎化問題,HybridBackend引入了基于數(shù)據(jù)和算子感知的合并、基于硬件資源感知的交錯(cuò)執(zhí)行和基于數(shù)據(jù)頻次感知的參數(shù)緩存等優(yōu)化手段。這不僅減少了算子數(shù)量,降低了碎片化,還能有效提升硬件利用率。
HybridBackend已成功應(yīng)用于阿里媽媽智能引擎訓(xùn)練引擎團(tuán)隊(duì)的定向廣告業(yè)務(wù),顯著提高了訓(xùn)練效率。在大規(guī)模參數(shù)模型訓(xùn)練中,高性能集群上的HybridBackend僅需2天即可完成任務(wù),而普通集群上的傳統(tǒng)方法則需要約1個(gè)月的時(shí)間。
未來,阿里云計(jì)劃定期發(fā)布HybridBackend的發(fā)布版本,并在訓(xùn)練策略、新硬件優(yōu)化和服務(wù)化能力支持等方面持續(xù)投入。同時(shí),歡迎各界反饋、改進(jìn)建議和技術(shù)討論,共同推動開源社區(qū)的發(fā)展。
多重隨機(jī)標(biāo)簽