網(wǎng)站制作

阿里開源自研工業(yè)級(jí)稀疏模型高性能訓(xùn)練框架 PAI-HybridBackend

更新時(shí)間：2025-01-11 16:01:46

近年來，稀疏模型對(duì)算力的需求日益增長(zhǎng)，CPU集群規(guī)模不斷擴(kuò)大以滿足訓(xùn)練時(shí)效，但這也帶來了資源成本和調(diào)試成本的上升。為解決這一問題，阿里云機(jī)器學(xué)習(xí)PAI平臺(tái)開源了高性能稀疏模型同步訓(xùn)練框架HybridBackend。該框架使在相同成本下，GPU集群的訓(xùn)練吞吐較CPU集群提升至5倍，大幅降低了調(diào)試成本，并被ICDE 22'收錄。HybridBackend旨在通過優(yōu)化設(shè)計(jì)，發(fā)揮GPU設(shè)備優(yōu)勢(shì)，解決稀疏模型訓(xùn)練中硬件資源瓶頸與算子細(xì)碎化的問題。

HybridBackend是阿里云自研的高性能同步訓(xùn)練框架，面向稀疏模型訓(xùn)練，核心能力在于提升單位成本下的訓(xùn)練吞吐性能。在阿里巴巴內(nèi)部，HybridBackend已應(yīng)用于多個(gè)業(yè)務(wù)場(chǎng)景，將定向廣告業(yè)務(wù)的年數(shù)據(jù)訓(xùn)練任務(wù)時(shí)間從1個(gè)月縮短至2天。此外，在多個(gè)頭部互聯(lián)網(wǎng)企業(yè)中，HybridBackend也取得了成功應(yīng)用。

隨著稀疏模型對(duì)算力的需求增加，CPU集群的擴(kuò)展成為瓶頸，資源成本與調(diào)試成本隨之上升。GPU等加速器彌補(bǔ)了CPU單位成本算力低下的劣勢(shì)，在訓(xùn)練任務(wù)中廣泛應(yīng)用，但傳統(tǒng)的參數(shù)服務(wù)器訓(xùn)練范式未能有效發(fā)揮GPU設(shè)備性能。HybridBackend的出現(xiàn)正是為了應(yīng)對(duì)這一挑戰(zhàn)，通過設(shè)計(jì)新的訓(xùn)練框架，解決硬件和軟件層面的問題，以適應(yīng)稀疏模型的特性和數(shù)據(jù)分布。

HybridBackend系統(tǒng)架構(gòu)設(shè)計(jì)考慮了硬件與軟件兩個(gè)層面的特點(diǎn)，以實(shí)現(xiàn)協(xié)同設(shè)計(jì)。利用大批次同步訓(xùn)練，通過高性能網(wǎng)絡(luò)互連優(yōu)化通信性能，并保留統(tǒng)一的訓(xùn)練執(zhí)行單元，利用底層硬件資源間的局部性和多種異構(gòu)資源，提供靈活的混合并行訓(xùn)練策略。

為解決硬件資源瓶頸與算子細(xì)碎化問題，HybridBackend引入了基于數(shù)據(jù)和算子感知的合并、基于硬件資源感知的交錯(cuò)執(zhí)行和基于數(shù)據(jù)頻次感知的參數(shù)緩存等優(yōu)化手段。這不僅減少了算子數(shù)量，降低了碎片化，還能有效提升硬件利用率。

HybridBackend已成功應(yīng)用于阿里媽媽智能引擎訓(xùn)練引擎團(tuán)隊(duì)的定向廣告業(yè)務(wù)，顯著提高了訓(xùn)練效率。在大規(guī)模參數(shù)模型訓(xùn)練中，高性能集群上的HybridBackend僅需2天即可完成任務(wù)，而普通集群上的傳統(tǒng)方法則需要約1個(gè)月的時(shí)間。

未來，阿里云計(jì)劃定期發(fā)布HybridBackend的發(fā)布版本，并在訓(xùn)練策略、新硬件優(yōu)化和服務(wù)化能力支持等方面持續(xù)投入。同時(shí)，歡迎各界反饋、改進(jìn)建議和技術(shù)討論，共同推動(dòng)開源社區(qū)的發(fā)展。

標(biāo)簽：阿里開源自研工業(yè)級(jí)稀疏模型高性能訓(xùn)練框架 paihybridbackend

上一篇：華梵大學(xué)教學(xué)卓越計(jì)劃

下一篇：阿里巴巴大數(shù)據(jù)實(shí)踐：OneData模型實(shí)施介紹

国产精品高清免费在线视频-亚洲精品午夜福利一区-91成人精品国产免费男男-噼里啪啦日本一区二区

首頁

網(wǎng)站制作

關(guān)于

服務(wù)

聯(lián)系我們

與我們合作

您也可通過下列途徑與我們?nèi)〉寐?lián)系：

阿里開源自研工業(yè)級(jí)稀疏模型高性能訓(xùn)練框架 PAI-HybridBackend