網(wǎng)站制作NEWS
阿里云容器化GPU共享服務(wù)開放!性能無損失,對(duì)你的環(huán)境無侵入
隨著GPU算力的日益增強(qiáng),其成本也隨之上漲。但有時(shí),執(zhí)行特定任務(wù)可能并不需要整個(gè)GPU資源的投入,導(dǎo)致資源浪費(fèi)與成本增加。為解決這一問題,阿里云推出了cGPU容器共享技術(shù),旨在通過容器調(diào)度底層GPU資源,實(shí)現(xiàn)更細(xì)粒度的GPU使用,提高資源利用率,從而達(dá)到降低成本、提升效率的目的。
在GPU共享領(lǐng)域,業(yè)內(nèi)存在多種方案,例如NVIDIA MPS、NVIDIA vGPU、rCUDA等。然而,這些方案在實(shí)現(xiàn)過程中也存在一些局限性,如容器在調(diào)度GPU時(shí)可能出現(xiàn)顯存資源爭(zhēng)搶和相互影響的問題,影響容器的隔離性。例如,當(dāng)兩個(gè)容器分別運(yùn)行GPU推理應(yīng)用,且一個(gè)容器穩(wěn)定運(yùn)行時(shí),另一個(gè)容器中的應(yīng)用故障可能導(dǎo)致第一個(gè)容器的異常。阿里云的cGPU容器共享技術(shù)則解決了這一問題,實(shí)現(xiàn)了容器之間的安全隔離,確保業(yè)務(wù)間不相互干擾。
那么,cGPU容器共享技術(shù)是如何實(shí)現(xiàn)的呢?該方案基于內(nèi)核虛擬GPU隔離,無需替換CUDA靜態(tài)庫或動(dòng)態(tài)庫,無需對(duì)CUDA應(yīng)用進(jìn)行重新編譯,且CUDA、cuDNN等版本升級(jí)無需適配,具有高效、靈活的特點(diǎn)。使用上,阿里云容器服務(wù)已支持cGPU容器組件。用戶通過登錄容器服務(wù) Kubernetes 版控制臺(tái),簡(jiǎn)單操作即可為容器節(jié)點(diǎn)打標(biāo),利用cGPU容器隔離,最大化利用GPU硬件能力。同時(shí),通過Prometheus監(jiān)控能力,用戶可以查看每個(gè)cGPU容器的顯存使用情況,確保在享受低成本的同時(shí),保障應(yīng)用的可靠性。此外,該技術(shù)還開放了在阿里云GPU實(shí)例上使用cGPU容器的能力,cGPU依賴Docker和NVIDIA Docker,使用前需確保環(huán)境能正常創(chuàng)建帶GPU的容器服務(wù)。
對(duì)于性能問題,cGPU容器方案在實(shí)踐中表現(xiàn)出色。一組測(cè)試數(shù)據(jù)表明,在TensorFlow框架下使用benchmark工具測(cè)試模型推理和訓(xùn)練性能時(shí),cGPU容器實(shí)例在單個(gè)容器和單GPU直通模式下性能對(duì)比中幾乎沒有性能損失。在ResNet50訓(xùn)練測(cè)試和推理測(cè)試中,無論在不同精度和batch_size下,cGPU容器實(shí)例的性能都接近或優(yōu)于標(biāo)準(zhǔn)容器,與MPS容器GPU共享方案相比,cGPU容器實(shí)例在大多數(shù)情況下性能無明顯損失,甚至在大batch_size情況下表現(xiàn)優(yōu)于MPS容器。因此,這一技術(shù)在性能方面展現(xiàn)出顯著優(yōu)勢(shì),能夠有效滿足不同場(chǎng)景下的需求。
總體來看,cGPU容器共享技術(shù)為用戶提供了經(jīng)濟(jì)高效的GPU資源利用方式,通過容器化實(shí)現(xiàn)更細(xì)粒度的GPU調(diào)度,解決了資源浪費(fèi)問題,同時(shí)確保了業(yè)務(wù)間的隔離性和穩(wěn)定性。其在性能方面表現(xiàn)卓越,為用戶提供了強(qiáng)大的支持。對(duì)這一技術(shù)感興趣的朋友,可以訪問阿里云容器服務(wù) Kubernetes 版控制臺(tái)或查閱詳細(xì)使用指南進(jìn)行深入了解和實(shí)踐。
多重隨機(jī)標(biāo)簽