本發(fā)明涉及人工智能訓練,屬于一種用于ai模型訓練的分布式調度訓練方法。
背景技術:
1、模型訓練傳統(tǒng)方式通常使用靜態(tài)資源分配,但是該分配方法存在資源閑置問題,kubernetes等容器編排系統(tǒng)雖然有調度系統(tǒng),但是無法實時響應訓練節(jié)點負載波動,存在很大的局限性,另外節(jié)點如果出現(xiàn)故障,導致訓練中斷,一般需要手動處理才能恢復訓練,而且現(xiàn)在大多存在很多不同型號的gpu,每種gpu的性能是不一樣的,如何讓多種不同類型的gpu統(tǒng)一調度訓練,也是一個急需解決的問題。
技術實現(xiàn)思路
1、針對上述技術問題,本發(fā)明提供了一種用于ai模型訓練的分布式調度訓練方法。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術方案:
3、提供一種用于ai模型訓練的分布式調度訓練方法,包括api網(wǎng)關、資源監(jiān)控模塊、動態(tài)調度模塊、節(jié)點訓練模塊以及結果保存和容錯處理模塊;
4、api網(wǎng)關接收客戶端訓練請求,并將信息傳遞到動態(tài)調度模塊;
5、動態(tài)調度模塊進行模型分片,將模型分片交給對應的訓練節(jié)點,分配訓練任務到節(jié)點訓練模塊;
6、節(jié)點訓練模塊執(zhí)行具體的訓練任務,并回傳單位時間內處理的模型分片數(shù)量到動態(tài)調度模塊,動態(tài)調度模塊根據(jù)回傳數(shù)據(jù)動態(tài)調整分片策略;
7、資源監(jiān)控模塊實時采集計算節(jié)點的硬件指標和網(wǎng)絡狀態(tài),上報節(jié)點負載至動態(tài)調度模塊,動態(tài)調度模塊根據(jù)上報數(shù)據(jù)調節(jié)節(jié)點數(shù)量;
8、訓練完成后,將每個分片聚合成最終完成訓練的聚合模型,并將最終的聚合模型傳遞到結果保存和容錯處理模塊,結果保存和容錯處理模塊保存訓練結果,并感知訓練節(jié)點狀態(tài)是否異常,若有異常,將訓練任務遷移到其他節(jié)點繼續(xù)訓練。
9、作為優(yōu)選,所述動態(tài)調度模塊包含擴展單元和負載預測單元;所述擴展單元根據(jù)資源監(jiān)控模塊上報的節(jié)點平均負載與閾值之間的大小關系增減物理節(jié)點數(shù)量,節(jié)點平均負載大于閾值時觸發(fā)擴容,節(jié)點平均負載小于閾值時觸發(fā)縮容;所述負載預測單元基于歷史數(shù)據(jù)預測未來資源需求,預測值與當前實際節(jié)點資源存在較大偏差時觸發(fā)增減物理節(jié)點數(shù)量。
10、作為優(yōu)選,所述動態(tài)調度模塊分配模型分片到所述節(jié)點訓練模塊時,從當前可用節(jié)點取出若干訓練節(jié)點,將若干模型分片按照每個訓練節(jié)點的節(jié)點計算能力分配到取出的節(jié)點。
11、作為優(yōu)選,所述動態(tài)調度模塊引入了梯度殘差補償算法,進行誤差修正與收斂加速。
12、作為優(yōu)選,所述模型分片通過拉格朗日乘數(shù)法優(yōu)化分批按比例。
13、作為優(yōu)選,所述聚合模型通過梯度聚合法完成聚合。
14、作為優(yōu)選,所述結果保存和容錯處理模塊采用自適應梯度同步算法。
15、與現(xiàn)有技術相比,本發(fā)明提供一種用于ai模型訓練的分布式調度訓練方法,具有以下有益效果:
16、1、能夠實現(xiàn)模型訓練的動態(tài)資源感知,動態(tài)分配訓練節(jié)點,模型分片能夠根據(jù)節(jié)點負載動態(tài)調整分片策略,聚合算法能夠減少通信開銷,特別是異構環(huán)境下的處理,兩者的結合實現(xiàn)更高效的訓練,支持動態(tài)節(jié)點的添加和移除。
17、2、節(jié)點故障導致的訓練失敗能夠自動調度其他節(jié)點繼續(xù)訓練,通過量化指標驅動策略動態(tài)調整,實現(xiàn)了通信效率與計算資源的精準匹配,相比現(xiàn)有技術顯著提升異構環(huán)境下的訓練效能。核心創(chuàng)新在于將實時性能感知、策略決策模型與梯度補償機制形成閉環(huán)優(yōu)化系統(tǒng),突破傳統(tǒng)固定策略的局限性。
18、3、能同時使用不同類型的gpu統(tǒng)一調度訓練。模型是先分片,再訓練,不同類型的gpu按照分片策略,各自承擔不同的分片數(shù)量,共同訓練同一個模型。
19、4、可以修正網(wǎng)絡較差導致的節(jié)點處理的分片數(shù)量偏差,抑制模型分片引發(fā)的更新不一致,支持彈性擴縮容的無縫銜接。
20、本發(fā)明的特征及優(yōu)點將通過實施例結合附圖進行詳細說明。
1.一種用于ai模型訓練的分布式調度訓練方法,其特征在于:包括api網(wǎng)關、資源監(jiān)控模塊、動態(tài)調度模塊、節(jié)點訓練模塊以及結果保存和容錯處理模塊;?api網(wǎng)關接收客戶端訓練請求,并將信息傳遞到動態(tài)調度模塊;
2.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法,其特征在于:所述動態(tài)調度模塊包含擴展單元和負載預測單元;
3.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法,其特征在于:所述動態(tài)調度模塊分配模型分片到所述節(jié)點訓練模塊時,從當前可用節(jié)點取出若干訓練節(jié)點,將若干模型分片按照每個訓練節(jié)點的節(jié)點計算能力分配到取出的節(jié)點。
4.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法,其特征在于:所述動態(tài)調度模塊引入了梯度殘差補償算法,進行誤差修正與收斂加速。
5.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法,其特征在于:所述節(jié)點訓練模塊設置虛擬化資源池,所述虛擬化資源池進行細粒度資源分配。
6.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法,其特征在于:所述模型分片通過拉格朗日乘數(shù)法優(yōu)化分批按比例。
7.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法,其特征在于:所述聚合模型通過梯度聚合法完成聚合。
8.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法,其特征在于:所述結果保存和容錯處理模塊采用自適應梯度同步算法。