一種用于AI模型訓練的分布式調度訓練方法與流程

文檔序號：42300746發(fā)布日期：2025-06-27 18:43閱讀：16來源：國知局

本發(fā)明涉及人工智能訓練，屬于一種用于ai模型訓練的分布式調度訓練方法。

背景技術：

1、模型訓練傳統(tǒng)方式通常使用靜態(tài)資源分配，但是該分配方法存在資源閑置問題，kubernetes等容器編排系統(tǒng)雖然有調度系統(tǒng)，但是無法實時響應訓練節(jié)點負載波動，存在很大的局限性，另外節(jié)點如果出現(xiàn)故障，導致訓練中斷，一般需要手動處理才能恢復訓練，而且現(xiàn)在大多存在很多不同型號的gpu，每種gpu的性能是不一樣的，如何讓多種不同類型的gpu統(tǒng)一調度訓練，也是一個急需解決的問題。

技術實現(xiàn)思路

1、針對上述技術問題，本發(fā)明提供了一種用于ai模型訓練的分布式調度訓練方法。

2、為實現(xiàn)上述目的，本發(fā)明提供如下技術方案：

3、提供一種用于ai模型訓練的分布式調度訓練方法，包括api網(wǎng)關、資源監(jiān)控模塊、動態(tài)調度模塊、節(jié)點訓練模塊以及結果保存和容錯處理模塊；

4、api網(wǎng)關接收客戶端訓練請求，并將信息傳遞到動態(tài)調度模塊；

5、動態(tài)調度模塊進行模型分片，將模型分片交給對應的訓練節(jié)點，分配訓練任務到節(jié)點訓練模塊；

6、節(jié)點訓練模塊執(zhí)行具體的訓練任務，并回傳單位時間內處理的模型分片數(shù)量到動態(tài)調度模塊，動態(tài)調度模塊根據(jù)回傳數(shù)據(jù)動態(tài)調整分片策略；

7、資源監(jiān)控模塊實時采集計算節(jié)點的硬件指標和網(wǎng)絡狀態(tài)，上報節(jié)點負載至動態(tài)調度模塊，動態(tài)調度模塊根據(jù)上報數(shù)據(jù)調節(jié)節(jié)點數(shù)量；

8、訓練完成后，將每個分片聚合成最終完成訓練的聚合模型，并將最終的聚合模型傳遞到結果保存和容錯處理模塊，結果保存和容錯處理模塊保存訓練結果，并感知訓練節(jié)點狀態(tài)是否異常，若有異常，將訓練任務遷移到其他節(jié)點繼續(xù)訓練。

9、作為優(yōu)選，所述動態(tài)調度模塊包含擴展單元和負載預測單元；所述擴展單元根據(jù)資源監(jiān)控模塊上報的節(jié)點平均負載與閾值之間的大小關系增減物理節(jié)點數(shù)量，節(jié)點平均負載大于閾值時觸發(fā)擴容，節(jié)點平均負載小于閾值時觸發(fā)縮容；所述負載預測單元基于歷史數(shù)據(jù)預測未來資源需求，預測值與當前實際節(jié)點資源存在較大偏差時觸發(fā)增減物理節(jié)點數(shù)量。

10、作為優(yōu)選，所述動態(tài)調度模塊分配模型分片到所述節(jié)點訓練模塊時，從當前可用節(jié)點取出若干訓練節(jié)點，將若干模型分片按照每個訓練節(jié)點的節(jié)點計算能力分配到取出的節(jié)點。

11、作為優(yōu)選，所述動態(tài)調度模塊引入了梯度殘差補償算法，進行誤差修正與收斂加速。

12、作為優(yōu)選，所述模型分片通過拉格朗日乘數(shù)法優(yōu)化分批按比例。

13、作為優(yōu)選，所述聚合模型通過梯度聚合法完成聚合。

14、作為優(yōu)選，所述結果保存和容錯處理模塊采用自適應梯度同步算法。

15、與現(xiàn)有技術相比，本發(fā)明提供一種用于ai模型訓練的分布式調度訓練方法，具有以下有益效果：

16、1、能夠實現(xiàn)模型訓練的動態(tài)資源感知，動態(tài)分配訓練節(jié)點，模型分片能夠根據(jù)節(jié)點負載動態(tài)調整分片策略，聚合算法能夠減少通信開銷，特別是異構環(huán)境下的處理，兩者的結合實現(xiàn)更高效的訓練，支持動態(tài)節(jié)點的添加和移除。

17、2、節(jié)點故障導致的訓練失敗能夠自動調度其他節(jié)點繼續(xù)訓練，通過量化指標驅動策略動態(tài)調整，實現(xiàn)了通信效率與計算資源的精準匹配，相比現(xiàn)有技術顯著提升異構環(huán)境下的訓練效能。核心創(chuàng)新在于將實時性能感知、策略決策模型與梯度補償機制形成閉環(huán)優(yōu)化系統(tǒng)，突破傳統(tǒng)固定策略的局限性。

18、3、能同時使用不同類型的gpu統(tǒng)一調度訓練。模型是先分片，再訓練，不同類型的gpu按照分片策略，各自承擔不同的分片數(shù)量，共同訓練同一個模型。

19、4、可以修正網(wǎng)絡較差導致的節(jié)點處理的分片數(shù)量偏差，抑制模型分片引發(fā)的更新不一致，支持彈性擴縮容的無縫銜接。

20、本發(fā)明的特征及優(yōu)點將通過實施例結合附圖進行詳細說明。

技術特征：

1.一種用于ai模型訓練的分布式調度訓練方法，其特征在于：包括api網(wǎng)關、資源監(jiān)控模塊、動態(tài)調度模塊、節(jié)點訓練模塊以及結果保存和容錯處理模塊；?api網(wǎng)關接收客戶端訓練請求，并將信息傳遞到動態(tài)調度模塊；

2.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法，其特征在于：所述動態(tài)調度模塊包含擴展單元和負載預測單元；

3.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法，其特征在于：所述動態(tài)調度模塊分配模型分片到所述節(jié)點訓練模塊時，從當前可用節(jié)點取出若干訓練節(jié)點，將若干模型分片按照每個訓練節(jié)點的節(jié)點計算能力分配到取出的節(jié)點。

4.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法，其特征在于：所述動態(tài)調度模塊引入了梯度殘差補償算法，進行誤差修正與收斂加速。

5.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法，其特征在于：所述節(jié)點訓練模塊設置虛擬化資源池，所述虛擬化資源池進行細粒度資源分配。

6.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法，其特征在于：所述模型分片通過拉格朗日乘數(shù)法優(yōu)化分批按比例。

7.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法，其特征在于：所述聚合模型通過梯度聚合法完成聚合。

8.如權利要求1所述的一種用于ai模型訓練的分布式調度訓練方法，其特征在于：所述結果保存和容錯處理模塊采用自適應梯度同步算法。

技術總結
本發(fā)明涉及人工智能訓練技術領域，屬于一種用于AI模型訓練的分布式調度訓練方法，包括API網(wǎng)關、資源監(jiān)控模塊、動態(tài)調度模塊、節(jié)點訓練模塊以及結果保存和容錯處理模塊。本發(fā)明能夠實現(xiàn)模型訓練的動態(tài)資源感知，動態(tài)分配訓練節(jié)點，模型分片能夠根據(jù)節(jié)點負載動態(tài)調整分片策略，聚合算法能夠減少通信開銷，特別是異構環(huán)境下的處理，兩者的結合實現(xiàn)更高效的訓練，支持動態(tài)節(jié)點的添加和移除。并且能夠修正網(wǎng)絡較差導致的節(jié)點處理的分片數(shù)量偏差，抑制模型分片引發(fā)的更新不一致，支持彈性擴縮容的無縫銜接節(jié)點故障導致的訓練失敗能夠自動調度其他節(jié)點繼續(xù)訓練。

技術研發(fā)人員：王祥,劉青松,王凌云
受保護的技術使用者：杭州升恒科技有限公司
技術研發(fā)日：
技術公布日：2025/6/26

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：王祥,劉青松,王凌云
技術所有人：杭州升恒科技有限公司
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

日本国产欧美大码a视频,亚洲美女久久,人人爱人人搞,亚洲18在线观看,aaa少妇高潮大片免费下载,日日干夜夜草,99免费在线观看

一種用于AI模型訓練的分布式調度訓練方法與流程