日本国产欧美大码a视频,亚洲美女久久,人人爱人人搞,亚洲18在线观看,aaa少妇高潮大片免费下载,日日干夜夜草,99免费在线观看

智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法及裝置與流程

文檔序號(hào):42294329發(fā)布日期:2025-06-27 18:30閱讀:5來源:國(guó)知局

本發(fā)明涉及智能計(jì)算中心、智算中心及算力基礎(chǔ)設(shè)施,具體涉及一種智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法及裝置。


背景技術(shù):

1、隨著人工智能技術(shù)的快速發(fā)展,“智能計(jì)算中心”和“智算中心”應(yīng)運(yùn)而生。

2、“智能計(jì)算中心”是指通過使用大規(guī)模異構(gòu)算力資源,包括通用算力和智能算力,主要為人工智能應(yīng)用(如人工智能深度學(xué)習(xí)模型開發(fā)、模型訓(xùn)練和模型推理等場(chǎng)景)提供所需算力、數(shù)據(jù)和算法的設(shè)施。智能計(jì)算中心涵蓋設(shè)施、硬件、軟件,并可提供從底層算力到頂層應(yīng)用使能的全棧能力。

3、“智能計(jì)算中心”包括但不限于“智算中心”。

4、“智算中心”即人工智能計(jì)算中心,是基于人工智能理論,采用人工智能計(jì)算架構(gòu),提供人工智能應(yīng)用所需算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的一類算力基礎(chǔ)設(shè)施。

5、“算力”是“智能計(jì)算中心”和“智算中心”的核心,是計(jì)算機(jī)設(shè)備或計(jì)算/數(shù)據(jù)中心處理信息的能力,是計(jì)算機(jī)硬件和軟件配合共同執(zhí)行某種計(jì)算需求的能力,是通過對(duì)信息數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)目標(biāo)結(jié)果輸出的計(jì)算能力,是集信息計(jì)算力、網(wǎng)絡(luò)運(yùn)載力、數(shù)據(jù)存儲(chǔ)力于一體的新型生產(chǎn)力,主要通過算力基礎(chǔ)設(shè)施向社會(huì)提供服務(wù)。

6、目前,智能計(jì)算中心在為用戶提供算力服務(wù)的過程中,算力資源中計(jì)算節(jié)點(diǎn)相關(guān)的監(jiān)測(cè)數(shù)據(jù)需要用戶進(jìn)行手動(dòng)調(diào)取,使得用戶無法直接獲知當(dāng)前算力資源中的計(jì)算節(jié)點(diǎn)健康,效率低且工作繁瑣,進(jìn)而導(dǎo)致算力資源的運(yùn)維效率很低的問題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明實(shí)施例提供一種智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法及裝置,用于解決算力資源的運(yùn)維效率很低的問題。

2、為解決上述問題,本發(fā)明是這樣實(shí)現(xiàn)的:

3、第一方面,本發(fā)明實(shí)施例提供一種智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法,包括:

4、步驟s1、對(duì)算力資源中的多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行監(jiān)測(cè),得到所述多個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合,所述節(jié)點(diǎn)數(shù)據(jù)集合包括所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)包括以下至少一項(xiàng):節(jié)點(diǎn)狀態(tài)數(shù)據(jù)、節(jié)點(diǎn)故障數(shù)據(jù)和節(jié)點(diǎn)資源利用率;

5、步驟s2、基于所述多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合進(jìn)行節(jié)點(diǎn)健康度計(jì)算,得到與所述多個(gè)計(jì)算節(jié)點(diǎn)一一對(duì)應(yīng)的多個(gè)節(jié)點(diǎn)健康信息,其中,所述節(jié)點(diǎn)健康信息用于表征所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段的節(jié)點(diǎn)健康狀態(tài);

6、步驟s3、基于所述多個(gè)計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)健康信息生成可視化圖表,所述可視化圖表用于表征所述多個(gè)計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段內(nèi)的節(jié)點(diǎn)健康信息。

7、在一個(gè)實(shí)施例中,所述步驟s1包括:

8、步驟s11:基于預(yù)設(shè)時(shí)間間隔在所述目標(biāo)時(shí)間段內(nèi)確定多個(gè)時(shí)刻,所述多個(gè)時(shí)刻中,任意相鄰的兩個(gè)時(shí)刻之間的時(shí)間間隔為所述預(yù)設(shè)時(shí)間間隔;

9、步驟s12:按照所述多個(gè)時(shí)刻分別對(duì)所述多個(gè)計(jì)算節(jié)點(diǎn)中每個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行監(jiān)測(cè),得到所述每個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的節(jié)點(diǎn)數(shù)據(jù)集合;

10、其中,所述節(jié)點(diǎn)數(shù)據(jù)集合包括所述每個(gè)計(jì)算節(jié)點(diǎn)分別在所述多個(gè)時(shí)刻的所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述節(jié)點(diǎn)健康信息包括所述每個(gè)計(jì)算節(jié)點(diǎn)分別在所述多個(gè)時(shí)刻的節(jié)點(diǎn)健康度。

11、在一個(gè)實(shí)施例中,在目標(biāo)節(jié)點(diǎn)健康度大于或者等于第一閾值的情況下,所述可視化圖表包括第一標(biāo)記信息,所述第一標(biāo)記信息用于指示所述目標(biāo)節(jié)點(diǎn)健康度的健康等級(jí)為第一健康等級(jí);

12、在目標(biāo)節(jié)點(diǎn)健康度小于所述第一閾值,且所述目標(biāo)節(jié)點(diǎn)健康度大于或者等于第二閾值的情況下,所述可視化圖表包括第二標(biāo)記信息,所述第二標(biāo)記信息用于指示所述目標(biāo)節(jié)點(diǎn)健康度的健康等級(jí)為第二健康等級(jí);

13、在目標(biāo)節(jié)點(diǎn)健康度小于所述第二閾值的情況下,所述可視化圖表包括第三標(biāo)記信息,所述第三標(biāo)記信息用于指示所述目標(biāo)節(jié)點(diǎn)健康度的健康等級(jí)為第三健康等級(jí);

14、其中,所述第一健康等級(jí)高于所述第二健康等級(jí),所述第二健康等級(jí)高于所述第三健康等級(jí),所述第一閾值大于所述第二閾值,所述目標(biāo)節(jié)點(diǎn)健康度為所述每個(gè)計(jì)算節(jié)點(diǎn)分別在所述多個(gè)時(shí)刻的節(jié)點(diǎn)健康度中的任一節(jié)點(diǎn)健康度。

15、在一個(gè)實(shí)施例中,所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)包括多個(gè)節(jié)點(diǎn)健康指標(biāo)數(shù)據(jù),所述步驟s2包括:

16、步驟s21:確定與所述多個(gè)節(jié)點(diǎn)健康指標(biāo)數(shù)據(jù)一一對(duì)應(yīng)的多個(gè)權(quán)重值;

17、步驟s22:將目標(biāo)節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)中的多個(gè)節(jié)點(diǎn)健康指標(biāo)數(shù)據(jù)和所述多個(gè)權(quán)重值進(jìn)行加權(quán)計(jì)算,得到目標(biāo)計(jì)算節(jié)點(diǎn)在目標(biāo)時(shí)刻對(duì)應(yīng)的節(jié)點(diǎn)健康度;

18、其中,所述目標(biāo)節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)為目標(biāo)計(jì)算節(jié)點(diǎn)在所述多個(gè)時(shí)刻的節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)中的任意一個(gè)節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述目標(biāo)計(jì)算節(jié)點(diǎn)為所述多個(gè)計(jì)算節(jié)點(diǎn)中的任意一個(gè)計(jì)算節(jié)點(diǎn),所述目標(biāo)時(shí)刻為所述多個(gè)時(shí)刻中,與所述目標(biāo)節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)對(duì)應(yīng)的時(shí)刻。

19、在一個(gè)實(shí)施例中,所述第一標(biāo)記信息、所述第二標(biāo)記信息和所述第三標(biāo)記信息為所述可視化圖表中的顏色標(biāo)識(shí)信息,且所述第一標(biāo)記信息、所述第二標(biāo)記信息和所述第三標(biāo)記信息中,任意兩種對(duì)應(yīng)的顏色標(biāo)識(shí)信息不同。

20、在一個(gè)實(shí)施例中,所述第一標(biāo)記信息、所述第二標(biāo)記信息和所述第三標(biāo)記信息為所述可視化圖表中的預(yù)設(shè)圖標(biāo),且所述第一標(biāo)記信息、所述第二標(biāo)記信息和所述第三標(biāo)記信息中,任意兩種對(duì)應(yīng)的預(yù)設(shè)圖標(biāo)不同。

21、第二方面,本發(fā)明實(shí)施例還提供一種智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控裝置,包括:

22、監(jiān)測(cè)模塊,用于對(duì)算力資源中的多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行監(jiān)測(cè),得到所述多個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合,所述節(jié)點(diǎn)數(shù)據(jù)集合包括所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)包括以下至少一項(xiàng):節(jié)點(diǎn)狀態(tài)數(shù)據(jù)、節(jié)點(diǎn)故障數(shù)據(jù)和節(jié)點(diǎn)資源利用率;

23、計(jì)算模塊,用于基于所述多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合進(jìn)行節(jié)點(diǎn)健康度計(jì)算,得到與所述多個(gè)計(jì)算節(jié)點(diǎn)一一對(duì)應(yīng)的多個(gè)節(jié)點(diǎn)健康信息,其中,所述節(jié)點(diǎn)健康信息用于表征所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段的節(jié)點(diǎn)健康狀態(tài);

24、生成模塊,用于基于所述多個(gè)計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)健康信息生成可視化圖表,所述可視化圖表用于表征所述多個(gè)計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段內(nèi)的節(jié)點(diǎn)健康信息。

25、第三方面,本發(fā)明還提供一種電子設(shè)備,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法中的步驟。

26、第四方面,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法中的步驟。

27、第五方面,本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法中的步驟。

28、在本發(fā)明實(shí)施例中,對(duì)算力資源中的多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行監(jiān)測(cè),得到所述多個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合,所述節(jié)點(diǎn)數(shù)據(jù)集合包括所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)包括以下至少一項(xiàng):節(jié)點(diǎn)狀態(tài)數(shù)據(jù)、節(jié)點(diǎn)故障數(shù)據(jù)和節(jié)點(diǎn)資源利用率;基于所述多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合進(jìn)行節(jié)點(diǎn)健康度計(jì)算,得到與所述多個(gè)計(jì)算節(jié)點(diǎn)一一對(duì)應(yīng)的多個(gè)節(jié)點(diǎn)健康信息,其中,所述節(jié)點(diǎn)健康信息用于表征所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段的節(jié)點(diǎn)健康狀態(tài);基于所述多個(gè)計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)健康信息生成可視化圖表,所述可視化圖表用于表征所述多個(gè)計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段內(nèi)的節(jié)點(diǎn)健康信息。這樣,通過多個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合,確定多個(gè)計(jì)算節(jié)點(diǎn)一一對(duì)應(yīng)的多個(gè)節(jié)點(diǎn)健康信息,并采用可視化圖表的方式向用戶呈現(xiàn),實(shí)現(xiàn)了算力資源節(jié)點(diǎn)健康的自動(dòng)化判斷與可視化呈現(xiàn),使得用戶可以快速且同時(shí)掌握多個(gè)計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)健康狀態(tài),進(jìn)而可以基于可視化圖表對(duì)算力資源進(jìn)行及時(shí)調(diào)整,從而能夠提高大幅度算力資源的運(yùn)維效率。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1