本發(fā)明涉及智能計(jì)算中心、智算中心及算力基礎(chǔ)設(shè)施,具體涉及一種智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法及裝置。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,“智能計(jì)算中心”和“智算中心”應(yīng)運(yùn)而生。
2、“智能計(jì)算中心”是指通過使用大規(guī)模異構(gòu)算力資源,包括通用算力和智能算力,主要為人工智能應(yīng)用(如人工智能深度學(xué)習(xí)模型開發(fā)、模型訓(xùn)練和模型推理等場(chǎng)景)提供所需算力、數(shù)據(jù)和算法的設(shè)施。智能計(jì)算中心涵蓋設(shè)施、硬件、軟件,并可提供從底層算力到頂層應(yīng)用使能的全棧能力。
3、“智能計(jì)算中心”包括但不限于“智算中心”。
4、“智算中心”即人工智能計(jì)算中心,是基于人工智能理論,采用人工智能計(jì)算架構(gòu),提供人工智能應(yīng)用所需算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的一類算力基礎(chǔ)設(shè)施。
5、“算力”是“智能計(jì)算中心”和“智算中心”的核心,是計(jì)算機(jī)設(shè)備或計(jì)算/數(shù)據(jù)中心處理信息的能力,是計(jì)算機(jī)硬件和軟件配合共同執(zhí)行某種計(jì)算需求的能力,是通過對(duì)信息數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)目標(biāo)結(jié)果輸出的計(jì)算能力,是集信息計(jì)算力、網(wǎng)絡(luò)運(yùn)載力、數(shù)據(jù)存儲(chǔ)力于一體的新型生產(chǎn)力,主要通過算力基礎(chǔ)設(shè)施向社會(huì)提供服務(wù)。
6、目前,智能計(jì)算中心在為用戶提供算力服務(wù)的過程中,算力資源中計(jì)算節(jié)點(diǎn)相關(guān)的監(jiān)測(cè)數(shù)據(jù)需要用戶進(jìn)行手動(dòng)調(diào)取,使得用戶無法直接獲知當(dāng)前算力資源中的計(jì)算節(jié)點(diǎn)健康,效率低且工作繁瑣,進(jìn)而導(dǎo)致算力資源的運(yùn)維效率很低的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明實(shí)施例提供一種智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法及裝置,用于解決算力資源的運(yùn)維效率很低的問題。
2、為解決上述問題,本發(fā)明是這樣實(shí)現(xiàn)的:
3、第一方面,本發(fā)明實(shí)施例提供一種智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法,包括:
4、步驟s1、對(duì)算力資源中的多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行監(jiān)測(cè),得到所述多個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合,所述節(jié)點(diǎn)數(shù)據(jù)集合包括所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)包括以下至少一項(xiàng):節(jié)點(diǎn)狀態(tài)數(shù)據(jù)、節(jié)點(diǎn)故障數(shù)據(jù)和節(jié)點(diǎn)資源利用率;
5、步驟s2、基于所述多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合進(jìn)行節(jié)點(diǎn)健康度計(jì)算,得到與所述多個(gè)計(jì)算節(jié)點(diǎn)一一對(duì)應(yīng)的多個(gè)節(jié)點(diǎn)健康信息,其中,所述節(jié)點(diǎn)健康信息用于表征所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段的節(jié)點(diǎn)健康狀態(tài);
6、步驟s3、基于所述多個(gè)計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)健康信息生成可視化圖表,所述可視化圖表用于表征所述多個(gè)計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段內(nèi)的節(jié)點(diǎn)健康信息。
7、在一個(gè)實(shí)施例中,所述步驟s1包括:
8、步驟s11:基于預(yù)設(shè)時(shí)間間隔在所述目標(biāo)時(shí)間段內(nèi)確定多個(gè)時(shí)刻,所述多個(gè)時(shí)刻中,任意相鄰的兩個(gè)時(shí)刻之間的時(shí)間間隔為所述預(yù)設(shè)時(shí)間間隔;
9、步驟s12:按照所述多個(gè)時(shí)刻分別對(duì)所述多個(gè)計(jì)算節(jié)點(diǎn)中每個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行監(jiān)測(cè),得到所述每個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的節(jié)點(diǎn)數(shù)據(jù)集合;
10、其中,所述節(jié)點(diǎn)數(shù)據(jù)集合包括所述每個(gè)計(jì)算節(jié)點(diǎn)分別在所述多個(gè)時(shí)刻的所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述節(jié)點(diǎn)健康信息包括所述每個(gè)計(jì)算節(jié)點(diǎn)分別在所述多個(gè)時(shí)刻的節(jié)點(diǎn)健康度。
11、在一個(gè)實(shí)施例中,在目標(biāo)節(jié)點(diǎn)健康度大于或者等于第一閾值的情況下,所述可視化圖表包括第一標(biāo)記信息,所述第一標(biāo)記信息用于指示所述目標(biāo)節(jié)點(diǎn)健康度的健康等級(jí)為第一健康等級(jí);
12、在目標(biāo)節(jié)點(diǎn)健康度小于所述第一閾值,且所述目標(biāo)節(jié)點(diǎn)健康度大于或者等于第二閾值的情況下,所述可視化圖表包括第二標(biāo)記信息,所述第二標(biāo)記信息用于指示所述目標(biāo)節(jié)點(diǎn)健康度的健康等級(jí)為第二健康等級(jí);
13、在目標(biāo)節(jié)點(diǎn)健康度小于所述第二閾值的情況下,所述可視化圖表包括第三標(biāo)記信息,所述第三標(biāo)記信息用于指示所述目標(biāo)節(jié)點(diǎn)健康度的健康等級(jí)為第三健康等級(jí);
14、其中,所述第一健康等級(jí)高于所述第二健康等級(jí),所述第二健康等級(jí)高于所述第三健康等級(jí),所述第一閾值大于所述第二閾值,所述目標(biāo)節(jié)點(diǎn)健康度為所述每個(gè)計(jì)算節(jié)點(diǎn)分別在所述多個(gè)時(shí)刻的節(jié)點(diǎn)健康度中的任一節(jié)點(diǎn)健康度。
15、在一個(gè)實(shí)施例中,所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)包括多個(gè)節(jié)點(diǎn)健康指標(biāo)數(shù)據(jù),所述步驟s2包括:
16、步驟s21:確定與所述多個(gè)節(jié)點(diǎn)健康指標(biāo)數(shù)據(jù)一一對(duì)應(yīng)的多個(gè)權(quán)重值;
17、步驟s22:將目標(biāo)節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)中的多個(gè)節(jié)點(diǎn)健康指標(biāo)數(shù)據(jù)和所述多個(gè)權(quán)重值進(jìn)行加權(quán)計(jì)算,得到目標(biāo)計(jì)算節(jié)點(diǎn)在目標(biāo)時(shí)刻對(duì)應(yīng)的節(jié)點(diǎn)健康度;
18、其中,所述目標(biāo)節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)為目標(biāo)計(jì)算節(jié)點(diǎn)在所述多個(gè)時(shí)刻的節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)中的任意一個(gè)節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述目標(biāo)計(jì)算節(jié)點(diǎn)為所述多個(gè)計(jì)算節(jié)點(diǎn)中的任意一個(gè)計(jì)算節(jié)點(diǎn),所述目標(biāo)時(shí)刻為所述多個(gè)時(shí)刻中,與所述目標(biāo)節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)對(duì)應(yīng)的時(shí)刻。
19、在一個(gè)實(shí)施例中,所述第一標(biāo)記信息、所述第二標(biāo)記信息和所述第三標(biāo)記信息為所述可視化圖表中的顏色標(biāo)識(shí)信息,且所述第一標(biāo)記信息、所述第二標(biāo)記信息和所述第三標(biāo)記信息中,任意兩種對(duì)應(yīng)的顏色標(biāo)識(shí)信息不同。
20、在一個(gè)實(shí)施例中,所述第一標(biāo)記信息、所述第二標(biāo)記信息和所述第三標(biāo)記信息為所述可視化圖表中的預(yù)設(shè)圖標(biāo),且所述第一標(biāo)記信息、所述第二標(biāo)記信息和所述第三標(biāo)記信息中,任意兩種對(duì)應(yīng)的預(yù)設(shè)圖標(biāo)不同。
21、第二方面,本發(fā)明實(shí)施例還提供一種智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控裝置,包括:
22、監(jiān)測(cè)模塊,用于對(duì)算力資源中的多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行監(jiān)測(cè),得到所述多個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合,所述節(jié)點(diǎn)數(shù)據(jù)集合包括所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)包括以下至少一項(xiàng):節(jié)點(diǎn)狀態(tài)數(shù)據(jù)、節(jié)點(diǎn)故障數(shù)據(jù)和節(jié)點(diǎn)資源利用率;
23、計(jì)算模塊,用于基于所述多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合進(jìn)行節(jié)點(diǎn)健康度計(jì)算,得到與所述多個(gè)計(jì)算節(jié)點(diǎn)一一對(duì)應(yīng)的多個(gè)節(jié)點(diǎn)健康信息,其中,所述節(jié)點(diǎn)健康信息用于表征所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段的節(jié)點(diǎn)健康狀態(tài);
24、生成模塊,用于基于所述多個(gè)計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)健康信息生成可視化圖表,所述可視化圖表用于表征所述多個(gè)計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段內(nèi)的節(jié)點(diǎn)健康信息。
25、第三方面,本發(fā)明還提供一種電子設(shè)備,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法中的步驟。
26、第四方面,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法中的步驟。
27、第五方面,本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的智能計(jì)算中心的算力資源節(jié)點(diǎn)健康監(jiān)控方法中的步驟。
28、在本發(fā)明實(shí)施例中,對(duì)算力資源中的多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行監(jiān)測(cè),得到所述多個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合,所述節(jié)點(diǎn)數(shù)據(jù)集合包括所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù),所述節(jié)點(diǎn)監(jiān)測(cè)數(shù)據(jù)包括以下至少一項(xiàng):節(jié)點(diǎn)狀態(tài)數(shù)據(jù)、節(jié)點(diǎn)故障數(shù)據(jù)和節(jié)點(diǎn)資源利用率;基于所述多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合進(jìn)行節(jié)點(diǎn)健康度計(jì)算,得到與所述多個(gè)計(jì)算節(jié)點(diǎn)一一對(duì)應(yīng)的多個(gè)節(jié)點(diǎn)健康信息,其中,所述節(jié)點(diǎn)健康信息用于表征所對(duì)應(yīng)的計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段的節(jié)點(diǎn)健康狀態(tài);基于所述多個(gè)計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)健康信息生成可視化圖表,所述可視化圖表用于表征所述多個(gè)計(jì)算節(jié)點(diǎn)在所述目標(biāo)時(shí)間段內(nèi)的節(jié)點(diǎn)健康信息。這樣,通過多個(gè)計(jì)算節(jié)點(diǎn)分別在目標(biāo)時(shí)間段內(nèi)的多個(gè)節(jié)點(diǎn)數(shù)據(jù)集合,確定多個(gè)計(jì)算節(jié)點(diǎn)一一對(duì)應(yīng)的多個(gè)節(jié)點(diǎn)健康信息,并采用可視化圖表的方式向用戶呈現(xiàn),實(shí)現(xiàn)了算力資源節(jié)點(diǎn)健康的自動(dòng)化判斷與可視化呈現(xiàn),使得用戶可以快速且同時(shí)掌握多個(gè)計(jì)算節(jié)點(diǎn)的節(jié)點(diǎn)健康狀態(tài),進(jìn)而可以基于可視化圖表對(duì)算力資源進(jìn)行及時(shí)調(diào)整,從而能夠提高大幅度算力資源的運(yùn)維效率。