本發(fā)明涉及負(fù)載和能耗協(xié)同調(diào)度,具體涉及一種基于人工智能的分布式算力中心負(fù)載和能耗協(xié)同調(diào)度方法、系統(tǒng)、存儲(chǔ)介質(zhì)和電子設(shè)備。
背景技術(shù):
1、在數(shù)字化轉(zhuǎn)型浪潮中,分布式算力中心已成為推動(dòng)各行業(yè)發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施。分布式算力中心在運(yùn)行過(guò)程中面臨著工作負(fù)載不均衡和能耗過(guò)高的嚴(yán)峻挑戰(zhàn)。
2、一方面,由于不同應(yīng)用程序?qū)λ懔Φ男枨蟛町惥薮螅胰蝿?wù)的到達(dá)時(shí)間和持續(xù)時(shí)長(zhǎng)具有隨機(jī)性,導(dǎo)致計(jì)算節(jié)點(diǎn)之間的工作負(fù)載分布極不均勻。某些節(jié)點(diǎn)可能因承擔(dān)過(guò)多任務(wù)而出現(xiàn)過(guò)載,性能下降甚至崩潰。而另一些節(jié)點(diǎn)則可能處于閑置狀態(tài),造成資源浪費(fèi)。另一方面,算力中心的能耗問(wèn)題也不容忽視。計(jì)算節(jié)點(diǎn)在運(yùn)行時(shí)會(huì)消耗大量電能,同時(shí)為了維持其正常工作溫度,冷卻系統(tǒng)也需要消耗大量能源。過(guò)高的能耗不僅增加了運(yùn)營(yíng)成本,還對(duì)環(huán)境造成了較大壓力。因此,實(shí)現(xiàn)分布式算力中心工作負(fù)載和能耗的協(xié)同調(diào)度,提高資源利用率,降低能耗,成為當(dāng)前亟待解決的關(guān)鍵問(wèn)題。
3、以邊緣算力中心為例,作為分布式算力中心的一種典型應(yīng)用場(chǎng)景,其節(jié)點(diǎn)分布廣泛且資源受限,任務(wù)工作負(fù)載的動(dòng)態(tài)性和網(wǎng)絡(luò)環(huán)境的復(fù)雜性進(jìn)一步加劇了工作負(fù)載不均衡和能耗過(guò)高的問(wèn)題。例如,在智能城市或工業(yè)互聯(lián)網(wǎng)中,邊緣節(jié)點(diǎn)需要實(shí)時(shí)處理大量本地化數(shù)據(jù),但由于任務(wù)分配不均,部分節(jié)點(diǎn)可能因過(guò)載而無(wú)法滿足實(shí)時(shí)性要求,而其他節(jié)點(diǎn)卻處于低效運(yùn)行狀態(tài)。同時(shí),邊緣設(shè)備的能源供應(yīng)通常有限,過(guò)高的能耗會(huì)顯著縮短設(shè)備壽命并增加運(yùn)維成本
4、目前,大多數(shù)方法只關(guān)注算力中心工作負(fù)載或者能耗單方面的研究,而忽視了在算力中心工作負(fù)載、算力中心工作負(fù)載能耗和冷卻系統(tǒng)能耗之間的強(qiáng)關(guān)聯(lián)性,導(dǎo)致在能耗管理和優(yōu)化過(guò)程中,難以精準(zhǔn)地識(shí)別出能耗的熱點(diǎn)區(qū)域和流動(dòng)路徑,從而無(wú)法進(jìn)行針對(duì)性的改進(jìn)。
技術(shù)實(shí)現(xiàn)思路
1、(一)解決的技術(shù)問(wèn)題
2、針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于人工智能的分布式算力中心負(fù)載和能耗協(xié)同調(diào)度方法、系統(tǒng)、存儲(chǔ)介質(zhì)和電子設(shè)備,解決了單獨(dú)調(diào)度算力中心工作負(fù)載或者能耗導(dǎo)致資源分配不合理的技術(shù)問(wèn)題。
3、(二)技術(shù)方案
4、為實(shí)現(xiàn)以上目的,本發(fā)明通過(guò)以下技術(shù)方案予以實(shí)現(xiàn):
5、一種基于人工智能的分布式算力中心負(fù)載和能耗協(xié)同調(diào)度方法,包括:
6、采集并預(yù)處理節(jié)點(diǎn)工作負(fù)載歷史數(shù)據(jù)、新算力任務(wù)的工作負(fù)載需求的歷史數(shù)據(jù)、節(jié)點(diǎn)工作負(fù)載的能耗歷史數(shù)據(jù)、節(jié)點(diǎn)環(huán)境歷史數(shù)據(jù)以及冷卻系統(tǒng)的能耗歷史數(shù)據(jù);
7、基于預(yù)處理后的所述節(jié)點(diǎn)工作負(fù)載歷史數(shù)據(jù)以及所述新算力任務(wù)的工作負(fù)載需求的歷史數(shù)據(jù),并劃分第一訓(xùn)練集和第一測(cè)試集,利用gat和lstm構(gòu)建算力中心節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)模型,以獲取節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)數(shù)據(jù);
8、基于預(yù)處理后的所述節(jié)點(diǎn)工作負(fù)載的能耗歷史數(shù)據(jù)以及所述節(jié)點(diǎn)環(huán)境歷史數(shù)據(jù),結(jié)合所述節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)數(shù)據(jù),并劃分第二訓(xùn)練集和第二測(cè)試集,利用gat和lstm構(gòu)建算力中心節(jié)點(diǎn)工作負(fù)載能耗預(yù)測(cè)模型,以獲取節(jié)點(diǎn)工作負(fù)載的能耗預(yù)測(cè)數(shù)據(jù);
9、基于預(yù)處理后的所述冷卻系統(tǒng)的能耗歷史數(shù)據(jù)以及所述節(jié)點(diǎn)環(huán)境歷史數(shù)據(jù),結(jié)合所述節(jié)點(diǎn)工作負(fù)載的能耗預(yù)測(cè)數(shù)據(jù),并劃分第三訓(xùn)練集和第三測(cè)試集,利用lstm構(gòu)建冷卻系統(tǒng)的能耗預(yù)測(cè)模型;
10、采集新算力任務(wù)的工作負(fù)載需求數(shù)據(jù),以及節(jié)點(diǎn)工作負(fù)載、工作負(fù)載能耗最新歷史數(shù)據(jù)、節(jié)點(diǎn)環(huán)境、冷卻系統(tǒng)的能耗最新歷史數(shù)據(jù),通過(guò)所述算力中心節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)模型、所述算力中心節(jié)點(diǎn)工作負(fù)載能耗預(yù)測(cè)模型以及所述冷卻系統(tǒng)的能耗預(yù)測(cè)模型,預(yù)測(cè)節(jié)點(diǎn)在未來(lái)時(shí)間窗口內(nèi)的工作負(fù)載、工作負(fù)載的能耗、冷卻系統(tǒng)的能耗數(shù)據(jù);
11、將所述未來(lái)時(shí)間窗口內(nèi)的工作負(fù)載、工作負(fù)載的能耗、冷卻系統(tǒng)的能耗數(shù)據(jù)填充入預(yù)設(shè)的提示信息模板,并作為生成式人工智能的輸入,獲取最終的分布式算力中心工作負(fù)載-能耗協(xié)同調(diào)度方案。
12、優(yōu)選的,所述算力中心節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)模型包括兩個(gè)lstm層、兩個(gè)gat層;其中:
13、第一lstm層用于接收多個(gè)計(jì)算節(jié)點(diǎn)的多個(gè)歷史時(shí)間步長(zhǎng)的節(jié)點(diǎn)工作負(fù)載歷史數(shù)據(jù),并將其輸出的特征傳遞至第一gat層,以通過(guò)多注意力頭獲取第一特征;
14、第二lstm層用于接收多個(gè)新算力任務(wù)的工作負(fù)載需求的歷史數(shù)據(jù),并將其輸出的特征進(jìn)行數(shù)據(jù)結(jié)構(gòu)重塑后,獲取第二特征;
15、第二gat層用于接收所述第一特征以及所述第二特征的合并結(jié)果,獲取多個(gè)計(jì)算節(jié)點(diǎn)的多個(gè)歷史時(shí)間步長(zhǎng)的節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)數(shù)據(jù)。
16、優(yōu)選的,所述算力中心節(jié)點(diǎn)工作負(fù)載能耗預(yù)測(cè)模型包括三個(gè)lstm層和兩個(gè)gat層;其中:
17、第三lstm層用于接收多個(gè)計(jì)算節(jié)點(diǎn)的多個(gè)歷史時(shí)間步長(zhǎng)的節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)數(shù)據(jù),以獲取第三特征;
18、第四lstm層用于接收多個(gè)計(jì)算節(jié)點(diǎn)的多個(gè)歷史時(shí)間步長(zhǎng)的節(jié)點(diǎn)工作負(fù)載的能耗歷史數(shù)據(jù),以獲取第四特征;
19、第五lstm層用于接收多個(gè)歷史時(shí)間步長(zhǎng)的節(jié)點(diǎn)環(huán)境歷史數(shù)據(jù),并將其輸出的特征進(jìn)行數(shù)據(jù)結(jié)構(gòu)重塑后,獲取第五特征;
20、第三gat層用于接收所述第三特征、所述第四特征以及所述第五特征的合并結(jié)果,并傳遞至第四gat層,以獲取多個(gè)計(jì)算節(jié)點(diǎn)的多個(gè)歷史時(shí)間步長(zhǎng)的節(jié)點(diǎn)工作負(fù)載的能耗預(yù)測(cè)數(shù)據(jù)。
21、優(yōu)選的,所述lstm構(gòu)建冷卻系統(tǒng)的能耗預(yù)測(cè)模型包括兩個(gè)lstm;其中:
22、將多個(gè)計(jì)算節(jié)點(diǎn)的多個(gè)歷史時(shí)間步長(zhǎng)的節(jié)點(diǎn)工作負(fù)載的能耗預(yù)測(cè)數(shù)據(jù)進(jìn)行數(shù)據(jù)結(jié)構(gòu)重塑后,獲取第六特征;并將冷卻系統(tǒng)的能耗歷史數(shù)據(jù)作為第七特征,以及將預(yù)處理后的節(jié)點(diǎn)環(huán)境歷史數(shù)據(jù)作為第八特征;
23、第六lstm層用于接收所述第六特征、所述第七特征以及所述第八特征的合并結(jié)果,并傳遞至第七lstm層,以獲取冷卻系統(tǒng)的多個(gè)歷史時(shí)間步長(zhǎng)的能耗預(yù)測(cè)數(shù)據(jù)。
24、優(yōu)選的,所述生成式人工智能采用gpt-4。
25、優(yōu)選的,其特征在于,
26、所述節(jié)點(diǎn)工作負(fù)載歷史數(shù)據(jù)包括cpu的使用率、平均負(fù)載、內(nèi)存的占用量、內(nèi)存的空閑量、內(nèi)存的使用率、磁盤的讀寫速度、磁盤的讀寫次數(shù)、磁盤的i/o等待時(shí)間、正在運(yùn)行的進(jìn)程數(shù)量、任務(wù)隊(duì)列長(zhǎng)度、每個(gè)進(jìn)程占用的cpu時(shí)間、每秒處理的事務(wù)數(shù)、每秒傳輸?shù)臄?shù)據(jù)量中的任一項(xiàng)或者任意幾項(xiàng)的組合。
27、優(yōu)選的,所述新算力任務(wù)的工作負(fù)載需求的歷史數(shù)據(jù)包括任務(wù)類型、任務(wù)優(yōu)先級(jí)、數(shù)據(jù)量的大小、模型的復(fù)雜度、用戶數(shù)量、用戶操作的頻率、每秒需要執(zhí)行的指令數(shù)、每秒浮點(diǎn)運(yùn)算次數(shù)、數(shù)據(jù)讀取和寫入的頻繁程度、任務(wù)的并行度中的任一項(xiàng)或者任意幾項(xiàng)的組合;
28、優(yōu)選的,所述節(jié)點(diǎn)工作負(fù)載的能耗歷史數(shù)據(jù)包括在輸入步長(zhǎng)內(nèi)節(jié)點(diǎn)整體能耗,節(jié)點(diǎn)在輸入步長(zhǎng)內(nèi)的平均能耗、cpu的能耗、內(nèi)存的能耗、存儲(chǔ)設(shè)備的能耗中的任一項(xiàng)或者任意幾項(xiàng)的組合。
29、優(yōu)選的,所述節(jié)點(diǎn)環(huán)境歷史數(shù)據(jù)包括節(jié)點(diǎn)的環(huán)境溫度、算力中心節(jié)點(diǎn)的機(jī)房溫度、天氣溫度與節(jié)點(diǎn)機(jī)房溫度的差值、環(huán)境濕度、機(jī)房濕度中的任一項(xiàng)或者任意幾項(xiàng)的組合。
30、優(yōu)選的,所述冷卻系統(tǒng)的能耗歷史數(shù)據(jù)包括在輸入步長(zhǎng)內(nèi)節(jié)點(diǎn)冷卻系統(tǒng)整體的能耗,節(jié)點(diǎn)冷卻系統(tǒng)在輸入步長(zhǎng)內(nèi)的平均能耗中的任一項(xiàng)或者任意幾項(xiàng)的組合。
31、一種基于人工智能的分布式算力中心負(fù)載和能耗協(xié)同調(diào)度系統(tǒng),包括:
32、數(shù)據(jù)采集及預(yù)處理模塊,用于采集并預(yù)處理節(jié)點(diǎn)工作負(fù)載歷史數(shù)據(jù)、新算力任務(wù)的工作負(fù)載需求的歷史數(shù)據(jù)、節(jié)點(diǎn)工作負(fù)載的能耗歷史數(shù)據(jù)、節(jié)點(diǎn)環(huán)境歷史數(shù)據(jù)以及冷卻系統(tǒng)的能耗歷史數(shù)據(jù);
33、模型訓(xùn)練模塊,用于基于預(yù)處理后的所述節(jié)點(diǎn)工作負(fù)載歷史數(shù)據(jù)以及所述新算力任務(wù)的工作負(fù)載需求的歷史數(shù)據(jù),并劃分第一訓(xùn)練集和第一測(cè)試集,利用gat和lstm構(gòu)建算力中心節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)模型,以獲取節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)數(shù)據(jù);
34、用于基于預(yù)處理后的所述節(jié)點(diǎn)工作負(fù)載的能耗歷史數(shù)據(jù)以及所述節(jié)點(diǎn)環(huán)境歷史數(shù)據(jù),結(jié)合所述節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)數(shù)據(jù),并劃分第二訓(xùn)練集和第二測(cè)試集,利用gat和lstm構(gòu)建算力中心節(jié)點(diǎn)工作負(fù)載能耗預(yù)測(cè)模型,以獲取節(jié)點(diǎn)工作負(fù)載的能耗預(yù)測(cè)數(shù)據(jù);
35、以及用于基于預(yù)處理后的所述冷卻系統(tǒng)的能耗歷史數(shù)據(jù)以及所述節(jié)點(diǎn)環(huán)境歷史數(shù)據(jù),結(jié)合所述節(jié)點(diǎn)工作負(fù)載的能耗預(yù)測(cè)數(shù)據(jù),并劃分第三訓(xùn)練集和第三測(cè)試集,利用lstm構(gòu)建冷卻系統(tǒng)的能耗預(yù)測(cè)模型;
36、數(shù)據(jù)預(yù)測(cè)模塊,用于采集新算力任務(wù)的工作負(fù)載需求數(shù)據(jù),以及節(jié)點(diǎn)工作負(fù)載、工作負(fù)載能耗最新歷史數(shù)據(jù)、節(jié)點(diǎn)環(huán)境、冷卻系統(tǒng)的能耗最新歷史數(shù)據(jù),通過(guò)所述算力中心節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)模型、所述算力中心節(jié)點(diǎn)工作負(fù)載能耗預(yù)測(cè)模型以及所述冷卻系統(tǒng)的能耗預(yù)測(cè)模型,預(yù)測(cè)節(jié)點(diǎn)在未來(lái)時(shí)間窗口內(nèi)的工作負(fù)載、工作負(fù)載的能耗、冷卻系統(tǒng)的能耗數(shù)據(jù);
37、方案生成模塊,用于將所述未來(lái)時(shí)間窗口內(nèi)的工作負(fù)載、工作負(fù)載的能耗、冷卻系統(tǒng)的能耗數(shù)據(jù)填充入預(yù)設(shè)的提示信息模板,并作為生成式人工智能的輸入,獲取最終的分布式算力中心工作負(fù)載-能耗協(xié)同調(diào)度方案。
38、一種存儲(chǔ)介質(zhì),其存儲(chǔ)有基于人工智能的分布式算力中心負(fù)載和能耗協(xié)同調(diào)度的計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序使得計(jì)算機(jī)執(zhí)行如上所述的分布式算力中心負(fù)載和能耗協(xié)同調(diào)度方法。
39、一種電子設(shè)備,包括:
40、一個(gè)或多個(gè)處理器;存儲(chǔ)器;以及一個(gè)或多個(gè)程序,其中所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)器中,并且被配置成由所述一個(gè)或多個(gè)處理器執(zhí)行,所述程序包括用于執(zhí)行如上所述的分布式算力中心負(fù)載和能耗協(xié)同調(diào)度方法。
41、(三)有益效果
42、本發(fā)明提供了一種基于人工智能的分布式算力中心負(fù)載和能耗協(xié)同調(diào)度方法、系統(tǒng)、存儲(chǔ)介質(zhì)和電子設(shè)備。與現(xiàn)有技術(shù)相比,具備以下有益效果:
43、本發(fā)明中,利用gat和lstm分別構(gòu)建算力中心節(jié)點(diǎn)工作負(fù)載預(yù)測(cè)模型、算力中心節(jié)點(diǎn)工作負(fù)載能耗預(yù)測(cè)模型以及冷卻系統(tǒng)的能耗預(yù)測(cè)模型,三者之間協(xié)同工作,建立工作負(fù)載與能耗之間的定量關(guān)系,實(shí)現(xiàn)數(shù)據(jù)共享與交互。此外,利用生成式人工智能強(qiáng)大的語(yǔ)言生成和知識(shí)推理能力,生成靈活且高效的調(diào)度策略,顯著提高系統(tǒng)的靈活性和智能程度,更好地適應(yīng)復(fù)雜多變的算力需求場(chǎng)景。