本技術(shù)涉及計算機(jī)數(shù)據(jù)處理,尤其涉及數(shù)據(jù)處理方法、裝置及設(shè)備。
背景技術(shù):
1、隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,傳統(tǒng)數(shù)據(jù)湖倉架構(gòu)在處理海量數(shù)據(jù)的實時分析和批處理方面存在諸多挑戰(zhàn),尤其是在低延遲和高吞吐量的數(shù)據(jù)處理需求下,傳統(tǒng)的數(shù)據(jù)湖倉通常無法有效應(yīng)對不斷增長的業(yè)務(wù)需求,而基于paimon和flink的數(shù)據(jù)湖倉能夠有效地融合實時流處理與批處理的優(yōu)勢,實現(xiàn)數(shù)據(jù)的處理和更新。
2、然而,在基于paimon和flink的數(shù)據(jù)湖倉中,changelog?producer(數(shù)據(jù)變更日志生成方式)的選擇依賴于人工判斷。在不同任務(wù)場景中選擇合適的changelog?producer至關(guān)重要,人工判斷效率較低,導(dǎo)致處理大規(guī)模數(shù)據(jù)更新時存在效率瓶頸。
3、因此,相關(guān)基于paimon和flink的數(shù)據(jù)湖倉在處理大規(guī)模數(shù)據(jù)更新過程中存在效率瓶頸。
技術(shù)實現(xiàn)思路
1、本技術(shù)的目的是提供一種數(shù)據(jù)處理方法、裝置及設(shè)備,用以解決相關(guān)技術(shù)中基于paimon和flink的數(shù)據(jù)湖倉在處理大規(guī)模數(shù)據(jù)更新過程中存在效率瓶頸的問題。
2、第一方面,本技術(shù)提供一種數(shù)據(jù)處理方法,所述方法包括:
3、針對在終端執(zhí)行業(yè)務(wù)的過程中采集到的多源數(shù)據(jù),確定所述多源數(shù)據(jù)的任務(wù)場景特征;所述任務(wù)場景特征用于表征所述多源數(shù)據(jù)的時效性需求以及資源消耗情況;
4、根據(jù)所述任務(wù)場景特征,采用已訓(xùn)練的多層感知機(jī)網(wǎng)絡(luò)模型確定數(shù)據(jù)變更日志生成方式;
5、基于所述數(shù)據(jù)變更日志生成方式,捕捉所述多源數(shù)據(jù)中的變更,并生成數(shù)據(jù)變更日志;
6、基于所述數(shù)據(jù)變更日志,對數(shù)據(jù)湖倉中保存的數(shù)據(jù)進(jìn)行數(shù)據(jù)更新。
7、在一種可能的實施方式中,所述針對在終端執(zhí)行業(yè)務(wù)的過程中采集到的多源數(shù)據(jù),確定所述多源數(shù)據(jù)的任務(wù)場景特征,包括:
8、對所述多源數(shù)據(jù)中的數(shù)值型數(shù)據(jù)進(jìn)行歸一化處理,并對所述多源數(shù)據(jù)中的離散型數(shù)據(jù)進(jìn)行編碼處理,得到所述多源數(shù)據(jù)的任務(wù)場景特征;其中,所述數(shù)值型數(shù)據(jù)包括數(shù)據(jù)量級、cpu使用率、內(nèi)存使用率,所述離散型數(shù)據(jù)包括時效性需求。
9、在一種可能的實施方式中,所述多層感知機(jī)網(wǎng)絡(luò)模型的訓(xùn)練過程,包括:
10、獲取訓(xùn)練樣本,所述訓(xùn)練樣本為歷史數(shù)據(jù)的任務(wù)場景特征;每個訓(xùn)練樣本具有預(yù)先標(biāo)注的樣本標(biāo)簽;所述樣本標(biāo)簽用于指示對應(yīng)的訓(xùn)練樣本的數(shù)據(jù)變更日志生成方式;
11、將所述訓(xùn)練樣本輸入待訓(xùn)練的多層感知機(jī)網(wǎng)絡(luò)模型,通過所述待訓(xùn)練的多層感知機(jī)網(wǎng)絡(luò)模型對所述訓(xùn)練樣本進(jìn)行數(shù)據(jù)變更日志生成方式的預(yù)測,得到所述訓(xùn)練樣本的數(shù)據(jù)變更日志的預(yù)測生成方式;
12、將所述預(yù)測生成方式與所述訓(xùn)練樣本的樣本標(biāo)簽進(jìn)行對比,確定損失值,基于所述損失值,調(diào)整所述多層感知機(jī)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù),得到已訓(xùn)練的多層感知機(jī)網(wǎng)絡(luò)模型。
13、在一種可能的實施方式中,所述方法還包括:
14、每間隔預(yù)設(shè)時長,針對當(dāng)前時間窗口內(nèi)所述數(shù)據(jù)湖倉中的更新后數(shù)據(jù),確定所述更新后數(shù)據(jù)的數(shù)據(jù)特征和統(tǒng)計特征;所述數(shù)據(jù)特征是通過皮爾遜系數(shù)提取到的特征;所述時間窗口的長度為預(yù)設(shè)時長;
15、根據(jù)當(dāng)前時間窗口內(nèi)所述更新后數(shù)據(jù)的所述數(shù)據(jù)特征和所述統(tǒng)計特征,采用已訓(xùn)練的長短期記憶網(wǎng)絡(luò)模型確定下一時間窗口內(nèi)所述更新后數(shù)據(jù)的數(shù)據(jù)溫度;所述數(shù)據(jù)溫度用于表征數(shù)據(jù)的訪問頻率;
16、若所述更新后數(shù)據(jù)的數(shù)據(jù)溫度大于或等于預(yù)設(shè)溫度閾值,則確定所述更新后數(shù)據(jù)為熱數(shù)據(jù),并將所述熱數(shù)據(jù)保存到數(shù)據(jù)查詢引擎轉(zhuǎn)化為物化視圖;所述物化視圖用于對數(shù)據(jù)湖倉中保存的數(shù)據(jù)進(jìn)行數(shù)據(jù)查詢;
17、若所述更新后數(shù)據(jù)的數(shù)據(jù)溫度小于所述預(yù)設(shè)溫度閾值,則確定所述更新后數(shù)據(jù)為冷數(shù)據(jù)。
18、在一種可能的實施方式中,所述針對當(dāng)前時間窗口內(nèi)所述數(shù)據(jù)湖倉中的更新后數(shù)據(jù),確定所述更新后數(shù)據(jù)的數(shù)據(jù)特征和統(tǒng)計特征,包括:
19、針對當(dāng)前時間窗口內(nèi)所述數(shù)據(jù)湖倉中的每條更新后數(shù)據(jù),分別執(zhí)行以下操作:
20、對于所述更新后數(shù)據(jù)的多個數(shù)據(jù)字段,確定每個數(shù)據(jù)字段與數(shù)據(jù)溫度的皮爾遜相關(guān)系數(shù),得到多個皮爾遜相關(guān)系數(shù);
21、基于所述多個皮爾遜相關(guān)系數(shù),從所述多個數(shù)據(jù)字段中選擇預(yù)設(shè)數(shù)量的數(shù)據(jù)字段作為所述更新后數(shù)據(jù)的數(shù)據(jù)特征;
22、將所述更新后數(shù)據(jù)的訪問頻率、第一復(fù)用距離、第二復(fù)用距離和平均復(fù)用距離進(jìn)行組合,得到所述更新后數(shù)據(jù)的統(tǒng)計特征。
23、在一種可能的實施方式中,所述根據(jù)當(dāng)前時間窗口內(nèi)所述更新后數(shù)據(jù)的所述數(shù)據(jù)特征和所述統(tǒng)計特征,采用已訓(xùn)練的長短期記憶網(wǎng)絡(luò)模型確定下一時間窗口內(nèi)所述更新后數(shù)據(jù)的數(shù)據(jù)溫度,包括:
24、將當(dāng)前時間窗口中每條更新后數(shù)據(jù)的數(shù)據(jù)溫度特征和統(tǒng)計特征進(jìn)行組合,得到所述每條更新后數(shù)據(jù)的特征向量;
25、按照每條更新后數(shù)據(jù)的更新時間,對當(dāng)前時間窗口中的多條更新后數(shù)據(jù)的特征向量進(jìn)行排序,得到特征向量序列;
26、將所述特征向量序列輸入到所述已訓(xùn)練的長短期記憶網(wǎng)絡(luò)模型,得到所述長短期記憶網(wǎng)絡(luò)模型輸出的下一時間窗口所述更新后數(shù)據(jù)的數(shù)據(jù)溫度。
27、在一種可能的實施方式中,所述方法還包括:
28、在接收到數(shù)據(jù)查詢指令后,響應(yīng)于所述數(shù)據(jù)查詢指令,從數(shù)據(jù)查詢引擎的物化視圖中獲得熱數(shù)據(jù)的查詢結(jié)果,并從數(shù)據(jù)湖倉保存的數(shù)據(jù)中獲得冷數(shù)據(jù)的查詢結(jié)果;
29、整合所述熱數(shù)據(jù)的查詢結(jié)果和所述冷數(shù)據(jù)的查詢結(jié)果,得到數(shù)據(jù)查詢結(jié)果。
30、第二方面,本技術(shù)提供一種數(shù)據(jù)處理裝置,所述裝置包括:
31、第一特征確定模塊,被配置為針對在終端執(zhí)行業(yè)務(wù)的過程中采集到的多源數(shù)據(jù),確定所述多源數(shù)據(jù)的任務(wù)場景特征;所述任務(wù)場景特征用于表征所述多源數(shù)據(jù)的時效性需求以及資源消耗情況;
32、生成方式確定模塊,被配置為根據(jù)所述任務(wù)場景特征,采用已訓(xùn)練的多層感知機(jī)網(wǎng)絡(luò)模型確定數(shù)據(jù)變更日志生成方式;
33、日志生成模塊,被配置為基于所述數(shù)據(jù)變更日志生成方式,捕捉所述多源數(shù)據(jù)中的變更,并生成數(shù)據(jù)變更日志;
34、數(shù)據(jù)更新模塊,被配置為基于所述數(shù)據(jù)變更日志,對數(shù)據(jù)湖倉中保存的數(shù)據(jù)進(jìn)行數(shù)據(jù)更新。
35、在一種可能的實施方式中,所述針對在終端執(zhí)行業(yè)務(wù)的過程中采集到的多源數(shù)據(jù),確定所述多源數(shù)據(jù)的任務(wù)場景特征,所述第一特征確定模塊被配置為:
36、對所述多源數(shù)據(jù)中的數(shù)值型數(shù)據(jù)進(jìn)行歸一化處理,并對所述多源數(shù)據(jù)中的離散型數(shù)據(jù)進(jìn)行編碼處理,得到所述多源數(shù)據(jù)的任務(wù)場景特征;其中,所述數(shù)值型數(shù)據(jù)包括數(shù)據(jù)量級、cpu使用率、內(nèi)存使用率,所述離散型數(shù)據(jù)包括時效性需求。
37、在一種可能的實施方式中,執(zhí)行所述多層感知機(jī)網(wǎng)絡(luò)模型的訓(xùn)練過程,所述生成方式確定模塊被配置為:
38、獲取訓(xùn)練樣本,所述訓(xùn)練樣本為歷史數(shù)據(jù)的任務(wù)場景特征;每個訓(xùn)練樣本具有預(yù)先標(biāo)注的樣本標(biāo)簽;所述樣本標(biāo)簽用于指示對應(yīng)的訓(xùn)練樣本的數(shù)據(jù)變更日志生成方式;
39、將所述訓(xùn)練樣本輸入待訓(xùn)練的多層感知機(jī)網(wǎng)絡(luò)模型,通過所述待訓(xùn)練的多層感知機(jī)網(wǎng)絡(luò)模型對所述訓(xùn)練樣本進(jìn)行數(shù)據(jù)變更日志生成方式的預(yù)測,得到所述訓(xùn)練樣本的數(shù)據(jù)變更日志的預(yù)測生成方式;
40、將所述預(yù)測生成方式與所述訓(xùn)練樣本的樣本標(biāo)簽進(jìn)行對比,確定損失值,基于所述損失值,調(diào)整所述多層感知機(jī)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)參數(shù),得到已訓(xùn)練的多層感知機(jī)網(wǎng)絡(luò)模型。
41、在一種可能的實施方式中,所述裝置還包括:
42、第二特征確定模塊,被配置為每間隔預(yù)設(shè)時長,針對當(dāng)前時間窗口內(nèi)所述數(shù)據(jù)湖倉中的更新后數(shù)據(jù),確定所述更新后數(shù)據(jù)的數(shù)據(jù)特征和統(tǒng)計特征;所述數(shù)據(jù)特征是通過皮爾遜系數(shù)提取到的特征;所述時間窗口的長度為預(yù)設(shè)時長;
43、數(shù)據(jù)溫度確定模塊,被配置為根據(jù)當(dāng)前時間窗口內(nèi)所述更新后數(shù)據(jù)的所述數(shù)據(jù)特征和所述統(tǒng)計特征,采用已訓(xùn)練的長短期記憶網(wǎng)絡(luò)模型確定下一時間窗口內(nèi)所述更新后數(shù)據(jù)的數(shù)據(jù)溫度;所述數(shù)據(jù)溫度用于表征數(shù)據(jù)的訪問頻率;
44、熱數(shù)據(jù)確定模塊,被配置為若所述更新后數(shù)據(jù)的數(shù)據(jù)溫度大于或等于預(yù)設(shè)溫度閾值,則確定所述更新后數(shù)據(jù)為熱數(shù)據(jù),并將所述熱數(shù)據(jù)保存到數(shù)據(jù)查詢引擎轉(zhuǎn)化為物化視圖;所述物化視圖用于對數(shù)據(jù)湖倉中保存的數(shù)據(jù)進(jìn)行數(shù)據(jù)查詢;
45、冷數(shù)據(jù)確定模塊,被配置為若所述更新后數(shù)據(jù)的數(shù)據(jù)溫度小于所述預(yù)設(shè)溫度閾值,則確定所述更新后數(shù)據(jù)為冷數(shù)據(jù)。
46、在一種可能的實施方式中,所述針對當(dāng)前時間窗口內(nèi)所述數(shù)據(jù)湖倉中的更新后數(shù)據(jù),確定所述更新后數(shù)據(jù)的數(shù)據(jù)特征和統(tǒng)計特征,所述第二特征確定模塊被配置為:
47、針對當(dāng)前時間窗口內(nèi)所述數(shù)據(jù)湖倉中的每條更新后數(shù)據(jù),分別執(zhí)行以下操作:
48、對于所述更新后數(shù)據(jù)的多個數(shù)據(jù)字段,確定每個數(shù)據(jù)字段與數(shù)據(jù)溫度的皮爾遜相關(guān)系數(shù),得到多個皮爾遜相關(guān)系數(shù);
49、基于所述多個皮爾遜相關(guān)系數(shù),從所述多個數(shù)據(jù)字段中選擇預(yù)設(shè)數(shù)量的數(shù)據(jù)字段作為所述更新后數(shù)據(jù)的數(shù)據(jù)特征;
50、將所述更新后數(shù)據(jù)的訪問頻率、第一復(fù)用距離、第二復(fù)用距離和平均復(fù)用距離進(jìn)行組合,得到所述更新后數(shù)據(jù)的統(tǒng)計特征。
51、在一種可能的實施方式中,所述根據(jù)當(dāng)前時間窗口內(nèi)所述更新后數(shù)據(jù)的所述數(shù)據(jù)特征和所述統(tǒng)計特征,采用已訓(xùn)練的長短期記憶網(wǎng)絡(luò)模型確定下一時間窗口內(nèi)所述更新后數(shù)據(jù)的數(shù)據(jù)溫度,所述數(shù)據(jù)溫度確定模塊被配置為:
52、將當(dāng)前時間窗口中每條更新后數(shù)據(jù)的數(shù)據(jù)溫度特征和統(tǒng)計特征進(jìn)行組合,得到所述每條更新后數(shù)據(jù)的特征向量;
53、按照每條更新后數(shù)據(jù)的更新時間,對當(dāng)前時間窗口中的多條更新后數(shù)據(jù)的特征向量進(jìn)行排序,得到特征向量序列;
54、將所述特征向量序列輸入到所述已訓(xùn)練的長短期記憶網(wǎng)絡(luò)模型,得到所述長短期記憶網(wǎng)絡(luò)模型輸出的下一時間窗口所述更新后數(shù)據(jù)的數(shù)據(jù)溫度。
55、在一種可能的實施方式中,所述裝置還包括數(shù)據(jù)查詢模塊,被配置為:
56、在接收到數(shù)據(jù)查詢指令后,響應(yīng)于所述數(shù)據(jù)查詢指令,從數(shù)據(jù)查詢引擎的物化視圖中獲得熱數(shù)據(jù)的查詢結(jié)果,并從數(shù)據(jù)湖倉保存的數(shù)據(jù)中獲得冷數(shù)據(jù)的查詢結(jié)果;
57、整合所述熱數(shù)據(jù)的查詢結(jié)果和所述冷數(shù)據(jù)的查詢結(jié)果,得到數(shù)據(jù)查詢結(jié)果。
58、第三方面,本技術(shù)提供了一種電子設(shè)備,包括:
59、處理器和存儲器;
60、所述存儲器,用于存儲所述處理器可執(zhí)行指令;
61、所述處理器被配置為執(zhí)行所述指令以實現(xiàn)如本技術(shù)第一方面中提供的任一項所述的數(shù)據(jù)處理方法。
62、第四方面,本技術(shù)提供了一種計算機(jī)可讀存儲介質(zhì),當(dāng)所述計算機(jī)可讀存儲介質(zhì)中的指令由電子設(shè)備的處理器執(zhí)行時,使得所述電子設(shè)備能夠執(zhí)行如本技術(shù)第一方面中提供的任一項所述的數(shù)據(jù)處理方法。
63、第五方面,本技術(shù)提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如本技術(shù)第一方面中提供的任一項所述的數(shù)據(jù)處理方法。
64、本技術(shù)的實施例提供的技術(shù)方案至少帶來以下有益效果:
65、本技術(shù)實施例提供的數(shù)據(jù)處理方法,能夠根據(jù)不同的任務(wù)場景自動選取最合適的數(shù)據(jù)變更日志生成方式changelog?producer,確保數(shù)據(jù)在數(shù)據(jù)湖倉各層之間的高效傳輸,動態(tài)調(diào)整數(shù)據(jù)更新策略,以適應(yīng)不斷變化的業(yè)務(wù)需求,并提升系統(tǒng)整體的數(shù)據(jù)更新效率。
66、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本技術(shù)。在符合本領(lǐng)域常識的基礎(chǔ)上,上述各優(yōu)選條件,可任意組合,即得本技術(shù)各較佳實施例。