本發(fā)明涉及人工智能,更具體地說,涉及一種結(jié)合速度建模的csi時空人體關鍵點檢測方法。
背景技術(shù):
1、現(xiàn)有的大多數(shù)csi人體姿態(tài)估計方法主要依賴于單幀數(shù)據(jù)進行獨立推測,這使得在進行連續(xù)姿態(tài)估計時,難以有效捕捉連續(xù)動作之間的時序關聯(lián)。由于相鄰幀數(shù)據(jù)未得到充分結(jié)合,生成的骨架序列可能出現(xiàn)明顯的跳變現(xiàn)象,無法反映人體動作的自然過渡。尤其在需要實時追蹤和監(jiān)控人體姿態(tài)的場景中(如監(jiān)測連續(xù)動作或長期動態(tài)姿勢),這種跳變現(xiàn)象會大大降低姿態(tài)估計的穩(wěn)定性和可靠性。
2、另外,現(xiàn)有的基于單幀估計的csi人體關鍵點檢測網(wǎng)絡用于人體姿態(tài)估計方法中,在時序信息提取方面存在不足,未能充分挖掘csi數(shù)據(jù)在時間維度上的相關性以及幀與幀之間的姿態(tài)關聯(lián)。這導致了人體姿態(tài)估計精度的受限,并在處理連續(xù)性和動態(tài)性較強的場景時,表現(xiàn)不盡如人意。
3、同時,傳統(tǒng)csi人體關鍵點檢測方法側(cè)重于靜態(tài)空間結(jié)構(gòu)特征的提取,忽略了人體動作過程中骨架空間關系的時序動態(tài)變化。隨著動作的進行,人體關鍵點之間的相對位置會不斷變化,因此,檢測方法需要能夠動態(tài)學習人體結(jié)構(gòu)在空間中的變化規(guī)律,以更準確地反映人體姿態(tài)的演變。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的缺點與不足,提供一種結(jié)合速度建模的csi時空人體關鍵點檢測方法,該檢測方法可實現(xiàn)更精確、更平穩(wěn)的連續(xù)csi估計,顯著提升了人體關鍵點估計的穩(wěn)定性和準確性。另外,該檢測方法進一步規(guī)范人體的運動軌跡,使生成的骨架序列更符合人體自然運動的軌跡,從而實現(xiàn)更平滑且穩(wěn)定的姿態(tài)估計。
2、為了達到上述目的,本發(fā)明通過下述技術(shù)方案予以實現(xiàn):一種結(jié)合速度建模的csi時空人體關鍵點檢測方法,其特征在于:包括以下步驟:
3、第一步,同步采集視頻數(shù)據(jù)和csi數(shù)據(jù),并進行時間戳對齊操作;對視頻數(shù)據(jù)的人體關鍵點數(shù)據(jù)進行標注,并獲取人體關鍵點數(shù)據(jù)對應的csi數(shù)據(jù);
4、第二步,將人體關鍵點數(shù)據(jù)和csi數(shù)據(jù)劃分為數(shù)據(jù)集和訓練集,采用滑動窗口方法對數(shù)據(jù)集和訓練集的人體關鍵點數(shù)據(jù)和csi數(shù)據(jù)進行提取,得到t幀關鍵點骨架序列數(shù)據(jù)和對應的t幀csi時間序列數(shù)據(jù);
5、第三步,建立csi人體關鍵點時序檢測網(wǎng)絡;采用訓練集對csi人體關鍵點時序檢測網(wǎng)絡進行訓練,得到訓練好的csi人體關鍵點時序檢測網(wǎng)絡;
6、該csi人體關鍵點時序檢測網(wǎng)絡采用多層時空建模模塊,每個時空建模模塊均由“時間-空間”和“空間-時間”兩分支自注意力機制融合而成,得到人體關鍵點特征,以捕捉t幀csi時間序列數(shù)據(jù)在連續(xù)幀之間的時間相關性和空間信息;
7、每個時空建模模塊還引出速度分支,每個時空建模模塊的速度分支結(jié)果相加以融合得到全局速度特征,實現(xiàn)約束連續(xù)幀之間的人體關鍵點位移和方向,使生成的關鍵點骨架序列更符合人體自然運動軌跡,以實現(xiàn)更平滑穩(wěn)定的姿態(tài)估計;
8、第四步,采用訓練好的csi人體關鍵點時序檢測網(wǎng)絡對人體關鍵點的檢測,實現(xiàn)人體關鍵點估計和速度估計,以實現(xiàn)人體姿態(tài)估計。
9、在上述方案中,本發(fā)明可以解決現(xiàn)有技術(shù)中關鍵點估計的跳變問題。本發(fā)明以多幀csi數(shù)據(jù)為輸入,輸出對應的多幀關鍵點,實現(xiàn)更精確、更平穩(wěn)的連續(xù)csi估計,顯著提升了關鍵點估計的穩(wěn)定性和準確性,這種改進為連續(xù)動作監(jiān)測和長時間姿態(tài)追蹤等任務提供了更為可靠的解決方案。另外,本發(fā)明采用多層時空建模模塊,每個時空建模模塊由“時間-空間”和“空間-時間”兩分支自注意力機制融合而成,其中,時間自注意力機制捕捉csi信號在連續(xù)幀之間的時間相關性,提煉人體動作的動態(tài)特征,避免關鍵點估計的跳變,而空間多頭自注意力機制學習人體骨架的空間結(jié)構(gòu)特征,確保關鍵點之間的空間關系符合人體結(jié)構(gòu)規(guī)律。兩分支按不同順序連接,有側(cè)重地學習時間和空間信息。同時,時空建模模塊還引出速度分支,每個時空建模模塊的速度分支結(jié)果相加以融合全局的速度信息,速度估計可以約束連續(xù)幀之間的關鍵點位移和方向,使生成的骨架序列更符合人體自然運動軌跡,實現(xiàn)更平滑穩(wěn)定的姿態(tài)估計。
10、具體地說,第二步中,所述采用滑動窗口方法對數(shù)據(jù)集和訓練集的人體關鍵點數(shù)據(jù)和csi數(shù)據(jù)進行提取,得到t幀關鍵點骨架序列數(shù)據(jù)和對應的t幀csi時間序列數(shù)據(jù)是指:
11、第一步的人體關鍵點數(shù)據(jù)為gsample∈r17×2,代表17個人體關鍵點的坐標;第一步的csi數(shù)據(jù)為一幀csi信號xsample∈r3×90×5,代表3根發(fā)射天線,90代表3根接收天線乘30個振幅數(shù)據(jù)的子載波組成,5個csi連續(xù)采樣數(shù)據(jù);
12、采用滑動窗口方法提取數(shù)據(jù)后,得到t幀csi時間序列數(shù)據(jù)xc∈rt×3×90×5和t幀關鍵點骨架序列數(shù)據(jù)gkp∈rt×17×2,其中,t是時間序列長度。
13、第三步中,所述csi人體關鍵點時序檢測網(wǎng)絡包括特征提取模塊、若干個時空建模模塊、速度解碼器和關鍵點解碼器;若干個時空建模模塊級聯(lián)組成并分別與特征提取模塊和關鍵點解碼器連接;每個時空建模模塊引出的速度分支相加融合后與速度解碼器連接。
14、所述特征提取模塊由3層使用relu激活函數(shù)的卷積模塊構(gòu)成;t幀csi時間序列數(shù)據(jù)通過第一層卷積模塊后使用最大池化層下采樣,再通過后面兩層卷積模塊下采樣,最后進行全連接層擴展得到特征提取模塊輸出:
15、
16、其中,分別為t幀csi時間序列數(shù)據(jù)xc通過每層卷積模塊下采樣后的輸出,第三層卷積模塊下采樣的輸出為其中j是人體關鍵點個數(shù),j=17;
17、將在(h,w)維度進行展平并使用全連接層擴展最后一個維度的信息,得到特征提取模塊輸出:
18、
19、其中,dim是全連接層的輸出維度。
20、每個所述時空建模模塊包括由時間模塊和空間模塊順序連接組成的第一分支以及由空間模塊和時間模塊順序連接組成的第二分支;
21、將位置編碼加入至特征提取模塊輸出的不同維度,得到時空建模模塊的輸入:
22、
23、將時空建模模塊的輸入分別輸入由時間模塊和空間模塊順序連接組成的第一分支以及由空間模塊和時間模塊順序連接組成的第二分支,進行自注意力機制融合,得到人體關鍵點特征融合結(jié)果;
24、其中,f0∈rt×j×dim,為可學習的空間編碼參數(shù),為可學習的時間編碼參數(shù)。
25、所述空間模塊由空間多頭自注意力機制組成,對空間模塊的輸入提取t個時間步中每一個時間步的空間特征t代表第t個時間步t∈1,…,t,;
26、使用自注意力機制獲得多頭注意力機制中的3個向量
27、
28、其中分別是可學習的投影矩陣,i代表第i個時空建模模塊,i∈1,…,n,t代表第t個時間步i∈1,…,t,;h代表第h個頭數(shù),h∈1,…,h,;
29、最終得到空間多頭注意力的輸出:
30、
31、其中,是投影參數(shù)矩陣,dk是ks的維數(shù),i∈1,…,n,
32、對t個時間步分別使用同一個空間多頭注意力機制后,將t個時間步的結(jié)果通過堆疊,形狀變換的方式,變回初始維度(t,j,dim)并輸入多層感知機,然后經(jīng)過殘差連接并使用層歸一化得到最終空間模塊的輸出
33、
34、整個空間模塊的計算過程用si表示,i代表第i個時空建模模塊;
35、所述時間模塊由時間多頭自注意力機制組成,時間模塊的輸入為將人體關鍵點個數(shù)j和dim所在維度展平成cflatten維數(shù),得到
36、
37、使用自注意力機制獲得多頭注意力機制中的3個向量:
38、
39、其中分別是可學習的投影矩陣,i代表第i個時空建模模塊,i∈1,…,n,;h代表第h個頭數(shù),h∈1,…,h,;
40、最終得到時間多頭注意力的輸出:
41、
42、其中,是投影參數(shù)矩陣,dk是kt矩陣的維數(shù),i∈1,…,n
43、將時間多頭注意力的輸出tmhsa重新變回輸入形狀(t,j,dim)后輸入至多層感知機,然后經(jīng)過殘差連接并使用層歸一化得到最終時間模塊的輸出
44、
45、其中i∈1,…,n,時間模塊計算的整個過程用ti表示,i代表第i個時空建模模塊。
46、計算第i個時空模塊中,第一分支和第二分支的可學習的權(quán)重參數(shù)兩個權(quán)重參數(shù)的結(jié)果相加為1,計算公式如下:
47、
48、其中,w是可學習參數(shù)矩陣,concat代表將兩個分支的結(jié)果進行拼接,softmax函數(shù)將兩個權(quán)重參數(shù)轉(zhuǎn)換為概率分布,使得兩個權(quán)重的和為1;
49、將權(quán)重參數(shù)與第一分支和第二分支的輸出進行逐元素點乘,得到最終分支融合結(jié)果fi,fi也將作為于下一個時空建模模塊的特征輸入:
50、
51、其中,代表第i個時空建模模塊中,時間模塊和空間模塊順序連接組成的第一分支的特征輸出;代表第i個時空建模模塊中,空間模塊和時間模塊順序連接組成的第二分支的特征輸出;fi-1為第i-1個時空建模模塊的特征輸出,也為第i個時空建模模塊的特征輸入。
52、在每個時空建模模塊中引出第一速度分支和第二速度分支:
53、
54、其中,代表第i個時空建模模塊中,時間模塊和空間模塊順序連接組成的第一分支的空間模塊特征輸出;代表第i個時空建模模塊中,空間模塊和時間模塊順序連接組成的第二分支的時間模塊特征輸出;fi-1為第i-1個時空建模模塊的特征輸出,也為第i個時空建模模塊的特征輸入;
55、計算第i個時空模塊中,第一速度分支和第二速度分支的可學習的權(quán)重參數(shù)兩個權(quán)重參數(shù)的結(jié)果相加為1,計算公式如下;
56、
57、wm是w是可學習參數(shù)矩陣;concat代表將兩個速度分支的結(jié)果進行拼接;softmax函數(shù)將兩個權(quán)重參數(shù)轉(zhuǎn)換為概率分布,使得兩個權(quán)重的和為1;
58、將權(quán)重參數(shù)與第一速度分支和第二速度分支的輸出進行加權(quán)融合,最終獲得第i個時空建模模塊的速度特征:
59、
60、其中,vi∈rt×j×dim。
61、該csi人體關鍵點時序檢測網(wǎng)絡采用n個時空建模模塊采用n級聯(lián)組成,共獲得n個速度特征,速度特征輸入至速度解碼器中相加來融合不同時間和空間尺度的速度信息:
62、
63、將vsum輸入至transformer?encoder模塊中,并輸出結(jié)果:
64、vfeature=transformerencoderlayer(vsum)[0,:,:]
65、vfeature∈rj×dim;
66、將vfeature進行展平輸入至兩個全連接層進行尺寸變換,最終輸出形狀變換到速度的表示形狀,得到人體關鍵點的速度估計結(jié)果:
67、
68、其中,ov1,ov2是速度解碼器的中間結(jié)果。
69、該csi人體關鍵點時序檢測網(wǎng)絡采用n個時空建模模塊采用n級聯(lián)組成,關鍵點特征為最后一個時空模塊的輸出fn∈rt×j×dim;
70、將人體關鍵點個數(shù)j和dim所在維度進行展平;將fn輸入至關鍵點解碼器的兩個全連接層進行尺寸變換,最終變換到人體關鍵點估計結(jié)果:
71、
72、其中,ok1,ok2是關鍵點解碼器的中間結(jié)果;
73、計算包含關鍵點損失以及速度損失的損失函數(shù):
74、
75、其中,t幀csi時間序列數(shù)據(jù)對應的真實速度信息標注gspeed=gkp[-1,:,:]-gkp[0,:,:],gkp∈rt×17×2,為t幀關鍵點骨架序列數(shù)據(jù)gkp∈rt×17×2;α代表速度信息在損失公式中所占的權(quán)重;
76、根據(jù)損失函數(shù)判斷csi人體關鍵點時序檢測網(wǎng)絡是否訓練完成。
77、本發(fā)明結(jié)合速度建模的csi時空人體關鍵點檢測方法的優(yōu)點為:
78、1、csi人體關鍵點時序檢測網(wǎng)絡:
79、本發(fā)明csi人體關鍵點時序檢測網(wǎng)絡能夠處理多幀csi數(shù)據(jù),輸出對應的多幀關鍵點,實現(xiàn)更精確、更平穩(wěn)的連續(xù)關鍵點估計。該網(wǎng)絡通過學習關鍵點速度信息,有效減少了關鍵點估計的跳變現(xiàn)象,提高了姿態(tài)估計的穩(wěn)定性和準確性。
80、2、速度和關鍵點聯(lián)合估計的時空建模模塊:
81、本發(fā)明引入的時空建模模塊包含“時間-空間”和“空間-時間”兩分支自注意力機制,能夠同時提取csi數(shù)據(jù)中的時間和空間信息。關鍵點特征由兩分支的最終輸出通過可學習權(quán)重進行融合;速度特征從“時間-空間”分支的時間模塊和“空間-時間”分支的空間模塊的結(jié)果中同時引出,通過可學習權(quán)重進行融合。所有時空建模模塊的速度分支結(jié)果相加,得到全局速度特征。最終全局速度特征由一層transformer和兩層全連接層構(gòu)成,用于得到最終的關鍵點估計和速度估計,以實現(xiàn)人體姿態(tài)估計。
82、本發(fā)明通過速度估計,能夠獲得關鍵點序列的絕對速度和方向信息,進一步規(guī)范人體的運動軌跡,使生成的骨架序列更符合人體自然運動的軌跡,從而實現(xiàn)更平滑且穩(wěn)定的姿態(tài)估計。
83、3、加入速度建模的關鍵點估計方法:
84、通過計算關鍵點序列的最后一幀與第一幀的差值,獲得關鍵點的絕對速度和方向信息,增加連續(xù)關鍵點檢測任務的軌跡穩(wěn)定性。這種方法不僅適用于csi數(shù)據(jù)的關鍵點估計,還可以應用于連續(xù)視頻幀的關鍵點估計、2d轉(zhuǎn)3d關鍵點估計以及其他時序關鍵點檢測任務,具有廣泛的適用性和擴展性。
85、與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點與有益效果:本發(fā)明結(jié)合速度建模的csi時空人體關鍵點檢測方法可實現(xiàn)更精確、更平穩(wěn)的連續(xù)csi估計,顯著提升了人體關鍵點估計的穩(wěn)定性和準確性。另外,該檢測方法進一步規(guī)范人體的運動軌跡,使生成的骨架序列更符合人體自然運動的軌跡,從而實現(xiàn)更平滑且穩(wěn)定的姿態(tài)估計。