本發(fā)明屬于聽覺腦機(jī)接口領(lǐng)域,尤其涉及一種基于多尺度頻空注意力網(wǎng)絡(luò)的聽覺注意解碼方法及系統(tǒng),可應(yīng)用于神經(jīng)驅(qū)動的聽覺輔助設(shè)備(人工耳蝸或助聽器)開發(fā)等。
背景技術(shù):
1、在復(fù)雜的聲學(xué)環(huán)境中,人類能夠展現(xiàn)出“雞尾酒會效應(yīng)”,即在多重聲音混雜的環(huán)境中聚焦于感興趣的目標(biāo)語音,同時忽略其他聲音的干擾。然而,對于聽力損失人群而言,背景噪聲對目標(biāo)語音的掩蔽效應(yīng)顯著增強(qiáng),使得聽覺選擇性注意能力受損,難以有效聚焦目標(biāo)語音。神經(jīng)科學(xué)研究表明,相較于非目標(biāo)語音,大腦皮層的神經(jīng)活動與目標(biāo)語音的振幅包絡(luò)呈現(xiàn)更強(qiáng)的相似性。因此,基于腦電(eeg)信號解碼聽覺注意力方向(即聽覺注意力解碼),可為神經(jīng)驅(qū)動的聽覺輔助設(shè)備提供關(guān)鍵技術(shù)支撐。
2、目前,已有研究證實了從eeg中解碼聽覺注意力的可行性,并且基于eeg的聽覺注意力解碼算法主要分為刺激重建和直接分類兩種類型。刺激重建算法在實際應(yīng)用中面臨巨大挑戰(zhàn),因為它需要從混合語音中分離出純凈的語音,這在現(xiàn)實場景下難度極高。直接分類法雖然在實際應(yīng)用方面更具潛力,但傳統(tǒng)的線性解碼器存在明顯缺陷。由于大腦聽覺系統(tǒng)具有非線性特性,傳統(tǒng)線性解碼器難以捕捉eeg信號中的非線性映射關(guān)系,這就導(dǎo)致其決策時間窗較長,而且隨著解碼窗口長度縮短,解碼準(zhǔn)確率會迅速下降。近年來,深度學(xué)習(xí)技術(shù)在聽覺注意力解碼研究中得到了廣泛應(yīng)用,但現(xiàn)有的方法仍存在諸多問題。1)頻域特征提取復(fù)雜且不優(yōu):在提取腦電頻域特征時,現(xiàn)有方法通常需要預(yù)先對eeg信號進(jìn)行濾波,然后手動提取固定頻段的微分熵特征。這種操作不僅增加了數(shù)據(jù)預(yù)處理的復(fù)雜性,而且由于固定的頻帶劃分方式,很難獲取與聽覺注意力解碼最匹配的最優(yōu)頻域解碼范圍,導(dǎo)致無法充分挖掘腦電信號中的頻域信息。2)卷積核適應(yīng)性差:大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的方法采用固定大小的卷積核來學(xué)習(xí)局部特征。然而,在實際情況中,不同被試以及不同時間點下,最優(yōu)的卷積核大小是變化的。固定卷積核大小的方法無法適應(yīng)這種變化,限制了模型對不同腦電數(shù)據(jù)特征的有效提取。3)3d卷積存在局限:部分研究嘗試將二維eeg映射為三維數(shù)據(jù),并使用3d卷積來處理時空或頻空特征,以此來利用腦電信號的空間分布特征。但3d卷積在訓(xùn)練過程中面臨諸多困難,計算復(fù)雜度高,模型難以優(yōu)化。同時,它也難以捕捉eeg信號中不同腦區(qū)之間的長距離依賴關(guān)系和動態(tài)變化信息,無法全面反映大腦在聽覺注意力過程中的活動特征。4)缺乏有效注意力機(jī)制:目前在聽覺注意力解碼領(lǐng)域,尚未有充分研究基于空間和頻域特征的注意力機(jī)制。由于缺乏這種能夠全面整合和分析eeg數(shù)據(jù)中空間和頻域信息的機(jī)制,現(xiàn)有方法無法充分捕捉與聽覺注意力相關(guān)的關(guān)鍵信息,導(dǎo)致模型的性能受到限制。
3、綜上所述,現(xiàn)有聽覺注意力解碼技術(shù)在特征提取、模型訓(xùn)練及信息捕獲等方面仍存在瓶頸,亟需一種創(chuàng)新的方法來優(yōu)化解碼策略,提高短時間窗下的解碼精度,并增強(qiáng)系統(tǒng)的實時性和適應(yīng)性,從而為神經(jīng)驅(qū)動的聽覺輔助設(shè)備提供更精準(zhǔn)、高效的技術(shù)支撐。
技術(shù)實現(xiàn)思路
1、本發(fā)明針對現(xiàn)有聽覺注意力解碼技術(shù)的不足,提出了一種基于多尺度頻空注意力網(wǎng)絡(luò)的聽覺注意解碼方法及系統(tǒng),旨在提高解碼的準(zhǔn)確性和計算效率,特別是在復(fù)雜聲學(xué)環(huán)境和短決策窗口下的解碼性能。
2、為實現(xiàn)本發(fā)明的目的所采用的技術(shù)方案是:
3、一種基于多尺度頻空注意力網(wǎng)絡(luò)的聽覺注意解碼方法,包括以下步驟:
4、步驟1,獲取專注聆聽不同方向語音時的腦電數(shù)據(jù),并使用滑動窗口對所述腦電數(shù)據(jù)進(jìn)行劃分,生成一系列決策窗口,每個決策窗口包含一段腦電信號;
5、步驟2,將所述決策窗口的腦電信號輸入多尺度頻空注意力網(wǎng)絡(luò)(mssanet模型),所述多尺度頻空注意力網(wǎng)絡(luò)包括多尺度時域卷積模塊、頻空注意力模塊和全連接層分類模塊:
6、步驟2.1,所述多尺度時域卷積模塊對輸入的腦電信號進(jìn)行處理,提取不同頻率范圍的時域特征:所述多尺度時域卷積模塊包括多尺度殘差卷積單元和時域?qū)?shù)方差計算單元,在所述多尺度殘差卷積單元中,利用 n個大小為1×1的卷積核對單個輸入樣本 r進(jìn)行升維操作,然后將升維后的輸出y按照通道維度劃分為k組,對于每一組輸出yb再利用不同的卷積核進(jìn)行深度卷積得到,將分組深度卷積后的結(jié)果按照輸出通道維度進(jìn)行拼接得到多尺度卷積輸出,多尺度卷積輸出經(jīng)過時域?qū)?shù)方差計算得到;
7、同時,對于每一組輸出yb通過固定卷積操作convres處理得到殘差卷積輸出,殘差卷積輸出經(jīng)過時域?qū)?shù)方差計算得到;
8、和相加得到多尺度時域卷積模塊的輸出,即不同頻率范圍的時域特征;
9、步驟2.2,所述頻空注意力模塊將所述時域特征轉(zhuǎn)換為頻空特征圖,進(jìn)一步通過自注意力機(jī)制和可學(xué)習(xí)位置編碼捕獲不同腦區(qū)之間的全局依賴關(guān)系,提取與聽覺注意力相關(guān)的頻譜空間信息;
10、步驟2.3,所述全連接層分類模塊基于所述頻譜空間信息,輸出預(yù)測語音方向為左側(cè)或者右側(cè)方向的概率。
11、在上述技術(shù)方案中,所述步驟1中,在對腦電數(shù)據(jù)進(jìn)行劃分前,還包括數(shù)據(jù)預(yù)處理步驟,所述數(shù)據(jù)預(yù)處理步驟包括降采樣、濾波、去偽跡和/或通道歸一化。
12、若所述腦電數(shù)據(jù)來自kul數(shù)據(jù)集,先將腦電數(shù)據(jù)降采樣到128?hz,再用8階巴特沃斯濾波器進(jìn)行?0.1-50?hz?帶通濾波,最后進(jìn)行通道歸一化;
13、若所述腦電數(shù)據(jù)來自dtu數(shù)據(jù)集,先濾波去除50?hz線性噪聲和偽跡,通過聯(lián)合去相關(guān)性分析去除眼偽跡,進(jìn)行全腦平均重參考,然后降采樣到128?hz并進(jìn)行通道歸一化。
14、在上述技術(shù)方案中,,其中,為核為1的卷積, r為每個決策窗口內(nèi)的腦電信號,w1是1×1卷積核的權(quán)重矩陣,b1是偏置向量,y∈rn×c×t是升維后的輸出,n為卷積的數(shù)量,c為腦電信號的通道數(shù),t為表示每個決策窗口內(nèi)的樣本點數(shù)。
15、在上述技術(shù)方案中,y=[y1,y2,…,yk],其中yb∈rn/k×c×t,b=1,2,…,k,第b組使用大小為(1, k b)的卷積核進(jìn)行深度卷積,,其中,為深度卷積, k b為不同的卷積核尺寸,w2 b是第 b組卷積核的權(quán)重矩陣,b2 b是偏置向量,z b為深度卷積后的腦電數(shù)據(jù),z b∈rn/k×c×t,。
16、在上述技術(shù)方案中,,其中,為殘差卷積,w3是殘差卷積核的權(quán)重矩陣,b3偏置向量。
17、在上述技術(shù)方案中,時域?qū)?shù)方差的計算公式為,其中,∈表示第 i導(dǎo)聯(lián)的個樣本點,為步幅,表示樣本點的方差,所述樣本點為或。
18、在上述技術(shù)方案中,所述步驟2.2中,將多尺度時域卷積模塊得到的輸出轉(zhuǎn)換為大小為n×m的頻-空特征圖f∈rn×m,其中m=c×d, d表示腦電時域長度按照 t'步長劃分的數(shù)量,將頻空特征圖f通過可學(xué)習(xí)位置編碼保留eeg信號的空間位置信息輸出特征 p,并采用transformer?encoder對特征 p進(jìn)行跨頻域處理得到,,為與聽覺注意力相關(guān)的頻譜空間信息。
19、在上述技術(shù)方案中,所述步驟2.3中,先將頻空注意力特征進(jìn)行展平,然后經(jīng)過兩個全連接層進(jìn)行聽覺注意解碼方向的概率的預(yù)測得到,,其中,為模型輸出的預(yù)測概率,w4是轉(zhuǎn)換的權(quán)重矩陣,b4是偏置向量。
20、在上述技術(shù)方案中,所述步驟2中,利用交叉熵?fù)p失函數(shù)對多尺度頻空注意力網(wǎng)絡(luò)進(jìn)行評估,,其中,代表樣本數(shù),是分類數(shù),是真實值,是預(yù)測值, i為第 i個樣本, c為類別數(shù),對應(yīng)左或右。
21、本發(fā)明的另一方面,還包括可實現(xiàn)所述基于多尺度頻空注意力網(wǎng)絡(luò)的聽覺注意解碼方法的系統(tǒng),包括數(shù)據(jù)導(dǎo)入模塊、數(shù)據(jù)預(yù)處理模塊、所述的多尺度頻空注意力網(wǎng)絡(luò)、模型訓(xùn)練模塊和結(jié)果可視化模塊;
22、所述數(shù)據(jù)導(dǎo)入模塊用于選擇不同類型的數(shù)據(jù)集并導(dǎo)入數(shù)據(jù),所述數(shù)據(jù)預(yù)處理模塊對導(dǎo)入的數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括降采樣、高通濾波、低通濾波和/或歸一化;
23、所述模型訓(xùn)練模塊用于設(shè)置時間窗的長短以及數(shù)據(jù)集劃分比例,以優(yōu)化多尺度頻空注意力網(wǎng)絡(luò)的訓(xùn)練效果,以適應(yīng)不同的聽覺注意力解碼任務(wù)需求;
24、所述結(jié)果可視化模塊可視化展示多尺度頻空注意力網(wǎng)絡(luò)訓(xùn)練后模型預(yù)測結(jié)果的準(zhǔn)確率,當(dāng)步驟2.3中預(yù)測語音方向為左側(cè)概率高時,模型預(yù)測結(jié)果為“左側(cè)”,當(dāng)步驟2.3中預(yù)測語音方向為右側(cè)概率高時,模型預(yù)測結(jié)果為“右側(cè)”,所述準(zhǔn)確率為所有樣本中預(yù)測正確的占總樣本的百分比。
25、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
26、(1)高效特征提取與自適應(yīng)頻域信息獲?。罕景l(fā)明提出的mssanet模型通過多尺度時域卷積提取不同頻域范圍內(nèi)的eeg局部特征,能夠模擬濾波過程,避免手動提取頻域特征的復(fù)雜預(yù)處理,且能自適應(yīng)獲取與聽覺注意力解碼相關(guān)的頻域信息。時域?qū)?shù)方差計算單元對eeg信號進(jìn)行處理時,一方面能夠高效地提取時域信息,另一方面巧妙地保留了信號中的空間信息經(jīng)實驗驗證,相比傳統(tǒng)卷積和池化操作,顯著提高聽覺注意解碼準(zhǔn)確率;
27、(2)增強(qiáng)模型性能的頻空注意力模塊:該模塊借助自注意力機(jī)制和可學(xué)習(xí)位置編碼,有效捕獲不同腦區(qū)之間的長范圍依賴和全局依賴性,全面獲取與聽覺注意力相關(guān)的頻域和空間信息,提升模型性能。自注意力機(jī)制可通過增強(qiáng)與聽覺注意相關(guān)的腦區(qū)對的交互權(quán)重,抑制無關(guān)頻段/腦區(qū)的干擾。該模塊實現(xiàn)了對eeg信號中跨頻段空間依賴關(guān)系的顯式建模,為聽覺注意力解碼提供了更具全局視角的特征表示;
28、(3)卓越的實驗表現(xiàn)與高實用價值:在kul和dtu公開數(shù)據(jù)集實驗中,mssanet?展現(xiàn)超強(qiáng)實力,在極短的0.1秒、0.5秒以及常規(guī)的1秒決策窗口下,均呈現(xiàn)最高分類準(zhǔn)確率。這種在短解碼時間窗下的優(yōu)異表現(xiàn),為實時聽覺注意力解碼筑牢根基,極大提升了響應(yīng)速度與精準(zhǔn)度。憑借此優(yōu)勢,其在神經(jīng)驅(qū)動的聽覺輔助設(shè)備(人工耳蝸或者助聽器)等實際應(yīng)用場景中,極具實用價值,能切實滿足現(xiàn)實需求,為相關(guān)領(lǐng)域發(fā)展注入強(qiáng)大動力;
29、(4)構(gòu)建高效自動化解碼系統(tǒng):本發(fā)明基于多尺度頻空注意力網(wǎng)絡(luò)框架開發(fā)聽覺注意力解碼系統(tǒng),集成數(shù)據(jù)導(dǎo)入、預(yù)處理、模型訓(xùn)練、結(jié)果可視化等模塊。支持多種數(shù)據(jù)集及格式導(dǎo)入,經(jīng)降采樣等預(yù)處理,通過可調(diào)時間窗等訓(xùn)練參數(shù)優(yōu)化模型,以準(zhǔn)確率可視化呈現(xiàn)結(jié)果,實現(xiàn)全流程自動化分析。具備參數(shù)靈活可調(diào)、高效處理數(shù)據(jù)能力,減少人工誤差,為聽覺注意力相關(guān)研究與應(yīng)用提供有力工具。