本發(fā)明涉及大數(shù)據(jù)分析與智能信息處理領(lǐng)域,具體涉及一種基于多模態(tài)數(shù)據(jù)融合的多層級分類方法及系統(tǒng)。
背景技術(shù):
1、復(fù)雜場景下的數(shù)據(jù)分類是眾多應(yīng)用領(lǐng)域的核心挑戰(zhàn)之一。例如,在商業(yè)、工業(yè)和醫(yī)學(xué)研究中,海量數(shù)據(jù)的復(fù)雜性和應(yīng)用場景的多樣性通常使得傳統(tǒng)的單模態(tài)和單層級分類方法難以適用。不同的數(shù)據(jù)模態(tài)往往包含獨(dú)立的特征信息,這些信息在單獨(dú)分析時,無法充分展現(xiàn)出其在特定問題中的全部潛力。傳統(tǒng)的多模態(tài)分類模型通常忽略類別之間的層級關(guān)系,僅將所有類別視為平等且離散的個體,難以有效利用模態(tài)間的互補(bǔ)性和層級結(jié)構(gòu)的信息。而不同模態(tài)對各層級分類的貢獻(xiàn)也各不相同,有些模態(tài)能夠?yàn)樘囟▽蛹壍姆诸愄峁╆P(guān)鍵性信息。因此,結(jié)合多模態(tài)數(shù)據(jù)融合與多層級分類技術(shù)的研究已經(jīng)逐漸引起關(guān)注。通過對多模態(tài)特征進(jìn)行聯(lián)合建模和融合,可以在分類任務(wù)中充分挖掘模態(tài)間的關(guān)聯(lián)信息,而多層級分類技術(shù)能夠逐步優(yōu)化分類結(jié)果,從粗粒度到細(xì)粒度逐步提升分類精度。這種多模態(tài)融合與多層級分類的結(jié)合,為解決復(fù)雜場景中的數(shù)據(jù)分類問題提供了全新思路,例如在電商領(lǐng)域中實(shí)現(xiàn)商品的精細(xì)分類,在醫(yī)學(xué)領(lǐng)域中完成疾病的精確分型,或在交通監(jiān)控中優(yōu)化異常行為檢測。
2、現(xiàn)有技術(shù)方案如[申請公布號:cn112685565a,發(fā)明名稱:基于多模態(tài)信息融合的文本分類方法、及其相關(guān)設(shè)備]提出了基于圖像和文本模態(tài)融合特征的文本分類方案,但其特征模態(tài)提取單一,僅有圖像和文本兩種模態(tài),且文本分類模塊簡單,未能針對數(shù)據(jù)層級結(jié)構(gòu)進(jìn)行分類優(yōu)化,只能處理單一層級的簡單分類場景。同時,另有技術(shù)方案[申請公布號:cn117056863a,發(fā)明名稱:一種基于多模態(tài)數(shù)據(jù)融合的大數(shù)據(jù)處理方法]只提出了多模態(tài)數(shù)據(jù)的融合模型,雖然采用了多模態(tài)數(shù)據(jù),但未能基于多模態(tài)數(shù)據(jù)提出復(fù)雜層級分類場景下的技術(shù)方案。
3、現(xiàn)有多模態(tài)數(shù)據(jù)分類方法大多針對特定的單一分類任務(wù)設(shè)計(jì),模型通常對數(shù)據(jù)進(jìn)行一次性分類,將結(jié)果劃分為粗粒度的類別,而未能將多模態(tài)數(shù)據(jù)與層級結(jié)構(gòu)結(jié)合起來,導(dǎo)致分類系統(tǒng)難以有效適應(yīng)層級化需求,模型的擴(kuò)展性和適用性較差,無法通用到復(fù)雜分類任務(wù)中。例如,現(xiàn)有技術(shù)可能在單層級場景下表現(xiàn)良好,但在要求逐級分類的實(shí)際場景(如從食品分類到具體品牌和成分分類)中表現(xiàn)明顯不足。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于針對多模態(tài)數(shù)據(jù)單一分類的不足,提出一種基于多模態(tài)數(shù)據(jù)融合的多層級分類方法及系統(tǒng),旨在通過分層分類模型更全面地處理多模態(tài)數(shù)據(jù)場景中的復(fù)雜分類任務(wù)。
2、本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種基于多模態(tài)數(shù)據(jù)融合的多層級分類方法,包括如下步驟:
3、獲取待分類的圖像、文本和表格數(shù)據(jù),對所述圖像、文本和表格數(shù)據(jù)進(jìn)行預(yù)處理,得到預(yù)處理后的圖像數(shù)據(jù)、文本數(shù)據(jù)以及表格特征;
4、將預(yù)處理后的圖像數(shù)據(jù)輸入至預(yù)訓(xùn)練的深度殘差網(wǎng)絡(luò)模型,進(jìn)行特征提取和結(jié)構(gòu)化向量表示,得到向量化的圖像特征;將預(yù)處理后的文本數(shù)據(jù)輸入至預(yù)訓(xùn)練的語言模型,進(jìn)行特征提取和結(jié)構(gòu)化向量表示,得到向量化的文本特征;
5、基于自注意力機(jī)制,將圖像特征、文本特征和表格特征進(jìn)行特征融合,得到融合特征;
6、構(gòu)建層次結(jié)構(gòu)樹,基于所述層次樹構(gòu)建多層級分類模型,將所述融合特征輸入至多層級分類模型進(jìn)行層級分類訓(xùn)練;
7、將多模態(tài)融合數(shù)據(jù)的測試集部分輸入至訓(xùn)練完成的多層級分類模型中,進(jìn)行測試評估并輸出分類結(jié)果。
8、進(jìn)一步地,所述對所述圖像、文本和表格數(shù)據(jù)進(jìn)行預(yù)處理包括:對圖像數(shù)據(jù)進(jìn)行圖像增強(qiáng)、尺寸調(diào)整和歸一化,對文本數(shù)據(jù)去除停用詞、分詞和截?cái)嗵畛?,對表格?shù)據(jù)處理缺失值、異常值和標(biāo)準(zhǔn)化。
9、進(jìn)一步地,所述將預(yù)處理后的圖像數(shù)據(jù)輸入至預(yù)訓(xùn)練的深度殘差網(wǎng)絡(luò)模型,進(jìn)行特征提取和結(jié)構(gòu)化向量表示,得到向量化的圖像特征包括:
10、選用resnet50模型,將預(yù)處理后的圖像數(shù)據(jù)輸入至resnet50模型中,通過所述resnet50模型的全局平均池化層輸出一個1×2048的特征向量,所述特征向量包含所述圖像的高維特征信息,以表示圖像的視覺內(nèi)容。
11、進(jìn)一步地,所述將預(yù)處理后的文本數(shù)據(jù)輸入至預(yù)訓(xùn)練的語言模型,進(jìn)行特征提取和結(jié)構(gòu)化向量表示,得到向量化的文本特征包括:
12、選用bert模型,將預(yù)處理后的文本數(shù)據(jù)輸入至bert模型中,通過所述bert模型獲取每個詞匯單元的token,每個token映射到一個高維空間的向量表示,使用bert模型中的池化層對所有詞嵌入進(jìn)行平均匯總,得到整個文本的768維數(shù)值特征向量表示。
13、進(jìn)一步地,所述基于自注意力機(jī)制,將圖像特征、文本特征和表格特征進(jìn)行特征融合,得到融合特征包括:
14、將圖像特征、文本特征和表格特征進(jìn)行特征拼接,得到拼接后的特征向量,基于自注意力機(jī)制為不同特征自動分配不同的權(quán)重,根據(jù)所述權(quán)重,加權(quán)得到初步融合特征,并輸入全連接層進(jìn)行維度壓縮,得到最終融合特征。
15、進(jìn)一步地,所述基于所述層次樹構(gòu)建多層級分類模型,將所述融合特征輸入至多層級分類模型進(jìn)行層級分類訓(xùn)練包括:
16、所述多層級分類模型包括為每個父節(jié)點(diǎn)構(gòu)建一個局部分類器,對于每個父節(jié)點(diǎn)設(shè)置局部基分類器為邏輯回歸;將層級標(biāo)簽表示為真實(shí)標(biāo)簽矩陣,第一列為父節(jié)點(diǎn)標(biāo)簽,第二列為其對應(yīng)的子節(jié)點(diǎn)標(biāo)簽
17、使用stratifiedshufflesplit分層抽樣器對數(shù)據(jù)集進(jìn)行拆分,以確保不同類別和層次的訓(xùn)練和測試樣本比例保持平衡,將訓(xùn)練集輸入每個父節(jié)點(diǎn)對應(yīng)的邏輯回歸分類器自上而下進(jìn)行訓(xùn)練,使用標(biāo)簽矩陣中的相應(yīng)列作為訓(xùn)練目標(biāo),基于網(wǎng)格搜索對每個父節(jié)點(diǎn)的邏輯回歸分類器的正則化強(qiáng)度進(jìn)行超參數(shù)優(yōu)化,得到每個父節(jié)點(diǎn)訓(xùn)練的最優(yōu)局部分類器。
18、進(jìn)一步地,所述將多模態(tài)融合數(shù)據(jù)的測試集部分輸入至訓(xùn)練完成的多層級分類模型中,進(jìn)行測試評估并輸出分類結(jié)果包括:
19、將拆分的測試集輸入至訓(xùn)練完成的多層級分類模型中,基于每個局部最優(yōu)邏輯回歸分類器,輸出該節(jié)點(diǎn)預(yù)測的標(biāo)簽,得到預(yù)測標(biāo)簽矩陣,將節(jié)點(diǎn)預(yù)測標(biāo)簽作為分類結(jié)果輸出;
20、采用層級分類指標(biāo)層次準(zhǔn)確率、層次召回率和層次f1分?jǐn)?shù)對所述分類結(jié)果進(jìn)行評估并將評估結(jié)果輸出。
21、本發(fā)明還提供了一種基于多模態(tài)數(shù)據(jù)融合的多層級分類系統(tǒng),包括:
22、多模態(tài)數(shù)據(jù)預(yù)處理模塊,用于對圖像、文本和表格數(shù)據(jù)清洗;
23、多模態(tài)特征提取和向量化模塊,用于分別對圖像和文本進(jìn)行特征提取和結(jié)構(gòu)化向量表示;
24、自注意力機(jī)制多模態(tài)特征融合模塊,用于對圖像特征、文本特征和表格特征進(jìn)行融合;
25、多層級分類框架構(gòu)建與訓(xùn)練模塊,用于構(gòu)建多層級分類框架并進(jìn)行層級分類訓(xùn)練;
26、模型測試與評估模塊,用于對多層級分類結(jié)果進(jìn)行測試評估并輸出顯示。
27、本發(fā)明還提供了一種電子設(shè)備,包括存儲器和處理器,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)所述的一種基于多模態(tài)數(shù)據(jù)融合的多層級分類方法。
28、本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時實(shí)現(xiàn)所述的一種基于多模態(tài)數(shù)據(jù)融合的多層級分類方法。
29、本發(fā)明的有益效果在于:針對多模態(tài)融合數(shù)據(jù)分類目前僅有適用于單一層級的簡單分類任務(wù)的局限性,本發(fā)明通過結(jié)合多模態(tài)數(shù)據(jù)的特征融合與逐級優(yōu)化的層級分類模型,能夠在充分挖掘并融合各個模態(tài)數(shù)據(jù)信息的基礎(chǔ)上,對于多層級復(fù)雜分類場景,給出更精準(zhǔn)更細(xì)化的分類方案,在粗粒度分類的基礎(chǔ)上逐步細(xì)化分類結(jié)果,從而滿足實(shí)際應(yīng)用中對精細(xì)分類的需求。