日本国产欧美大码a视频,亚洲美女久久,人人爱人人搞,亚洲18在线观看,aaa少妇高潮大片免费下载,日日干夜夜草,99免费在线观看

基于多模型融合的QUIC加密流量分類方法

文檔序號:42281349發(fā)布日期:2025-06-27 18:13閱讀:5來源:國知局

本發(fā)明屬于通信,具體涉及一種基于多模型融合的quic加密流量分類方法。


背景技術:

1、隨著網(wǎng)絡技術的迅速發(fā)展,人們對隱私的安全意識逐步加強,對于加密流量的使用也日漸頻繁,而這也加強了網(wǎng)絡安全監(jiān)管的難度。對網(wǎng)絡流量進行準確的分類可以對網(wǎng)絡使用者的使用習慣和需求進行收集,從而為其提供高質量的服務,并增強對網(wǎng)絡的管理。傳統(tǒng)流量檢測技術并不能直接分析加密流量內(nèi)容,對加密流量進行分類和分析將成為網(wǎng)絡安全監(jiān)測和管理的一個重要研究方向。

2、流量識別分類技術可以對網(wǎng)絡流量進行有效的管理和優(yōu)化,從而提升網(wǎng)絡服務的質量和響應速度,維護網(wǎng)絡環(huán)境的安全和穩(wěn)定。具體來說,在網(wǎng)絡管理方面,該技術可以對網(wǎng)絡流量進行有效的識別和分類,從而提升網(wǎng)絡管理的水平;在網(wǎng)絡服務方面,該技術可以對網(wǎng)絡流量進行優(yōu)化,去除網(wǎng)絡中的冗余流量和垃圾流量,提高網(wǎng)絡服務的質量和響應速度,改善用戶的使用體驗;在網(wǎng)絡安全方面,該技術可以幫助網(wǎng)絡管理員實時監(jiān)控和分析網(wǎng)絡流量,了解網(wǎng)絡中的流量特征和使用情況,發(fā)現(xiàn)并解決網(wǎng)絡中異常流量和安全隱患,從而維護網(wǎng)絡環(huán)境的安全和穩(wěn)定。因此,流量識別分類技術被廣泛應用在網(wǎng)絡流量分析、服務質量管理、入侵檢測系統(tǒng)等多個領域中,是對互聯(lián)網(wǎng)流量進行有效管理的關鍵技術。

3、下面針對幾種不同的加密流量分類方法進行介紹。

4、1、基于多模型融合加密流量分類方法研究;

5、模型融合的思想與集成學習(ensemble?learning)類似,都是同構建并結合多個學習器來學習任務。但集成學習中,學習器是同質的,而模型融合中,學習器是異質的。下面介紹幾種被廣泛使用的融合方法:

6、(1)投票法

7、投票法通過對多個學習器的預測結果進行投票,少數(shù)服從多數(shù),得出最終的預測結果。投票法分為普通投票法和加權投票法。而加權的權重可以通過人工主觀設置也可以根據(jù)模型評估分數(shù)來設置權重。投票法需要3個及3個以上模型,同質模型間使用投票法并不能取得很好的表現(xiàn),因為同質模型得到的結果之間有較強的相關性。

8、(2)平均法

9、適用于回歸、分類任務,對學習器的結果進行平均。平均法的優(yōu)點在于可以減少過擬合,常見的平均法有:算術平均法、幾何平均法和加權平均法。

10、(3)stacking法

11、stacking堆疊法的思路是基于原始數(shù)據(jù),訓練出多個基學習器,然后將基學習器的預測結果組合成新的訓練集,去訓練一個新的學習器。即第一層使用各機器學習算法,得到的預測值被用于第二層的元模型的輸入特征,經(jīng)由第二層的元模型學習最終輸出預測值。這一結構有利于第二層模型修正第一層模型的誤差。

12、(4)blending法

13、blending混合法的思路是對原始數(shù)據(jù)集劃分成一個較小的留出集,比如10%的訓練集被留作訓練原學習器,而90%的數(shù)據(jù)作為基學習器的訓練,這樣基學習器和元學習器就是用不同數(shù)據(jù)集來訓練了。從而避免了信息泄露,造成過擬合。

14、(5)bagging法

15、bagging基于bootstrap(自采用),也就是有放回的采用。訓練的子集大小和原始數(shù)據(jù)集的大小相同?;鶎W習器的訓練之間可以并行進行,對于m個樣本的訓練集,進行m次有放回的隨機采樣操作,從而得到m個樣本的采樣集,這樣訓練集中就有接近36.8%的樣本沒有被采到。按照上述方式重復進行,就可以采集到t個包含m個樣本的數(shù)據(jù)集,從而訓練出t個基學習器,最終對這t個基學習器的輸出進行結合。

16、(6)boosting法

17、boosting法是串行機制,即個體學習器訓練間存在依賴關系,后續(xù)模型會矯正之前模型的預測結果。其基本思想是增加一個基學習器在訓練過程中預測錯誤樣本的權重,使得后續(xù)基學習更加關注這些大錯誤的訓練樣本,盡可能糾正這些錯誤,一直向下串行直至產(chǎn)生需要的t個基學習器,最終對這t個學習器進行加權結合。

18、2、基于機器學習的加密流量分類方法研究;

19、機器學習通過抑制的知識作為經(jīng)驗,訓練大量的數(shù)據(jù)以實現(xiàn)靈活處理各種數(shù)據(jù)的努力,并將學到的數(shù)據(jù)內(nèi)部邏輯應用在新數(shù)據(jù)上,達到高準確率、高精度的預測。機器學習以實例數(shù)據(jù)集的形式作為輸入,其中實例是指數(shù)據(jù)集中的一個獨立實例,每個實例都由其特征值來表征,這些值度量實例的不同方面,數(shù)據(jù)集最終呈現(xiàn)為實例與特征的矩陣。例如,如果對輸入的數(shù)據(jù)進行標注,以便在輸入變臉x和y之間建立鍵值對映射關系,那么(x,y)就屬于有監(jiān)督機器學習模型,主要用于分類和回歸,常見的此類算法有決策樹、隨機森林、支持向量機等。如果輸入的數(shù)據(jù)沒有任何事先的處理,將具有相似特征的實例分組到集群中,在關聯(lián)學習中,尋找特征之間的任何關聯(lián),這種模式是無監(jiān)督學習,被預測的結果不是一個離散類,而是一個數(shù)值量,多用于聚類,常用算法包括k鄰近、pca、k-means算法等。機器學習的輸出是對所學知識的描述,學習過程的具體結果如何表示很大程度上取決于所使用的特定機器學習算法。

20、針對加密流量的類別有加密協(xié)議、異常加密流量、應用類別、加密服務等,要進行精細化識別就需要依賴機器學習甚至是深度學習的手段進行精細化識別。一般加密技術的加密對象為載荷信息而非流量數(shù)據(jù)特征,使得依賴于統(tǒng)計思想和機器學習的算法受加密技術的影響較小,因此加密流量識別技術的主流思想是訓練機器學習的模型算法,基于流量統(tǒng)計特征的機器學習分類識別方法應用較為廣泛。

21、對加密流量識別的對象不同,所采用的技術手段也不同,對通信流量識別的關鍵在于對識別對象的數(shù)據(jù)包、流特征、行為特征進行特征選擇和特征選擇,這也是優(yōu)化識別算法的關鍵所在,但加密流量在加密過程中使得數(shù)據(jù)內(nèi)容的特征收到干擾,很大程度上限制了流量識別算法優(yōu)化。

22、特征集的質量對機器學習算法的性能至關重要,使用不相干或者冗余的特征不利于大多數(shù)機器學習算法的準確性,并且可能會使系統(tǒng)計算成本更高,因此一個理想的特征子集,應該足夠小但保留了關鍵和必要的有用信息。

23、3、基于lgbm的流量分類技術;

24、輕量級梯度提升模型(light?gradient?boosting?model,lgbm)最初由微軟提出,具有xgbt(extreme?grandient?boosting?tree)的許多優(yōu)點,如訓練效果好、不易過擬合等。其主要思想是利用弱分類器(決策樹)迭代訓練以得到最優(yōu)模型,它與xgbt的主要區(qū)別在于樹的生產(chǎn)策略,xgbt樹是按層生長(level-wise)的生長策略,而lgbm使用了帶深度限制的按葉子生長(leaf-wise)算法。而單邊梯度采樣算法(gradient-based?one-sidesampling,goss)和互斥特征捆綁(exclusive?feature?bundling)是lgbm執(zhí)行速度更快、精度更高的主要原因。

25、goss算法是lightgbm中用于處理大規(guī)模數(shù)據(jù)的一種重要采樣策略。其核心思想是在保持數(shù)據(jù)分布特征的同時減少訓練樣本數(shù)量,從而提高訓練效率。goss基于具有較大梯度的實例對模型訓練貢獻更大這樣一個觀察,認為梯度越大,當前模型對該實例的預測誤差越大,需要更多關注。保留大梯度實例可以保證模型學習到關鍵pattern。

26、efb要用于處理高維稀疏特征,其核心思想是將互斥的特征(很少同時取非零值)捆綁到一起,從而減少特征數(shù)量。具體實現(xiàn)時,首先構建特征沖突圖,計算任意兩個特征的沖突度(同時非零的頻率),根據(jù)設定閾值判斷是否互斥。然后,進行特征捆綁,將問題轉化為圖著色問題,使用貪心算法將互斥特征分組,每組特征被捆綁為一個新特征。最后對捆綁后的特征進行編碼,保證不同特征的取值范圍不重疊,并且支持特征還原。

27、選擇直方圖的決策樹算法,其基本思想是:對特征值進行裝箱處理,把連續(xù)的浮點特征值離散化為k個整數(shù),形成箱體,同時構建一個寬度為k的直方圖。之后遍歷數(shù)據(jù),由離散值作為索引在直方圖中累積統(tǒng)計信息,進而由直方圖得到的離散值遍歷尋得最優(yōu)分割點。由于直方圖算法無需消耗額外存儲資源保存預排序的結果,進需離散化后的值,因此lightgbm能有效減少內(nèi)存占用。

28、quic協(xié)議是由google于2013年提出并開發(fā)的,旨在解決http2.0所存在的建立鏈接耗時過長、隊頭阻塞等問題,是一種基于udp的低時延的傳輸層協(xié)議。quic提供可靠傳輸,并且可以在一個rtt內(nèi)建立連接。quic有許多優(yōu)于基于tcp的傳輸協(xié)議的功能設計,它具有擁塞控制、流量控制和丟包恢復等功能,并且可以對網(wǎng)絡連接的建立、保持、遷移、終止等狀態(tài)進行管理。quic還內(nèi)置tls1.3,使用quic記錄層代替tls1.2,對報文進行加/解密,具有更高地安全性。quic采用連接標識符cid(connection?id)表征唯一網(wǎng)絡流,這使得quic增加了連接遷移的特性。因此,設計一種高效的quic流量分類方法,提高quic流量分類的準確性,將優(yōu)化網(wǎng)絡安全、監(jiān)控、服務質量,但由于quic的全驗證、全保密、0rtt連接建立、連接遷移、向前糾錯、多路復用等特性,quic流量中提取的特征維度相比從傳統(tǒng)協(xié)議中提取出來的特征要更少。

29、j.luxembur等人評估了基于lgbm的quic加密流量分類器在分類效果,選擇了三個模型:1)基于卷積神經(jīng)網(wǎng)絡的多模態(tài);2)lgbm;3)基于ip的分類器,測試評估了這三種模型的特性和準確率。實驗結果表明lgbm的分類器在訓練的三周內(nèi),準確率要優(yōu)于mm-cnn,在更流行的服務(如谷歌和臉書)上效果更好,但召回率差(luxemburk?j,hynekk,t.encrypted?traffic?classification:the?quic?case[c].20237thnetwork?trafficmeasurement?and?analysis?conference(tma),ieee,2023:1-10.)。s.almuhammadi等人研究測試了五種不同的集成學習技術解決quic網(wǎng)絡流量分類問題(almuhammadi?s,alnajima,ayub?m.quic?network?traffic?classification?using?ensemble?machine?learningtechniques[j].applied?sciences,2023,13(8):4725.)。他們將模型在不同的場景下使用不同數(shù)量的特征進行訓練,并進行性能評估。結果表明,xgbt和lgbm優(yōu)于其他模型,且lgbm在準確率、精確率、召回率和f1分數(shù)方面都優(yōu)于其他方法,高達99%以上,lgbm和xgbt使用少量特征(如15個分組)依舊實現(xiàn)了92%的性能得分。

30、4、基于ip算法實現(xiàn)的quic加密流量分類算法;

31、tcp和udp通過使用端口號在公共ip端口之間提供多流的多路復用,在實際應用中,許多應用程序也會利用本地主機上的“眾所周知”的端口作為其他主機可以發(fā)起通信的回合點,基于網(wǎng)絡層的分類器,只需要查找tcp?syn數(shù)據(jù)包(在會話建立期間tcp三次握手的第一步)就可以知道新的客戶機-服務器tcp連接的服務器端。然后通過在internetassignednumberauthority(iana)的注冊端口列表中查找tcp?syn包的目標端口號來推斷應用程序,udp也類似(盡管udp沒有建立連接或維護連接狀態(tài))。

32、然而,這種方法也有局限性。首先,一些應用程序可能沒有將其端口注冊到iana(例如,napster和kazaa等點對點應用程序)。應用程序可以使用過其知名端口以外的端口來避免操作系統(tǒng)訪問控制限制(例如,類unix系統(tǒng)上的非特權用戶可能被迫在端口80以外的端口上運行http服務器)。此外,在某些情況下,服務器端口是根據(jù)需要動態(tài)分配的。例如,realvidel流允許動態(tài)協(xié)商用于數(shù)據(jù)傳輸?shù)姆掌鞫丝?,該服務器端口在初始tcp連接上進行協(xié)商,該連接使用眾所周知的realvideo控制端口建立。

33、moore和papagiannaki結合使用基于端口和有效載荷的技術來識別網(wǎng)絡應用(moree?a?w.toward?the?accurate?identification?ofnetwork?applications[j].pam,2005.doi:doi:10.1007/978-3-540-31966-5_4.)。分類過程從檢查流的端口號開始。如果沒有使用知名端口,則將流傳遞到下一階段。在第二階段,檢查第一個數(shù)據(jù)包,看它是否包含已知簽名。如果沒有找到,則檢查數(shù)據(jù)包,看它是否包含已知的協(xié)議。如果這些測試失敗,則研究流的第一個kbyte中的協(xié)議簽名。在此階段之后,未分類的流量將要檢查整個流量有效載荷。他們的結果表明,端口信息本身能夠正確分類總字節(jié)的69%。包括在每個流的第一個kbyte中觀察到的信息,將精度提高到近79%。更高的準確性智能通過調查剩余的未分流的整個有效載荷來實現(xiàn)。盡管基于負載的檢查避免了對固定端口號的依賴,但它給流量識別設備帶了更大的復雜性和處理負荷。該算法的精度需與應用程序協(xié)議語義的廣泛知識保持同步,并可能需要對大流量進行并發(fā)分析,而面對加密流量時,這種方法將面臨更大的挑戰(zhàn)。

34、nguyenphong?hoang等人的研究中發(fā)現(xiàn)即使啟用了加密,用戶通過dns查詢和tls服務器名稱指示(sni)擴展也會泄露他們訪問的域的信息(hoangn?p,akhavanniaki?a,borisovn,et?al.assessing?the?privacybenefits?ofdomainname?encryption[c].proceedings?ofthe?15thacm?asia?conference?on?computer?and?communicationssecurity,2020:290-304.)。他們通過不同的指標量化esni為不同托管和cdn提供的隱私增益,即共同托管帶來的k匿名度和ip地址變化的動態(tài),發(fā)現(xiàn)所研究測試的20%域不會獲得任何隱私增益,因為他們的主機名和ip地址之間會有一對一的映射,只有7.7%的域會每天更改其托管的ip地址。

35、jan?luxemburk等人設計了基于ip的分類器(luxemburk?j,hynekk,t.encrypted?traffic?classification:the?quic?case[c].20237thnetwork?trafficmeasurement?andanalysis?conference(tma),ieee,2023:1-10.),在訓練過程中,對于每個ip地址及其/p?ip前綴,基于ip的分類器算法將托管服務和出現(xiàn)次數(shù)存儲到字典中。為了進行分類,將進行精確匹配試驗。當未知的ip地址或由于給定的ip的多個共同托管服務(出現(xiàn)次數(shù)最多的服務的分數(shù)小于exact_t)而導致完全匹配失敗時,執(zhí)行子網(wǎng)絡匹配,并選擇子網(wǎng)絡中出現(xiàn)的次數(shù)最大的服務。當訓練集中不存在子網(wǎng)絡時,分類器也不進行預測。

36、綜上,lgbm的分類器在訓練的三周內(nèi),準確率要優(yōu)于mm-cnn,但召回率差,這意味著lgbm在更流行的服務(如谷歌和臉書)上效果更好。但基于深度學習的分類器,mm-cnn和lgbm的分類器在同一服務提供商之間的分類往往會出錯,例如,在分類google?pay和googleannalytics的流量時,兩個分類器的性能就會大幅下降。而基于ip的分類器則在整個測試間性能都很穩(wěn)定。但只要服務器改變了所有的ip地址,基于ip的分類器就會導致召回率降為0,不適用于共同托管的服務流量識別分類。且與lgbm相比,基于機器學習的模型要更容易受到數(shù)據(jù)漂移的影響。


技術實現(xiàn)思路

1、為了解決目前quic流量分類研究中存在的難以適應實際網(wǎng)絡環(huán)境和準確率低的問題,本發(fā)明提供一種基于多模型融合的quic加密流量分類方法,旨在通過現(xiàn)階段主流的模型融合方式,將基于lgbm的quic流量分類模型和基于ip的quic流量分類模型進行融合,充分發(fā)揮兩種技術的優(yōu)勢,劣勢互補,實現(xiàn)具有基于lgbm的quic流量分類模型的高準確率、基于ip的quic流量分類模型的高召回率和穩(wěn)定性的quic流量分類器。

2、本發(fā)明為解決技術問題所采用的技術方案如下:

3、本發(fā)明提供的一種基于多模型融合的quic加密流量分類方法,包括以下步驟:

4、步驟一、數(shù)據(jù)預處理;

5、步驟二、模型訓練階段;

6、s201:劃分訓練集和驗證集;

7、s202:用訓練集訓練高精度模型組和高召回率模型組中的每個基礎模型;

8、s203:用驗證集評估每個基礎模型的性能;

9、s204:若啟用了動態(tài)權重機制,則根據(jù)每個基礎模型在驗證集上的表現(xiàn)計算其對應的動態(tài)權重;

10、s205:對獲得的動態(tài)權重進行歸一化處理;

11、s206:使用多個候選閾值來尋找最優(yōu)決策閾值;

12、步驟三、模型預測階段;

13、s301:輸入預測數(shù)據(jù),每個基礎模型生成各自的預測概率;

14、s302:若啟用了動態(tài)權重機制,則每個基礎模型的預測概率會根據(jù)訓練階段得到的動態(tài)權重進行加權平均,以進行概率校準;

15、s303:將每個基礎模型的校準概率進行組合;

16、s304:通過最優(yōu)決策閾值對組合后的校準概率進行判斷,生成最終的分類預測結果。

17、進一步的,步驟一中,所述數(shù)據(jù)來源于cesnet-quic22數(shù)據(jù)集。

18、進一步的,步驟一中,所述數(shù)據(jù)預處理的方法為:對數(shù)據(jù)進行標準化,對數(shù)據(jù)包直方圖進行規(guī)范化和對flowstats進行穩(wěn)健的縮放。

19、進一步的,所述高精度模型組中的基礎模型為基于lgbm的quic流量分類模型;所述高召回率模型組中的基礎模型為基于ip的quic流量分類模型。

20、進一步的,步驟s203中,通過依次遍歷高精度模型組和高召回率模型組中的所有基礎模型,對每個基礎模型進行獨立訓練。

21、進一步的,步驟s204中,對于高精度模型組使用訓練的精度值計算權重;對于高召回率模型組使用召回率計算權重。

22、進一步的,步驟s206中,利用投票閾值優(yōu)化方法,通過投票優(yōu)化決策閾值,在驗證集上搜索最優(yōu)決策閾值來提升模型性能。

23、進一步的,步驟s206中,選擇能獲得最佳f1分數(shù)的閾值作為最優(yōu)決策閾值。

24、進一步的,步驟三中,設計一種基于ip地址的分類概率預測方法,通過ip地址的網(wǎng)絡歸屬關系來進行分類預測。

25、更進一步的,在分類預測過程中,通過兩級查找策略,第一級經(jīng)過網(wǎng)站的網(wǎng)絡查找,第二級經(jīng)過網(wǎng)絡前綴查找,找到后統(tǒng)計該類別下所有的標簽數(shù),算出各標簽的占比,若在ip字典和網(wǎng)絡前綴字典中都未找到,則概率設為0。

26、本發(fā)明的有益效果是:

27、本發(fā)明基于投票的多模型融合機制,提出一種基于lgbm-ip的quic加密流量分類算法,結合不同的模型的優(yōu)點,互相補充學習到的領域知識,平均各自的噪聲差異,從而降低單個模型過擬合和泛化能力差的風險,以實現(xiàn)更高準確率和穩(wěn)定性的quic加密流量分類。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1