日本国产欧美大码a视频,亚洲美女久久,人人爱人人搞,亚洲18在线观看,aaa少妇高潮大片免费下载,日日干夜夜草,99免费在线观看

自動駕駛策略模型構建方法及自動駕駛策略生成方法

文檔序號:42281331發(fā)布日期:2025-06-27 18:13閱讀:5來源:國知局

本發(fā)明涉及自動駕駛,具體而言,涉及一種自動駕駛策略模型構建方法及自動駕駛策略生成方法。


背景技術:

1、在面對車輛自動駕駛時,現(xiàn)有技術中,通常預先獲取的多種情況下的環(huán)境數(shù)據(jù)以及駕駛員的操作策略作為數(shù)據(jù)集,對預先構建的神經(jīng)網(wǎng)絡模型進行訓練,以利用訓練好的神經(jīng)網(wǎng)絡模型預測符合標準的自動駕駛策略。但是其訓練之前的數(shù)據(jù)收集工作相當復雜,且在車輛行駛過程中,行駛環(huán)境和行駛情況是非常復雜且不斷變化的,數(shù)據(jù)集中的數(shù)據(jù)難以覆蓋全部的行駛情況,導致訓練好的神經(jīng)網(wǎng)絡模型在面對復雜行駛情況時,預測準確性較低。為了解決上述問題,需不斷獲取相關數(shù)據(jù)以不斷訓練神經(jīng)網(wǎng)絡模型,該模型適應性較低,且訓練之前的數(shù)據(jù)收集工作相當復雜,費時費力。


技術實現(xiàn)思路

1、本發(fā)明解決的問題是如何提高自動駕駛策略動作生成準確性。

2、為解決上述問題,本發(fā)明提供一種自動駕駛策略模型構建方法及控制策略生成方法。

3、第一方面,本發(fā)明提供了一種自動駕駛策略模型構建方法,包括:

4、獲取車輛模型與預設行駛環(huán)境交互時的當前行駛數(shù)據(jù);

5、根據(jù)概率模型和變分自編碼器構建自動駕駛模型和獎勵函數(shù);

6、將所述當前行駛數(shù)據(jù)輸入所述自動駕駛模型,得到駕駛策略動作,根據(jù)所述駕駛策略動作調(diào)節(jié)所述車輛模型的行駛狀態(tài),更新所述車輛模型的所述當前行駛數(shù)據(jù),根據(jù)更新后的所述當前行駛數(shù)據(jù)和所述獎勵函數(shù)確定所述駕駛策略動作的獎勵;

7、根據(jù)所述獎勵優(yōu)化所述自動駕駛模型,返回執(zhí)行所述獲取車輛模型與預設行駛環(huán)境交互時的當前行駛數(shù)據(jù)的步驟,對所述自動駕駛模型進行迭代更新,直至所述自動駕駛模型滿足預設停止條件,得到訓練好的所述自動駕駛模型。

8、本發(fā)明的自動駕駛策略模型構建方法的有益效果是:在構建自動駕駛模型時,引入概率模型,可有效捕捉數(shù)據(jù)中的復雜關系,且可以通過概率分布,評估預測結果的置信度和不確定性,進而提高預測結果的可靠性,引入變分自編碼器,可對輸入的高維的行駛數(shù)據(jù)進行降維,且提取行駛數(shù)據(jù)中的潛在狀態(tài)特征,基于潛在狀態(tài)特征進行駕駛策略動作的預測,能有效捕捉行駛數(shù)據(jù)的隱藏信息,有效降低預測復雜性的同時,提高預測效率,進而提高駕駛策略動作預測的準確性??刂栖囕v模型運行與預設行駛環(huán)境交互時的當前行駛數(shù)據(jù),將當前行駛數(shù)據(jù)輸入自動駕駛模型生成駕駛策略動作,并基于對應的獎勵迭代優(yōu)化自動駕駛模型,不斷提高車輛駕駛策略動作生成的準確性,且本實施例可基于車輛實時運行進行實時自適應訓練優(yōu)化,具有較高的適用性,可應用于不同場景。

9、可選地,所述當前行駛數(shù)據(jù)包括攝像頭圖像和雷達圖像;在所述獲取車輛模型與預設行駛環(huán)境交互時的當前行駛數(shù)據(jù)之后,還包括:

10、分別對所述攝像頭圖像和所述雷達圖像進行預處理,并對預處理后的所述攝像頭圖像和預處理后的所述雷達圖像進行特征提取,得到第一圖像特征和第二圖像特征;

11、將所述第一圖像特征和所述第二圖像特征進行融合,得到總圖像特征。

12、可選地,所述分別對所述攝像頭圖像和所述雷達圖像進行預處理,并對預處理后的所述攝像頭圖像和預處理后的所述雷達圖像進行特征提取,得到第一圖像特征和第二圖像特征包括:

13、根據(jù)預設圖像尺寸,對所述攝像頭圖像進行歸一化處理,得到第一圖像;

14、對所述雷達圖像進行2d化處理,得到第二圖像;

15、將所述第一圖像和所述第二圖像轉換為目標類型,利用預設的特征提取網(wǎng)絡分別對所述第一圖像和所述第二圖像進行特征提取,得到所述第一圖像特征和所述第二圖像特征。

16、可選地,所述基于概率模型和變分自編碼器構建自動駕駛模型和獎勵函數(shù)包括:

17、基于卷積神經(jīng)網(wǎng)絡,引入所述概率模型,構建子駕駛模型;

18、將所述變分自編碼器中編碼器的輸出端與所述子駕駛模型的輸入端連接,所述子駕駛模型的輸出端與所述變分自編碼器中解碼器的輸入端連接,基于最大熵強化學習算法得到所述自動駕駛模型;

19、基于所述自動駕駛模型和預設安全要求構建獎勵函數(shù)。

20、可選地,所述當前行駛數(shù)據(jù)包括當前駕駛動作,所述子駕駛模型包括潛在狀態(tài)模型、期望模型和策略生成模型;所述基于卷積神經(jīng)網(wǎng)絡,引入所述概率模型,構建子駕駛模型包括:

21、根據(jù)所述概率模型,構建所述潛在狀態(tài)模型,其中,所述潛在狀態(tài)模型用于根據(jù)當前潛在狀態(tài)和所述當前駕駛動作得到下一時段潛在狀態(tài);

22、根據(jù)依次連接的兩個全連接層和所述概率模型,構建所述策略生成模型,其中,所述策略生成模型用于根據(jù)所述下一時段潛在狀態(tài)生成預估駕駛動作。

23、可選地,所述概率包括主狀態(tài)生成模型、濾波模型和融合模型;所述根據(jù)所述概率模型,構建所述潛在狀態(tài)模型包括:

24、根據(jù)依次連接的五個卷積層和所述概率模型,構建所述濾波模型,其中,所述濾波模型用于根據(jù)所述當前潛在狀態(tài)、所述當前駕駛動作和下一時段行駛數(shù)據(jù)得到下一時段的第一潛在狀態(tài);

25、根據(jù)依次連接的兩個全連接層和所述概率模型,構建所述主狀態(tài)生成模型,其中,所述主狀態(tài)生成模型用于根據(jù)所述當前潛在狀態(tài)和所述當前駕駛動作得到下一時段的第二潛在狀態(tài);

26、按照預設權重構建所述融合模型,其中,所述融合模型用于按照對應的所述預設權重,根據(jù)所述第一潛在狀態(tài)和所述第二潛在狀態(tài)得到所述下一時段潛在狀態(tài);

27、根據(jù)所述主狀態(tài)生成模型、所述濾波模型和所述融合模型構建所述潛在狀態(tài)模型。

28、可選地,所述當前行駛數(shù)據(jù)包括當前碰撞數(shù)據(jù)、當前速度值、當前縱向加速度值、當前橫向加速度值和當前出線數(shù)據(jù),所述預設安全要求包括安全速度值、安全縱向加速度值、安全橫向加速度值;所述基于所述自動駕駛模型和預設安全要求構建獎勵函數(shù)包括:

29、根據(jù)所述當前碰撞數(shù)據(jù)得到碰撞獎勵,根據(jù)所述當前出線數(shù)據(jù)得到出線獎勵;

30、根據(jù)所述當前速度值和所述安全速度值得到速度獎勵,其中,當所述當前速度值小于所述安全速度值時,所述速度獎勵與所述安全速度值成線性關系;

31、根據(jù)所述當前縱向加速度值和所述安全縱向加速度值得到縱向加速度獎勵,根據(jù)所述當前橫向加速度值和所述安全橫向加速度值得到橫向加速度獎勵;

32、根據(jù)所述碰撞獎勵、所述出線獎勵、所述速度獎勵、所述縱向加速度獎勵和所述橫向加速度獎勵構建獎勵函數(shù)。

33、可選地,所述子駕駛模型還包括期望回報模型;所述根據(jù)依次連接的兩個全連接層和所述概率模型,構建所述策略生成模型之后,還包括:

34、根據(jù)依次連接的兩個全連接層和所述概率模型,構建所述期望回報模型,其中,所述期望回報模型用于根據(jù)所述下一時段潛在狀態(tài)和所述預估駕駛動作得到期望回報值。

35、可選地,兩個所述全連接層的隱藏單元數(shù)分別為256;

36、第一個所述卷積層的濾波器數(shù)、卷積核大小以及步長分別為32、5和2;

37、第二個所述卷積層的濾波器數(shù)、卷積核大小以及步長分別為64、3和2;

38、第三個所述卷積層的濾波器數(shù)、卷積核大小以及步長分別為128、3和2;

39、第四個所述卷積層的濾波器數(shù)、卷積核大小以及步長分別為256、3和2;

40、第五個所述卷積層的濾波器數(shù)、卷積核大小以及步長分別為256、4和1。

41、第二方面,本發(fā)明提供了一種自動駕駛策略生成方法,包括:

42、獲取目標車輛運行時的可觀測行駛數(shù)據(jù);

43、將所述可觀測行駛數(shù)據(jù)輸入訓練好的自動駕駛模型,得到駕駛策略動作,所述駕駛策略動作用于調(diào)整所述目標車輛的行駛狀態(tài),其中,所述訓練好的自動駕駛模型采用如第一方面所述的自動駕駛策略模型構建方法訓練得到。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1