日本国产欧美大码a视频,亚洲美女久久,人人爱人人搞,亚洲18在线观看,aaa少妇高潮大片免费下载,日日干夜夜草,99免费在线观看

視頻生成方法、深度學習模型的訓練方法和裝置與流程

文檔序號:42299939發(fā)布日期:2025-06-27 18:41閱讀:7來源:國知局

本公開涉及人工智能,尤其涉及計算機視覺、增強現(xiàn)實等,可應用于數(shù)字人等場景。更具體地,本公開提供了一種視頻生成方法、深度學習模型的訓練方法、裝置、電子設備、存儲介質(zhì)以及計算機程序產(chǎn)品。


背景技術(shù):

1、隨著人工智能的快速發(fā)展,語音驅(qū)動視頻生成的技術(shù)也得到了廣泛的關注,尤其是語音驅(qū)動唇形變化的技術(shù)運用的更加廣泛。


技術(shù)實現(xiàn)思路

1、本公開提供了一種視頻生成方法、深度學習模型的訓練方法、裝置、電子設備、存儲介質(zhì)以及計算機程序產(chǎn)品。

2、根據(jù)第一方面,提供了一種視頻生成方法,該方法包括:將輸入語音按照多個發(fā)音對象以及多個發(fā)音對象的發(fā)音順序劃分為多個子語音;針對每個子語音,根據(jù)子語音的語音特征和子語音所屬對象的模板特征,確定子語音所屬對象的關鍵點序列,關鍵點序列表征子語音所屬對象發(fā)出子語音的唇形變化;以及根據(jù)多個子語音各自所屬對象的關鍵點序列,生成目標視頻。

3、根據(jù)第二方面,提供了一種深度學習模型的訓練方法,該方法包括:提取第一樣本視頻中樣本語音的語音特征以及樣本語音所屬對象的模板特征;將語音特征和模板特征輸入深度學習模型,得到輸出的關鍵點序列,輸出的關鍵點序列表征樣本語音所屬對象的唇形變化;以及根據(jù)輸出的關鍵點序列和基準關鍵點序列之間的差異,調(diào)整深度學習模型的參數(shù),其中,基準關鍵點序列是通過從第一樣本視頻中提取樣本語音所屬對象的關鍵點得到的。

4、根據(jù)第三方面,提供了一種深度學習模型的訓練方法,該方法包括:獲取第二樣本視頻中的多個對象在每個圖像幀中的面部關鍵點;根據(jù)多個對象在每個圖像幀中的面部特征,將不同圖像幀中屬于同一對象的面部關鍵點相關聯(lián),得到每個對象的關鍵點序列,關鍵點序列表征對象的唇形變化;針對每個對象,將對象的關鍵點序列輸入深度學習模型,得到對象的輸出面部圖像序列,并根據(jù)對象的輸出面部圖像序列和第二樣本視頻中對象的原始面部圖像序列之間的差異,確定對象的損失;以及根據(jù)多個對象各自的損失,調(diào)整深度學習模型的參數(shù)。

5、根據(jù)第四方面,提供了一種視頻生成裝置,該裝置包括:語音劃分模塊,用于將輸入語音按照多個發(fā)音對象以及多個發(fā)音對象的發(fā)音順序劃分為多個子語音;第一關鍵點序列確定模塊,用于針對每個子語音,根據(jù)子語音的語音特征和子語音所屬對象的模板特征,確定子語音所屬對象的關鍵點序列,關鍵點序列表征子語音所屬對象發(fā)出子語音的唇形變化;以及目標圖像確定模塊,用于根據(jù)多個子語音各自所屬對象的關鍵點序列,生成目標視頻。

6、根據(jù)第五方面,提供了一種深度學習模型的訓練裝置,該裝置包括:提取模塊,用于提取第一樣本視頻中樣本語音的語音特征以及樣本語音所屬對象的模板特征;第二關鍵點序列確定模塊,用于將語音特征和模板特征輸入深度學習模型,得到輸出的關鍵點序列,輸出的關鍵點序列表征樣本語音所屬對象的唇形變化;以及第一調(diào)整模塊,用于根據(jù)輸出的關鍵點序列和基準關鍵點序列之間的差異,調(diào)整深度學習模型的參數(shù),其中,基準關鍵點序列是通過從第一樣本視頻中提取樣本語音所屬對象的關鍵點得到的。

7、根據(jù)第六方面,提供了一種深度學習模型的訓練裝置,該裝置包括:獲取模塊,用于獲取第二樣本視頻中的多個對象在每個圖像幀中的面部關鍵點;第三關鍵點序列確定模塊,用于根據(jù)多個對象在每個圖像幀中的面部特征,將不同圖像幀中屬于同一對象的面部關鍵點相關聯(lián),得到每個對象的關鍵點序列,關鍵點序列表征對象的唇形變化;損失確定模塊,用于針對每個對象,將對象的關鍵點序列輸入深度學習模型,得到對象的輸出面部圖像序列,并根據(jù)對象的輸出面部圖像序列和第二樣本視頻中對象的原始面部圖像序列之間的差異,確定對象的損失;以及第二調(diào)整模塊,用于根據(jù)多個對象各自的損失,調(diào)整深度學習模型的參數(shù)。

8、根據(jù)第七方面,提供了一種電子設備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行根據(jù)本公開提供的方法。

9、根據(jù)第八方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),該計算機指令用于使計算機執(zhí)行根據(jù)本公開提供的方法。

10、根據(jù)第九方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序存儲于可讀存儲介質(zhì)和電子設備其中至少之一上,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)本公開提供的方法。

11、應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。



技術(shù)特征:

1.一種視頻生成方法,包括:

2.根據(jù)權(quán)利要求1所述的方法,其中,所述針對每個子語音,根據(jù)所述子語音的語音特征和所述子語音所屬對象的模板特征,確定所述子語音所屬對象的關鍵點序列包括:針對每個子語音,

3.根據(jù)權(quán)利要求2所述的方法,其中,所述根據(jù)所述子語音所屬對象處于預定狀態(tài)的模板圖像,確定所述子語音所屬對象的模板特征包括:

4.根據(jù)權(quán)利要求2或3所述的方法,其中,所述子語音的長度對應多個圖像幀;所述根據(jù)所述子語音的語音特征和所述子語音所屬對象的模板特征,確定所述子語音所屬對象的關鍵點序列包括:

5.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述多個子語音各自所屬對象的關鍵點序列,生成目標視頻包括:

6.根據(jù)權(quán)利要求5所述的方法,其中,所述針對每個子語音,根據(jù)所述子語音所屬對象的關鍵點序列生成所述子語音所屬對象的目標圖像序列包括:針對每個子語音,

7.一種深度學習模型的訓練方法,包括:

8.根據(jù)權(quán)利要求7所述的方法,其中,所述提取第一樣本視頻中樣本語音的語音特征以及所述樣本語音所屬對象的模板特征包括:

9.根據(jù)權(quán)利要求7或8所述的方法,其中,所述將所述語音特征和所述模板特征輸入深度學習模型,得到輸出的關鍵點序列包括:

10.一種深度學習模型的訓練方法,包括:

11.根據(jù)權(quán)利要求10所述的方法,其中,所述針對每個對象,將所述對象的關鍵點序列輸入深度學習模型,得到所述對象的輸出面部圖像序列包括:針對每個對象,

12.根據(jù)權(quán)利要求10所述的方法,還包括:

13.一種視頻生成裝置,包括:

14.一種深度學習模型的訓練裝置,包括:

15.一種深度學習模型的訓練裝置,包括:

16.一種電子設備,包括:

17.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1至12中任一項所述的方法。

18.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序存儲于可讀存儲介質(zhì)和電子設備其中至少之一上,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1至12中任一項所述的方法。


技術(shù)總結(jié)
本公開提供了一種視頻生成方法、深度學習模型的訓練方法、裝置、電子設備和存儲介質(zhì),涉及人工智能技術(shù)領域,尤其涉及計算機視覺、增強現(xiàn)實等技術(shù)領域,可應用于數(shù)字人等場景。具體實現(xiàn)方案為:將輸入語音按照多個發(fā)音對象以及多個發(fā)音對象的發(fā)音順序劃分為多個子語音;針對每個子語音,根據(jù)子語音的語音特征和子語音所屬對象的模板特征,確定子語音所屬對象的關鍵點序列,關鍵點序列表征子語音所屬對象發(fā)出子語音的唇形變化;以及根據(jù)多個子語音各自所屬對象的關鍵點序列,生成目標視頻。

技術(shù)研發(fā)人員:梁柏榮,郭龍偉,周航
受保護的技術(shù)使用者:北京百度網(wǎng)訊科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/26
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1