日本国产欧美大码a视频,亚洲美女久久,人人爱人人搞,亚洲18在线观看,aaa少妇高潮大片免费下载,日日干夜夜草,99免费在线观看

面向煤炭行業(yè)科技文獻的知識分級提取方法與流程

文檔序號:42300945發(fā)布日期:2025-06-27 18:43閱讀:25來源:國知局

本發(fā)明涉及自然語言處理,尤其涉及一種面向煤炭行業(yè)科技文獻的知識分級提取方法。


背景技術:

1、由于煤炭行業(yè)的專業(yè)性和復雜性,科技文獻中蘊含著大量的行業(yè)知識和實踐經驗,這些知識和經驗是構建智能化煤礦的重要基礎。然而,傳統(tǒng)科技文獻的信息提取方法難以高效地處理這些海量的、非結構化的科技文獻數(shù)據(jù),導致智能化煤礦對應模型在生成應答時可能出現(xiàn)偏差或異常,即生成與實際情況不符或缺乏準確性的信息。故亟需一種更可靠的面向煤炭行業(yè)科技文獻的知識分級提取方法。


技術實現(xiàn)思路

1、本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。

2、為此,本發(fā)明的第一個目的在于提出一種面向煤炭行業(yè)科技文獻的知識分級提取方法,通過pdf文檔處理、標題分級模型、面向標題的標識符規(guī)則庫,提高面向煤炭行業(yè)科技文獻的知識分級提取的準確率和效率。

3、本發(fā)明的第二個目的在于提出一種面向煤炭行業(yè)科技文獻的知識分級提取裝置。

4、本發(fā)明的第三個目的在于提出一種電子設備。

5、本發(fā)明的第四個目的在于提出一種存儲有計算機指令的非瞬時計算機可讀存儲介質。

6、為達上述目的,本發(fā)明第一方面實施例提出了一種面向煤炭行業(yè)科技文獻的知識分級提取方法,所述方法包括:

7、將pdf格式的煤炭行業(yè)科技文獻轉換為純文本md格式的煤炭行業(yè)文檔,并將煤炭行業(yè)文檔中每一行的行首含有的非文本標識符刪除,以得到目標煤炭行業(yè)文檔;

8、定義面向標題的標識符規(guī)則庫,標識符規(guī)則庫包括根據(jù)各級別標題的語言類型定義的語言標識符,以及各級別標題各自對應的級別標識符;

9、利用大模型分別合成多個不同級別訓練標題及各級別訓練標題的訓練正文,以組建標題分類數(shù)據(jù)集,再結合預訓練語言模型,提取訓練標題及訓練正文的語義特征,訓練決策樹分類算法,以得到標題分級模型;

10、通過標題分級模型識別出目標煤炭行業(yè)文檔中的多個目標級別標題、及各目標級別標題的正文;

11、根據(jù)標識符規(guī)則庫在各目標級別標題的行首分別添加目標語言標識符及各自對應的目標級別標識符,結合添加目標語言標識符和目標級別標識符后的各目標級別標題及正文組建成標準的md文本文件;

12、根據(jù)用戶的問題請求信息,生成對應的正則化匹配標識符,以在所述md文本文件匹配到目標級別標題,并進行目標級別標題下正文的定向知識分級提取,以得到問題請求信息的提取文本。

13、為達上述目的,本發(fā)明第二方面實施例提出了一種面向煤炭行業(yè)科技文獻的知識分級提取裝置,所述裝置包括:

14、轉換模塊,用于將pdf格式的煤炭行業(yè)科技文獻轉換為純文本md格式的煤炭行業(yè)文檔,并將煤炭行業(yè)文檔中每一行的行首含有的非文本標識符刪除,以得到目標煤炭行業(yè)文檔;

15、定義模塊,用于定義面向標題的標識符規(guī)則庫,標識符規(guī)則庫包括根據(jù)各級別標題的語言類型定義的語言標識符,以及各級別標題各自對應的級別標識符;

16、訓練模塊,用于利用大模型分別合成多個不同級別訓練標題及各級別訓練標題的訓練正文,以組建標題分類數(shù)據(jù)集,再結合預訓練語言模型,提取訓練標題及訓練正文的語義特征,訓練決策樹分類算法,以得到標題分級模型;

17、識別模塊,用于通過標題分級模型識別出目標煤炭行業(yè)文檔中的多個目標級別標題、及各目標級別標題的正文;

18、組建模塊,用于根據(jù)標識符規(guī)則庫在各目標級別標題的行首分別添加目標語言標識符及各自對應的目標級別標識符,結合添加目標語言標識符和目標級別標識符后的各目標級別標題及正文組建成標準的md文本文件;

19、提取模塊,用于根據(jù)用戶的問題請求信息,生成對應的正則化匹配標識符,以在所述md文本文件匹配到目標級別標題,并進行目標級別標題下正文的定向知識分級提取,以得到問題請求信息的提取文本。

20、為達上述目的,本發(fā)明第三方面實施例提出了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行第一方面所述的方法。

21、為了實現(xiàn)上述目的,本發(fā)明第四方面實施例提出了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,計算機指令用于使所述計算機執(zhí)行第一方面所述的方法。

22、本發(fā)明實施例提供的面向煤炭行業(yè)科技文獻的知識分級提取方法、裝置、電子設備和存儲介質,將pdf格式的煤炭行業(yè)科技文獻進行純文本md格式轉換后進行行首的非文本標識符刪除,以得到目標煤炭行業(yè)文檔;定義各級別標題的語言標識符以及級別標識符組建的標識符規(guī)則庫;訓練出標題分級模型;標題分級模型識別出目標煤炭行業(yè)文檔中的多個目標級別標題及各自對應的正文;多個目標級別標題通過標識符規(guī)則庫進行標識符添加并結合正文,生成md文本文件;正則化匹配標識符在md文本文件進行定向知識分級提取,得到提取文本。由此,通過pdf文檔處理、標題分級模型、面向標題的標識符規(guī)則庫,提高面向煤炭行業(yè)科技文獻的知識分級提取的準確率和效率。

23、本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。



技術特征:

1.一種面向煤炭行業(yè)科技文獻的知識分級提取方法,其特征在于,所述方法包括:

2.根據(jù)權利要求1所述的方法,其特征在于,所述將pdf格式的煤炭行業(yè)科技文獻轉換為純文本md格式的煤炭行業(yè)文檔,并將煤炭行業(yè)文檔中每一行的行首含有的非文本標識符刪除,以得到目標煤炭行業(yè)文檔,包括:

3.根據(jù)權利要求1所述的方法,其特征在于,其中,在各級別標題包括四個級別標題的情況下,一級標題的級別標識符為一個預設標識符,二級標題的級別標識符為兩個預設標識符、三級標題的級別標識符為三個預設標識符、四級標題的級別標識符為四個預設標識符。

4.根據(jù)權利要求1所述的方法,其特征在于,所述利用大模型分別合成多個不同級別訓練標題及各級別訓練標題的訓練正文,以組建標題分類數(shù)據(jù)集,再結合預訓練語言模型,提取訓練標題及訓練正文的語義特征,訓練決策樹分類算法,以得到標題分級模型,包括:

5.根據(jù)權利要求1所述的方法,其特征在于,在組建成標準的md文本文件之后,還包括:

6.根據(jù)權利要求3所述的方法,其特征在于,所述根據(jù)用戶的問題請求信息,生成對應的正則化匹配標識符,以在所述md文本文件匹配到目標級別標題,并進行目標級別標題下正文的定向知識分級提取,以得到問題請求信息的提取文本,包括:

7.一種面向煤炭行業(yè)科技文獻的知識分級提取裝置,其特征在于,所述裝置包括:

8.根據(jù)權利要求7所述的裝置,其特征在于,所述轉換模塊,具體用于:

9.根據(jù)權利要求7所述的裝置,其特征在于,其中,在各級別標題包括四個級別標題的情況下,一級標題的級別標識符為一個預設標識符,二級標題的級別標識符為兩個預設標識符、三級標題的級別標識符為三個預設標識符、四級標題的級別標識符為四個預設標識符。

10.根據(jù)權利要求7所述的裝置,其特征在于,所述訓練模塊,具體用于:

11.根據(jù)權利要求7所述的裝置,其特征在于,所述裝置,還包括:

12.根據(jù)權利要求9所述的裝置,其特征在于,所述提取模塊,具體用于:

13.一種電子設備,其特征在于,包括:

14.一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其特征在于,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權利要求1-6中任一項所述的方法。


技術總結
本發(fā)明提出一種面向煤炭行業(yè)科技文獻的知識分級提取方法,涉及自然語言處理技術領域,將PDF格式的煤炭行業(yè)科技文獻進行純文本MD格式轉換后進行行首的非文本標識符刪除,得到目標煤炭行業(yè)文檔;定義各級別標題的語言標識符以及級別標識符組建的標識符規(guī)則庫;訓練出標題分級模型;標題分級模型識別出目標煤炭行業(yè)文檔中的多個目標級別標題及各自對應的正文;多個目標級別標題通過標識符規(guī)則庫進行標識符添加并結合正文,生成MD文本文件;正則化匹配標識符在MD文本文件進行定向知識分級提取,得到提取文本。由此,通過PDF文檔處理、標題分級模型、面向標題的標識符規(guī)則庫,提高面向煤炭行業(yè)科技文獻的知識分級提取的準確率和效率。

技術研發(fā)人員:孫闖,賈琨,楊培培,程健,駱意,宋鄭一凡,周子博,王冠杰
受保護的技術使用者:煤炭科學研究總院有限公司
技術研發(fā)日:
技術公布日:2025/6/26
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1