本發(fā)明涉及文本圖像轉(zhuǎn)換識(shí)別分析,具體涉及基因組結(jié)構(gòu)變異圖像化檢測(cè)方法。
背景技術(shù):
1、在基因組學(xué)研究中,結(jié)構(gòu)變異(sv)在植物遺傳學(xué)和育種中的關(guān)鍵作用日益凸顯,然而,由于小麥基因組的復(fù)雜性和高通量測(cè)序數(shù)據(jù)的龐大規(guī)模,結(jié)構(gòu)變異的準(zhǔn)確檢測(cè)仍面臨諸多挑戰(zhàn)。
2、六倍體面包小麥(triticum?aestivum?l.,aabbdd)是全球重要的糧食作物之一,其優(yōu)異的產(chǎn)量和適應(yīng)性使其成為全球糧食安全的關(guān)鍵保障。面包小麥的基因組結(jié)構(gòu)復(fù)雜,包含來(lái)自三個(gè)不同祖先物種的兩個(gè)不同基因組(a、b、d),形成aabbdd的基因組構(gòu)成。這種復(fù)雜的基因組結(jié)構(gòu)賦予了面包小麥高度的遺傳多樣性和豐富的適應(yīng)性,但也導(dǎo)致了基因組重排和基因表達(dá)調(diào)控的復(fù)雜性。隨著全球人口增長(zhǎng)和氣候變化帶來(lái)的挑戰(zhàn),提高小麥的產(chǎn)量和抗逆性已成為農(nóng)業(yè)研究的核心目標(biāo)。
3、在這一背景下,基因組中的結(jié)構(gòu)變異(structural?variants,svs)在小麥的進(jìn)化、適應(yīng)性及性狀形成中起著重要作用。結(jié)構(gòu)變異指的是基因組中長(zhǎng)度大于50bp的片段發(fā)生的插入(ins)、刪除(del)、倒位(inv)、重復(fù)(dup)和易位(tl)等變異類型。
4、這些結(jié)構(gòu)變異通過(guò)高通量基因組測(cè)序技術(shù)得到深入分析,研究揭示了小麥的高產(chǎn)性狀和抗逆性與多個(gè)基因群體及調(diào)控網(wǎng)絡(luò)密切相關(guān)。通過(guò)比較不同品種的基因組,研究還發(fā)現(xiàn)了與主要農(nóng)藝性狀(如穗重、抗病性、耐旱性)相關(guān)的關(guān)鍵基因。這些發(fā)現(xiàn)為小麥的分子育種提供了理論依據(jù),并為提高小麥的產(chǎn)量和抗逆性提供了有力支持。
5、小麥基因組龐大且復(fù)雜,總基因組約包含170億個(gè)堿基對(duì),并富含大量重復(fù)序列和同源基因。傳統(tǒng)的基因組結(jié)構(gòu)變異檢測(cè)方法,如熒光原位雜交(fish)、染色體染色技術(shù)和pcr擴(kuò)增等,雖然在小范圍的研究中取得了一定的進(jìn)展,但由于小麥基因組的復(fù)雜性,特別是在識(shí)別大規(guī)模重復(fù)序列和高度多態(tài)區(qū)域時(shí),這些方法的準(zhǔn)確性和效率受到了顯著限制。隨著高通量測(cè)序技術(shù)(high-throughput?sequencing,hts)的發(fā)展,研究者可以通過(guò)全基因組數(shù)據(jù)更全面、精準(zhǔn)地檢測(cè)小麥中的結(jié)構(gòu)變異。盡管如此,受限于數(shù)據(jù)分析的復(fù)雜性和結(jié)構(gòu)變異種類繁多等問(wèn)題,現(xiàn)有的計(jì)算方法仍存在一定的局限性。因此,開(kāi)發(fā)新的方法以提高小麥基因組結(jié)構(gòu)變異的檢測(cè)準(zhǔn)確度和全面性,仍然是當(dāng)前亟待解決的研究問(wèn)題。近年來(lái),深度學(xué)習(xí)技術(shù)已在生物信息學(xué)領(lǐng)域取得顯著進(jìn)展,尤其是在基因組數(shù)據(jù)的分析和解讀方面。深度學(xué)習(xí)通過(guò)構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,能夠自動(dòng)從大量的基因組數(shù)據(jù)中提取出潛在的特征,進(jìn)而對(duì)結(jié)構(gòu)變異進(jìn)行準(zhǔn)確識(shí)別。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)模型在處理大規(guī)模、高維度數(shù)據(jù)時(shí)具有更強(qiáng)的表達(dá)能力和更高的準(zhǔn)確性。在小麥基因組結(jié)構(gòu)變異檢測(cè)方面,深度學(xué)習(xí)的優(yōu)勢(shì)尤為突出。通過(guò)結(jié)合深度神經(jīng)網(wǎng)絡(luò)(dnn)、卷積神經(jīng)網(wǎng)絡(luò)(cnn)等先進(jìn)的學(xué)習(xí)方法,可以實(shí)現(xiàn)對(duì)基因組數(shù)據(jù)中復(fù)雜結(jié)構(gòu)變異的自動(dòng)化識(shí)別和分類。尤其是針對(duì)一些傳統(tǒng)方法難以捕捉的復(fù)雜變異(如大規(guī)模的插入、缺失、倒位等),深度學(xué)習(xí)有望提供一種更為高效和準(zhǔn)確的解決方案。
6、鑒于高通量基因組學(xué)數(shù)據(jù)的海量、高維和序列化特點(diǎn),深度學(xué)習(xí)作為數(shù)據(jù)驅(qū)動(dòng)型算法在生物信息學(xué)領(lǐng)域展現(xiàn)出強(qiáng)大可行性和潛力,有望通過(guò)深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜函數(shù)擬合能力突破傳統(tǒng)算法的局限,提升任務(wù)準(zhǔn)確率。
7、鑒于以上,本申請(qǐng)?zhí)峁┝嘶谏疃葘W(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法用于解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述情況,在小麥基因組結(jié)構(gòu)變異檢測(cè)的研究中,傳統(tǒng)方法在數(shù)據(jù)讀取困難和預(yù)測(cè)精度較低的問(wèn)題具有局限性,本研究提出了基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法,用于預(yù)測(cè)缺失和串聯(lián)重復(fù)兩種常見(jiàn)且高頻發(fā)生的結(jié)構(gòu)變異。該方法包含兩個(gè)核心步驟:首先,采用基因組結(jié)構(gòu)變異圖像生成算法,將基因組數(shù)據(jù)轉(zhuǎn)化為圖像形式,從而提高數(shù)據(jù)的處理效率;其次,構(gòu)建一個(gè)基于深度學(xué)習(xí)的基因結(jié)構(gòu)變異預(yù)測(cè)模型,通過(guò)對(duì)圖像中的變異特征進(jìn)行自動(dòng)提取和分析,實(shí)現(xiàn)高效、精準(zhǔn)的結(jié)構(gòu)變異預(yù)測(cè)。該方法能夠克服傳統(tǒng)手段的不足,為小麥基因組結(jié)構(gòu)變異的研究提供了一種新的思路與工具。
2、基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法,其特征在于,包括以下步驟:
3、利用測(cè)序儀通過(guò)測(cè)序數(shù)據(jù)生成的fastq文件與參考基因組使用bwa軟件進(jìn)行比對(duì),從中獲得包含變異信息的sam文件,隨后,使用samtools工具將sam文件轉(zhuǎn)換為二進(jìn)制格式的bam文件,經(jīng)過(guò)對(duì)bam文件的預(yù)處理,并結(jié)合rd(讀片段深度數(shù)據(jù))、drp(不一致讀片段對(duì)數(shù)據(jù))和sr(分裂讀片段數(shù)據(jù)),生成結(jié)構(gòu)變異圖像,將這些圖像輸入到深度學(xué)習(xí)模型中,用于變異預(yù)測(cè)的訓(xùn)練。
4、上述技術(shù)方案有益效果在于:
5、(1)本研究能夠高效識(shí)別小麥基因組中的各類結(jié)構(gòu)變異,較傳統(tǒng)方法具有更好的預(yù)測(cè)性能和更高的檢測(cè)精度,為小麥基因組結(jié)構(gòu)變異的高效檢測(cè)提供了一種新穎的深度學(xué)習(xí)框架,為小麥的遺傳改良和育種研究提供了有力的技術(shù)支持;
6、(2)采用基因組結(jié)構(gòu)變異圖像生成算法,將基因組數(shù)據(jù)轉(zhuǎn)化為圖像形式,結(jié)構(gòu)變異的相關(guān)信息得以直觀地呈現(xiàn),輸出的圖像能夠清晰展示變異區(qū)域的特征信息從而提高數(shù)據(jù)的處理效率;
7、(3)通過(guò)構(gòu)建一個(gè)基于深度學(xué)習(xí)的基因結(jié)構(gòu)變異預(yù)測(cè)模型,對(duì)生成的圖像中變異特征進(jìn)行自動(dòng)提取和分析,實(shí)現(xiàn)高效、精準(zhǔn)的結(jié)構(gòu)變異預(yù)測(cè),在多個(gè)指標(biāo)上優(yōu)于傳統(tǒng)的預(yù)測(cè)算法,結(jié)合rd、drp和sr三種數(shù)據(jù)的圖像編碼方案既科學(xué)有效,又顯著提升了模型的分類性能。
1.基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法,其特征在于,包括以下步驟:利用測(cè)序儀通過(guò)測(cè)序數(shù)據(jù)生成的fastq文件與參考基因組使用bwa軟件進(jìn)行比對(duì),從中獲得包含變異信息的sam文件,隨后,使用samtools工具將sam文件轉(zhuǎn)換為二進(jìn)制格式的bam文件,經(jīng)過(guò)對(duì)bam文件的預(yù)處理,并結(jié)合rd(讀片段深度數(shù)據(jù))、drp(不一致讀片段對(duì)數(shù)據(jù))和sr(分裂讀片段數(shù)據(jù)),生成結(jié)構(gòu)變異圖像,將這些圖像輸入到深度學(xué)習(xí)模型中,用于變異預(yù)測(cè)的訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法,其特征在于,所述對(duì)bam文件的預(yù)處理具體包括:將bam文件通過(guò)變異識(shí)別工具轉(zhuǎn)化為vcf格式以提取候選變異位點(diǎn)信息,隨后將vcf格式文件轉(zhuǎn)換為bed格式用于基因組坐標(biāo)定位,通過(guò)格式轉(zhuǎn)換后的bed文件可結(jié)合基因組注釋數(shù)據(jù)庫(kù)進(jìn)行基于基因組坐標(biāo)的精細(xì)化區(qū)域注釋,通過(guò)設(shè)定閾值過(guò)濾長(zhǎng)度小于50bp的候選結(jié)構(gòu)變異,最終獲得僅包含有效結(jié)構(gòu)變異區(qū)域的標(biāo)準(zhǔn)化bed文件。
3.根據(jù)權(quán)利要求2所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法,其特征在于,所述結(jié)構(gòu)變異圖像的生成過(guò)程包括:圖像編碼方法的設(shè)計(jì)、圖像覆蓋范圍的確定、圖像拼接規(guī)則的選擇優(yōu)化。
4.根據(jù)權(quán)利要求3所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法,其特征在于,所述圖像編碼方法的設(shè)計(jì)具體包括,將bam文件中的候選變異區(qū)域周圍的三種數(shù)據(jù)類型的讀取片段轉(zhuǎn)化為三維張量圖像,即將bam文件中的變異信息映射到圖像中,繪制出rd、drp和sr三種數(shù)據(jù)類型在圖像中的分布,圖像生成基于rgb色彩模式,將rd、drp和sr三種數(shù)據(jù)分別用不同的顏色進(jìn)行編碼,圖像生成算法具體包括:
5.根據(jù)權(quán)利要求3所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法,其特征在于,所述圖像覆蓋范圍的確定具體包括,對(duì)于每個(gè)bam文件中的候選變異區(qū),可以通過(guò)公式(1)和(2)計(jì)算出左右斷點(diǎn)的具體位置:
6.根據(jù)權(quán)利要求3所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法,其特征在于,所述圖像拼接規(guī)則的選擇包括,選擇沿縱坐標(biāo)方向的縱向拼接方式,適應(yīng)后續(xù)所述深度學(xué)習(xí)模型的輸入格式且避免圖像拼接的序列范圍被迫壓縮,且在所述縱向拼接方式的基礎(chǔ)上進(jìn)行左右翻轉(zhuǎn)擴(kuò)增時(shí),需同時(shí)交換上下圖的位置。
7.根據(jù)權(quán)利要求3所述的基于深度學(xué)習(xí)的小麥基因組結(jié)構(gòu)變異檢測(cè)方法,其特征在于,對(duì)所述深度學(xué)習(xí)模型的變異預(yù)測(cè)訓(xùn)練包括,選取swin-transformer、alexnet、googlenet、efficientnet、shufflenet、regnet和resnet作為深度學(xué)習(xí)模型,通過(guò)對(duì)生成的所述結(jié)構(gòu)變異圖像進(jìn)行旋轉(zhuǎn)、高斯模糊、亮度和對(duì)比度調(diào)節(jié)方式使其作為訓(xùn)練圖像數(shù)據(jù)進(jìn)行增強(qiáng),使得訓(xùn)練樣本多樣化也增強(qiáng)了所述深度學(xué)習(xí)模型的識(shí)別能力。