本發(fā)明屬于藥物發(fā)現(xiàn),尤其涉及一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法、設(shè)備以及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、藥物靶點(diǎn)識(shí)別是藥物開(kāi)發(fā)的關(guān)鍵步驟之一。藥物靶點(diǎn)通常是蛋白質(zhì)、酶或其他分子,它們?cè)诩膊〉陌l(fā)生和發(fā)展中起著關(guān)鍵作用。識(shí)別并驗(yàn)證這些靶點(diǎn)有助于理解疾病的分子機(jī)制,并開(kāi)發(fā)針對(duì)特定靶點(diǎn)的治療藥物。傳統(tǒng)的藥物發(fā)現(xiàn)過(guò)程依賴于實(shí)驗(yàn)室篩選,這種方法成本高昂且耗時(shí)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的是解決現(xiàn)有技術(shù)藥物發(fā)現(xiàn)技術(shù)依賴于實(shí)驗(yàn)室篩選,藥物發(fā)現(xiàn)成本高的問(wèn)題。
2、提出了一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法。包括:
3、步驟一、構(gòu)建cban-predictor模型;獲得訓(xùn)練好的cban-predictor模型;
4、步驟二、將關(guān)系未知的藥物-靶點(diǎn)對(duì)數(shù)據(jù)輸入訓(xùn)練好的cban-predictor模型內(nèi),輸出預(yù)測(cè)概率,根據(jù)預(yù)測(cè)概率完成藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系識(shí)別;
5、預(yù)測(cè)概率高于閾值的藥物-靶點(diǎn)對(duì)認(rèn)為藥物與靶點(diǎn)能進(jìn)行相互作用;
6、所述步驟一中構(gòu)建cban-predictor模型;獲得訓(xùn)練好的cban-predictor模型;具體過(guò)程為:
7、s1、根據(jù)公共數(shù)據(jù)庫(kù)構(gòu)建第一訓(xùn)練集和第二訓(xùn)練集;
8、s2、建立cban-predictor模型,根據(jù)第一訓(xùn)練集對(duì)cban-predictor模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的cban-predictor模型;
9、s3、根據(jù)第二訓(xùn)練集對(duì)訓(xùn)練后的cban-predictor模型進(jìn)行訓(xùn)練得到訓(xùn)練好的cban-predictor模型。
10、所述s1中的公共數(shù)據(jù)庫(kù)包括davis、bindingdb和biosnap;
11、所述根據(jù)公共數(shù)據(jù)庫(kù)構(gòu)建第一訓(xùn)練集的具體過(guò)程為:
12、提取davis數(shù)據(jù)庫(kù)和bindingdb數(shù)據(jù)庫(kù)中藥物數(shù)據(jù)、靶點(diǎn)數(shù)據(jù)、以及藥物和靶點(diǎn)的解離常數(shù)數(shù)據(jù);
13、所述靶點(diǎn)數(shù)據(jù)為蛋白質(zhì),所述藥物數(shù)據(jù)為藥物分子;
14、將解離常數(shù)kd小于30的藥物-靶點(diǎn)數(shù)據(jù)對(duì)作為有相互作用,標(biāo)簽為1;
15、將解離常數(shù)kd大于30的藥物-靶點(diǎn)數(shù)據(jù)對(duì)作為沒(méi)有相互作用,標(biāo)簽為0;
16、根據(jù)藥物-靶點(diǎn)數(shù)據(jù)對(duì)和藥物-靶點(diǎn)數(shù)據(jù)對(duì)的標(biāo)簽構(gòu)建第一訓(xùn)練集;。
17、所述s1中根據(jù)公共數(shù)據(jù)庫(kù)構(gòu)建第二訓(xùn)練集的具體過(guò)程為:
18、提取biosnap數(shù)據(jù)庫(kù)中有相互作用關(guān)系的一個(gè)藥物數(shù)據(jù)和一個(gè)靶點(diǎn)數(shù)據(jù)作為一個(gè)正樣本數(shù)據(jù),最終得到x個(gè)正樣本數(shù)據(jù);x為正整數(shù);
19、隨機(jī)采樣biosnap數(shù)據(jù)庫(kù)中一個(gè)藥物數(shù)據(jù)和一個(gè)靶點(diǎn)數(shù)據(jù)作為一個(gè)負(fù)樣本數(shù)據(jù);最終得到y(tǒng)個(gè)負(fù)樣本數(shù)據(jù),y為正整數(shù);
20、根據(jù)x個(gè)正樣本數(shù)據(jù)和y個(gè)負(fù)樣本數(shù)據(jù)構(gòu)建z個(gè)三元組數(shù)據(jù);最終得到z個(gè)三元組數(shù)據(jù),z為正整數(shù);將z個(gè)三元組數(shù)據(jù)作為第二訓(xùn)練集;
21、所述一個(gè)三元組數(shù)據(jù)包括:藥物數(shù)據(jù)、正樣本靶點(diǎn)數(shù)據(jù)、負(fù)樣本靶點(diǎn)數(shù)據(jù)、
22、其中藥物數(shù)據(jù)為正樣本和負(fù)樣本相同的藥物數(shù)據(jù);
23、例如一個(gè)正樣本為藥物a,靶點(diǎn)b,一個(gè)負(fù)樣本為藥物a,靶點(diǎn)c;那么合成的三元組數(shù)據(jù)為:(藥物a,靶點(diǎn)b,靶點(diǎn)c)
24、biosnap只有正樣本,我們通過(guò)隨機(jī)抽樣構(gòu)建負(fù)樣本,假設(shè)隨機(jī)配對(duì)的藥物和蛋白質(zhì)沒(méi)有相互作用;。
25、所述s2中cban-predictor模型依次包括輸入層、特征提取模塊、雙線性注意力機(jī)制層、特征融合層、相似性計(jì)算層和輸出層;
26、所述特征提取模塊包括蛋白質(zhì)特征提取模型和藥物特征提取模型;
27、所述蛋白質(zhì)特征提取模型為protbert;所述藥物特征提取模型采用morgan分子指紋;protbert的結(jié)構(gòu)如圖4所示,protbert是基于bert架構(gòu)的一個(gè)現(xiàn)有模型,它在bfd(bigfantastic?database)數(shù)據(jù)庫(kù)上進(jìn)行了預(yù)訓(xùn)練。這個(gè)模型學(xué)習(xí)蛋白質(zhì)數(shù)據(jù)的深層表示,可以用于蛋白質(zhì)分類(lèi)、功能預(yù)測(cè)等任務(wù);
28、morgan分子指紋是一種用于化學(xué)信息學(xué)的指紋表示法,能夠有效描述分子結(jié)構(gòu)。它基于ecfp(擴(kuò)展圓形指紋)算法,采用局部環(huán)境的方式對(duì)分子進(jìn)行編碼。
29、一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法。
30、一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別設(shè)備,其特征在于,所述設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法。
31、本發(fā)明的有益效果為:
32、本發(fā)明通過(guò)結(jié)合對(duì)比學(xué)習(xí)和雙線性注意力機(jī)制,解決了傳統(tǒng)藥物靶點(diǎn)識(shí)別方法在處理復(fù)雜生物數(shù)據(jù)時(shí)的局限性。對(duì)比學(xué)習(xí)通過(guò)區(qū)分真實(shí)相互作用和非相互作用樣本,有效地增強(qiáng)了模型的特異性和識(shí)別能力。
33、而雙線性注意力機(jī)制則進(jìn)一步捕捉藥物與靶點(diǎn)之間的精細(xì)交互關(guān)系,改善了模型對(duì)復(fù)雜非線性關(guān)系的理解和表征能力。本發(fā)明相較傳統(tǒng)實(shí)驗(yàn)室藥物篩選,克服了試驗(yàn)耗時(shí)長(zhǎng)、成本高的問(wèn)題,顯著提高了藥物篩選的效率。
34、通過(guò)結(jié)合對(duì)比學(xué)習(xí)和雙線性注意力機(jī)制,該方法能夠自動(dòng)處理和分析大規(guī)模的生物數(shù)據(jù),實(shí)現(xiàn)藥物-靶點(diǎn)相互作用的高效預(yù)測(cè)。與傳統(tǒng)方法相比,本發(fā)明在無(wú)需高質(zhì)量三維結(jié)構(gòu)信息的情況下,仍然能夠準(zhǔn)確識(shí)別潛在的藥物靶點(diǎn)和候選分子,極大地減少了實(shí)驗(yàn)篩選的工作量和開(kāi)銷(xiāo)。
35、此外,該方法還能快速適應(yīng)新數(shù)據(jù)和新任務(wù),具有良好的擴(kuò)展性和適應(yīng)性,進(jìn)一步推動(dòng)了藥物發(fā)現(xiàn)過(guò)程的加速和成本的降低,為新藥研發(fā)提供了一種高效、經(jīng)濟(jì)的替代方案。
1.一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法,其特征在于,所述s1中的公共數(shù)據(jù)庫(kù)包括davis、bindingdb和biosnap;
3.根據(jù)權(quán)利要求2所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法,其特征在于,
4.根據(jù)權(quán)利要求3所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法,其特征在于,所述s2中cban-predictor模型依次包括輸入層、特征提取模塊、雙線性注意力機(jī)制層、特征融合層、相似性計(jì)算層和輸出層;
5.根據(jù)權(quán)利要求4所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法,其特征在于,
6.根據(jù)權(quán)利要求5所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法,其特征在于,所述s2.1中將輸入的一對(duì)藥物-靶點(diǎn)對(duì)數(shù)據(jù)經(jīng)過(guò)特征提取模塊進(jìn)行特征提取處理,得到一對(duì)藥物-靶點(diǎn)對(duì)數(shù)據(jù)的特征表示,具體過(guò)程為:
7.根據(jù)權(quán)利要求6所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法,其特征在于,所述s3中根據(jù)第二訓(xùn)練集對(duì)訓(xùn)練后的cban-predictor模型進(jìn)行訓(xùn)練得到訓(xùn)練好的cban-predictor模型,具體過(guò)程為:
8.根據(jù)權(quán)利要求7所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法,其特征在于,所述s3.1中將輸入的一組三元組數(shù)據(jù)經(jīng)過(guò)特征提取模塊進(jìn)行特征提取處理,得到一組三元組數(shù)據(jù)的特征表示,具體過(guò)程為:
9.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至8任意一項(xiàng)所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法。
10.一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別設(shè)備,其特征在于,所述設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有至少一條指令,所述至少一條指令由處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至8任意一項(xiàng)所述的一種基于對(duì)比學(xué)習(xí)的藥物-靶點(diǎn)對(duì)應(yīng)關(guān)系的識(shí)別方法。