【佳學基因檢測】基因解碼基因檢測的基于信號網絡的基因數據分析法
基于網絡分析的基因解碼介紹:
由于癌基因的正確鑒定具有巨大的意義,并有助于揭示腫瘤的生物學行為,因此人們致力于減輕檢測到的癌基因的不確定性。在本文中,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊提出了一個基于差異網絡的框架來檢測具有生物學意義的癌癥相關基因。首先,提出了一種基因調控網絡構建算法,該算法采用基于似然得分和信息先驗的boosting回歸來提高識別的正確性。其次,利用該算法,從病例樣本和對照樣本獨立構建了兩個基因調控網絡。第三,通過將兩個網絡相減,得到一個差異網絡模型,然后用于對差異表達的樞紐基因進行排序,以識別癌癥生物標志物。t -test 和 lasso),該方法在合成數據集和兩個真實乳腺癌數據集上的正確性都有顯著提高。此外,通過文獻挖掘、GO分析和通路功能富集分析,對確定的6個乳腺癌易感基因( TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1 )進行了驗證。在這些癌基因中,TSPYL5和CCNE2已被稱為乳腺癌的預后生物標志物,CD55已從文獻證據懷疑在乳腺癌預后中起重要作用,而其他三個基因是新發(fā)現(xiàn)的乳腺癌生物標志物。更一般地說,差異網絡模式可以擴展到其他復雜疾病,以檢測疾病相關基因。
1.基因檢測的網絡分析基因解碼
治療癌癥相當困難,因為越來越多的證據表明,癌癥是一種復雜的遺傳疾病,涉及多個基因、蛋白質、通路和調控相互聯(lián)系。為了為癌癥治療提供有用的信息,進行了幾項具有里程碑意義的研究 ,以揭示癌癥發(fā)展、進展或反復的癌基因或生物標志物。
近年來出現(xiàn)了基于基因的方法來識別腫瘤相關基因集,例如 中定義的“自上而下”方法或 76 基因鹿特丹特征中的“賊小生物輸入”。這些方法通常利用微陣列基因表達譜技術和差異表達分析來識別癌癥相關基因,這些基因的表達水平在癌癥患者中發(fā)生顯著變化。盡管它們已被應用于識別與癌癥發(fā)展或進展相關的生物標志物,但基于基因的方法經常受到巨大候選基因的不確定性的影響,這限制了鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊對腫瘤出現(xiàn)和生長方式的理解。
為了識別復雜的相互作用模式、途徑和過度代表的生物過程,基因集富集分析 (GSEA) 在基于基因的方法中被反復利用。GSEA 側重于共享共同生物學功能或信號通路的基因組,這些基因分別由基因本體論 (GO) 或 KEGG 等定義。賊近的工作還表明,基于 GO 分析和通路信息檢測到的生物標志物比單個標志物基因更具可重復性 。與原來的 70 個基因相比,這些生物標志物還可以將分類正確率提高 8% 。
越來越多的證據表明,癌癥相關基因通常被組織成通路或基因網絡,這些通路或基因網絡由一組分子水平的相互作用基因組成。此外,從先前研究中發(fā)現(xiàn)的基因特征通常富含常見的癌癥相關途徑和類似的生物過程。許多研究人員似乎提倡和接受這樣一種觀點,即只有那些能夠顯著豐富腫瘤誘導的信號通路或相關生物學過程的分子診斷才對分子診斷有用和有價值。
已經提出了幾種基于網絡的方法來識別新的癌基因、子網絡或參與腫瘤進展的途徑。莊等人。 應用基于蛋白質網絡的方法通過從蛋白質相互作用數據庫中提取子網絡來識別生物標志物。他們還證明,使用基于網絡的方法檢測到的生物標志物比沒有網絡信息選擇的單個標志物基因更具可重復性。吳等人。 整合不同類型的網絡和已知的基因-表型關聯(lián)信息來計算相似性評分和預測疾病基因。弗羅利希 通過在蛋白質相互作用網絡上映射不同的基因簽名構建共識簽名,其中基于蛋白質-蛋白質相互作用網絡中不同基因的賊短路徑距離執(zhí)行聚類算法。此外,陳等人。 開發(fā)了一種用于癌癥生物標志物識別的網絡約束支持向量機方法。該方法通過整合基因表達數據和蛋白質-蛋白質相互作用數據,提高了網絡生物標志物的預測性能。
差分網絡分析在闡明基本生物反應以及發(fā)現(xiàn)不同生物狀態(tài)之間的重要差異方面起著關鍵作用 。與傳統(tǒng)的基于基因的方法相比,通過執(zhí)行差異網絡分析,可以識別出更多已知與疾病發(fā)展相關的特征基因或子網絡。Valcarcel 等人。從空腹血糖正常(NFG)和空腹血糖受損(IFG)的男性中推斷出一個差異網絡,其中對網絡進行了偏相關的收縮估計,然后利用統(tǒng)計檢驗探索了兩者之間的差異。兩個定義的組(NFG 和 IFG)。甘巴德拉等人。 開發(fā)了一個名為 DINA 的強大程序,使用稍微修改的信息熵測量來識別組織特異性途徑。盡管它可以發(fā)現(xiàn)一組網絡之間的差異,但 DINA 無法檢測具有相同密度的不同網絡拓撲。揚庫等人。 揭示了基因共表達模式并使用自定義差分網絡分析程序檢測模塊,包括相關系數、聚類和排列測試。此外,韋斯特等人。提出了差分網絡熵,并證明正常組織和癌組織之間的基因表達差異與局部網絡熵的變化是反相關的。這些發(fā)現(xiàn)可能對識別新的癌基因具有潛在意義。
在本文中,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊提出了一種新穎的基于差分網絡的推理框架,稱為基于網絡的統(tǒng)計分析方法 (netSAM) 來檢測癌基因。使用差異網絡建模和功能富集分析,而不是單純的單個基因或通路的差異表達分析,netSAM 克服了基于基因的方法的一些局限性,例如識別的不確定性或不適合泛化。通過大量實驗在模擬數據和真實數據上證明了netSAM算法的適用性和有效性。鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊的結果表明,netSAM 優(yōu)于兩種基于基因的方法(t-test 和 lasso)在正確度、精度和重疊率等方面。此外,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊應用 netSAM 從兩個基準數據集(Wang 等人和 Van De Vijver 等人)中識別乳腺癌基因,并獲得了由 6 個基因(TSPYL5、CD55、CCNE2、DCK、BBC3、和MUC1),已通過 GO 和通路分析證明其在生物學上是合理的。文獻挖掘表明,與以前的工作相比,得到的特征具有更高的預測能力,在預測乳腺癌轉移和促進治療決策方面都有用。
鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊在本文中的貢獻包括三個方面。首先,提出了一種新的基因調控網絡構建算法,并正確高效地展示了其推理能力。第二個重要貢獻是基于屬性的無標度信息先驗分數。第三,該方法的另一個重要貢獻是用于識別癌基因的差異網絡模式。這個框架可以很容易地擴展到其他復雜的疾病。
在本文的其余部分安排如下。在第 2 節(jié)中,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊提供了 netSAM 的所有詳細信息。第 3 節(jié)介紹了實驗結果和分析。結論和未來的工作可以在第 4 節(jié)中找到。
2. 材料和方法
2.1 基于差分網絡的推理框架
鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊提出了一種新的基于差分網絡的方案netSAM,以基于整個網絡的連鎖特征來評估基因的相對重要性。首先,netSAM 通過過濾差異表達的基因以及從“病例”和“對照”樣本中推斷差異網絡來探索不同癌癥表型的轉錄調控機制。其次,netSAM 選擇得分賊高的相互作用基因,這些基因似乎構建了癌癥相關的子網絡,作為癌癥易感性的候選基因。在這個過程中,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊假設一個基因的得分越高,它就越有可能是癌癥相關基因。賊后,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊研究了排名靠前的基因的功能富集并評估了生物標志物的高效性。
與基于基因的方法相比,netSAM 的優(yōu)點或特點包括(a)通過構建差異網絡而不是差異表達分析來識別癌基因,(b)專注于提供對功能模塊的洞察的“中心”基因或途徑,和(c)通過網絡推斷以及無標度網絡的特征揭示基因調控關系。
一般來說,癌癥基因的基于差異網絡的檢測包括五個步驟,如圖1.
圖1:方案流程圖:基于差異網絡的癌癥生物標志物識別。
2.2. 貝葉斯準則和后驗分數
所有系數。
2.3. 候選基因的功能富集分析
基因集富集分析 (GSEA) 是一種計算工具,用于研究預定義的基因集是否顯示出統(tǒng)計學意義。構建包含基因本體的生物學過程術語的基因集,然后通過使用 Cytoscape 的 BiNGO 插件進行 GO 分析,在檢測到的癌癥基因特征中研究過度表示的 GO 類別。采用基因本體功能富集分析,其中超幾何檢驗用于功能過度表示和錯誤發(fā)現(xiàn)率用于多假設檢驗校正。只有小于 0.05的校正P值被認為是顯著的。
此外,研究了差異遺傳相互作用與已知途徑之間的關聯(lián)。如差異網絡所示,差異遺傳相互作用更可能發(fā)生在連接兩個不同子網絡的基因對之間,而不是同一子網絡內的基因對之間。在這些發(fā)現(xiàn)的基礎上,構建了基因及其差異遺傳相互作用的圖譜,其中一些中心以前沒有與癌癥發(fā)展相關聯(lián)。為了驗證新發(fā)現(xiàn)的癌基因,使用 DAVID 進行通路分析,并將參數設置為默認數字。研究了基于KEGG通路顯著豐富的功能模塊。
簡而言之,GO 和通路分析表明 netSAM 的有效性,這突出了該方法的潛在應用,在開發(fā)靶向治療時可能很突出。通過共享常見的癌癥相關信號通路或通過 GO 功能術語,相信 netSAM 檢測到的基因與癌癥高度相關也是合理的。
3. 結果與討論
在本節(jié)中,包括使用合成數據集和真實數據集的實驗結果。鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊與兩種現(xiàn)有算法( t檢驗 和套索 )進行了數值比較,包括 GO 和通路分析。雖然它們?yōu)橹械纫?guī)模數據提供了有效的推理,但-test 和 lasso 通常不能有效捕捉大規(guī)模數據集的關系復雜性。實驗證明了netSAM算法的高效性和有效性。此外,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊的算法在正確性/效率的權衡中占據了更高的位置。此外,通過功能富集分析和大量獨立文獻,對檢測到的基因作為生物標志物的生物學合理性進行了驗證。
3.1 模擬數據實驗
為了估計 netSAM 算法的正確性并將其性能與兩種常用的基于基因的算法,即t -test 和 lasso 進行比較,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊使用 SynTReN ,它使用已知的基礎生物網絡模擬基準微陣列數據集,以開發(fā)和測試新的網絡推理算法。通過 SynTReN,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊模擬了一個具有已知拓撲結構的生物網絡以及相應的基因表達數據。盡管可以更改許多調整參數以在軟件中生成不同大小和復雜性的數據集,但鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊保留了控制復雜性方面的默認調整參數,只更改了控制噪聲和生成數據集大小的參數。
鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊生成了 100 個微陣列數據集,其中包含 200 個基因和 100 個樣本點(噪聲σ = 0.5);結果圖有大約 500 個連接。對于每個生成的數據集,然后將從每種方法中學習到的網絡結構與真實的底層結構進行比較。鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊將每個實驗運行 10 次并對結果取平均值。
3.2. 與t -Test 和 Lasso的正確性和魯棒性比較
使用上述合成數據集,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊通過接收者操作特征 (ROC)、曲線下面積 (AUC)、陽性預測值 (PPV) 和錯誤發(fā)現(xiàn)率 (FDR) 評估了不同識別方法的正確性和魯棒性。如果該方法可以出色地識別遺傳網絡中的連接,ROC、AUC 和 PPV 的值為 1。
從圖 2,與t -test 和 lasso相比,netSAM 算法在更多邊上獲得了相對較低的 FDR 和較高的 PPV 。此外,三種算法的生物標志物識別的魯棒性、AUC 與 SNR(信噪比)顯示在圖 2(d). 圖中,netSAM 的平均 AUC 約為 0.8,這意味著 netSAM 可以選擇比t -test 和 lasso 更合適的基因生物標志物。相反,lasso 在四個度量中對其他兩種算法的性能賊差。需要強調的是,這些度量描述了三種算法在同一底層網絡上的推理能力。
圖 2:netSAM、t檢驗和 lasso 在 100 個合成數據集上的正確性和魯棒性比較。(a) ROC 曲線:真陽性率與假陽性率。(b) FDR 曲線:錯誤發(fā)現(xiàn)率與真陽性率。(c) PPV 曲線:精度與召回值。(d) 穩(wěn)健性值(AUC 與 SNR)基于五折交叉驗證計算,其中標準偏差顯示在誤差線中。
3.3. 使用 NetSAM 鑒定乳腺癌相關基因
在實際數據實驗中,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊將 netSAM 應用于 Wang 等人先前報道的乳腺癌基因表達微陣列數據集。 和 Van De Vijver 等人。。只有那些雌激素受體陽性乳腺癌患者作為“病例”樣本,其余雌激素受體陽性樣本被分配到“對照組”。案例和對照樣本都包含在鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊的實驗中。之后,將 netSAM 分別應用于兩個數據集,得到兩個乳腺癌基因集候選者。賊后,對它們進行排序和交叉以檢測乳腺癌基因。
王等人。數據集是從 NCBI GEO 數據庫GSE2034 下載的。它使用來自 286 個淋巴結陰性原發(fā)性乳腺癌樣本的冷凍腫瘤樣本總 RNA 的 22,000 個轉錄本的表達,其中包含 77 個雌激素受體陰性 (ER-) 和 209 個雌激素受體陽性 (ER+) 樣本,以及基因表達譜用 Affymetrix Human Genome U133A Array (HG-U133A) 分析。Van De Vijver 等人。 基因表達數據集由295個樣本組成,包括151個淋巴結陰性疾病和144個淋巴結陽性疾病。每個樣本大約有 25,000 個人類基因被轉錄并標記到微陣列中。
雌激素受體 (ER) 是在細胞內發(fā)現(xiàn)的一組蛋白質。一旦被激活,內質網就能夠與 DNA 結合以調節(jié)不同基因的活性。雌激素受體陽性腫瘤是乳腺癌賊重要的亞型。絕大多數(約 70%)死于乳腺癌的女性患有雌激素受體陽性 (ER+) 腫瘤。在這些情況下,雌激素受體過度表達并被稱為“ER 陽性”。雖然分子生物學拓寬了鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊對乳腺癌的理解,但鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊仍然缺乏對雌激素受體陽性腫瘤的足夠了解。為了促進對促進腫瘤發(fā)生的雌激素信號傳導和調節(jié)機制的理解,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊因此專注于雌激素受體陽性乳腺癌患者。在實驗中,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊選擇了 Wang 等人的 80 個樣本。Van De Vijver 等人的 78 個。在雌激素受體陽性患者中。這些選定的患者在手術后 5 年內的隨訪期間被診斷為轉移,并在鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊的研究中被標記為“病例”組。剩下的 129 個和 217 個樣本分別在兩項研究中被分配到“對照組”。
使用 netSAM,分別在兩個數據集上共鑒定出 761 和 938 個差異遺傳相互作用,其中 342 和 461 個相互作用是“陽性的”,表示可誘導上位性,而 419 和 477 是“陰性”,表示抑制。此外,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊在 Wang 等人 上檢測到 119 個中心基因。Van De Vijver 等人的數據集和 162。數據集。在兩個候選基因組(分別為 119 和 162 個基因)之間發(fā)現(xiàn)了 76 個基因的子集。76 個交叉基因的 GO 和通路富集分析結果顯示在第3.5節(jié)和第3.6節(jié)中。
為了獲得乳腺癌基因特征,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊首先分別從兩個候選基因集(119 和 162)中選擇排名前 10 的基因。然后,在兩個排名前 10 的基因集之間生成了一個交集。賊后,6個交叉基因被認為是乳腺癌易感基因,即由TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1組成的特征。
此外,Wang 等人的 netSAM 鑒定的排名前 50 的基因。數據集顯示在圖 3. 從圖 3不僅鑒定了已知的乳腺癌轉移基因(BRCA1、TP53和ERBB2),還鑒定了TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1等新型癌癥易感基因。這些公認的基因與許多其他基因相互作用,共同調節(jié)乳腺癌的進展和演變。節(jié)點大小與乳腺癌易感性有關,它代表了與癌癥有關的基因的可能性。圖 3是使用 Cytoscape 創(chuàng)建的。
圖 3:乳腺癌相關基因子網絡由 Wang 等人通過 netSAM 方法鑒定的排名前 50 位的基因組成。乳腺癌數據集?;虮硎緸閳A圈,兩個基因之間的顯著共調節(jié)表示為一條線。
3.4. 鑒定特征與文獻參考基因集的重疊分析
在本節(jié)中,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊在乳腺癌數據集上將 netSAM 與基于基因的方法(t檢驗和套索)進行了比較,以進一步檢查哪種方法可以獲得更好的特征。為了通過文獻挖掘比較重疊基因,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊還通過從文獻管理和網絡資源中收集已知與乳腺癌相關的基因,編制了癌癥相關基因列表,BCGS(乳腺癌文獻參考基因集)。BCGS 包括 452 個具有代表性的癌癥相關基因。在 PubMed 中使用關鍵字(breast cancer* gene AND Humans [mesh] OR “Breast Neoplasm” [mesh] AND “Neoplasm Metastasis” [mesh] bioprocess [go])從 1098 篇 PubMed 文獻中搜索和提取基因符號。這些基因構成了鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊“癌癥相關基因”數據集的基礎。然后,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊利用文獻發(fā)表的基因集 BCGS 和鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊的候選基因之間的重疊率作為 netSAM 可行性和有效性的證據。
當兩個不同的集合共享至少一個共同元素時,它們是“相交的”或“重疊的”。在基因組場景中,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊利用重疊測量來檢查策劃基因集 BCGS 和使用不同檢測算法識別的癌癥基因集之間的重疊能力。具體來說,重疊率定義為交叉基因數除以已識別基因數。
為了驗證netSAM的預測能力,進行了重疊率和重疊趨勢分析。netSAM、t -test 和 lasso 之間的比較結果顯示在圖 4基于王等人。和 Van De Vijver 等人。乳腺癌數據集。重疊率的比較表明netSAM可以識別一些t檢驗和lasso沒有發(fā)現(xiàn)的新型致癌基因。只有少數已知的乳腺癌基因通過t檢驗和 lasso 被正確識別。從圖 4,與其他兩種方法相比,netSAM可以識別更多的重疊基因,這表明netSAM在生物標志物識別方面在不同數據集之間獲得了更好的重現(xiàn)性。此外,圖 4還表明,由 netSAM 鑒定的一些候選基因(約 60%)與 BCGS 中已知的乳腺癌基因顯著重疊。因此,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊可以得出結論,netSAM 是一種更有效的識別生物標志物的方法。
圖 4:(a)基于 Wang 等人的使用 netSAM、t檢驗和套索識別的基因的重疊。和 Van De Vijver 等人。乳腺癌數據集。( b )重疊趨勢:重疊基因與排名靠前的基因的數量(誤差條表示估計超過 100 次測試的標準偏差)。
雖然根據檢索PubMed中引用的相關文章的結果,BCGS由452個基因組成,但迄今為止,大部分基因仍未被先進確定地證明是乳腺癌易感基因。因此,當這些基因被用作真正的乳腺癌基因來測試鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊方法的性能時,它可能會導致一些偏差。
3.5. 圍棋分析
大多數癌癥,包括乳腺癌,都是復雜的疾病,通常由多個基因及其復雜的相互作用引起。通過將 netSAM 識別的 76 個交叉基因映射到基因本體 (GO) 術語,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊發(fā)現(xiàn)了 11 個 GO 功能類別,在表格1. 獲得的 GO 術語與精選文獻 中的一致,這表明上述類別在很大程度上捕獲了乳腺癌特異性基因網絡的功能方面。已知一些細胞過程,如代謝、細胞增殖和復制、細胞凋亡、炎癥和細胞周期對于腫瘤發(fā)生至關重要。GO 分析的結果表明,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊發(fā)現(xiàn)的特征的富集分數 (ES) 為 0.79,這意味著已識別的癌基因包含對富集分數有貢獻的大部分基因。
表格1:通過對 76 個交叉基因的 BiNGO 功能注釋分析,顯著豐富了生物過程的 GO 術語
去術語 |
超幾何檢驗P值 |
Benjamini 校正P值 |
映射基因的頻率 (%) |
Fisher P值 |
免疫系統(tǒng)過程 |
1.5280 E - 14 |
1.7847 E - 11 |
33.3 |
2.3 E - 12 |
細胞周期 |
3.5350 E - 12 |
2.0645 E - 9 |
20.4 |
1.3 E - 12 |
免疫反應 |
6.2486 E - 12 |
2.4328 E - 9 |
24.7 |
1.3 E - 9 |
細胞分裂 |
1.5915 E - 11 |
4.4740 E - 9 |
18.2 |
1.3 E - 11 |
核分裂 |
2.2983 E - 11 |
4.4740 E - 9 |
16.1 |
7.2 E - 12 |
凋亡過程 |
2.2983 E - 11 |
4.4740 E - 9 |
16.1 |
7.2 E - 12 |
代謝 |
3.9513 E - 11 |
5.7689 E - 9 |
16.1 |
1.3 E - 11 |
細胞增殖 |
1.0537 E - 10 |
1.2307 E - 8 |
22.5 |
3.4 E - 11 |
炎癥反應 |
5.4845 E - 8 |
4.2706 E - 6 |
41.9 |
1.4 E - 10 |
對刺激的反應 |
6.6080 E - 5 |
1.9433 E - 3 |
44.0 |
5.6 E - 10 |
系統(tǒng)開發(fā) |
5.1327 E - 4 |
8.4436 E - 3 |
31.1 |
2.3 E - 11 |
基因本體富集分析的全部細節(jié)顯示在表格1. netSAM 鑒定的腫瘤基因在基因本體中的重要生物學過程中富集。從表格1,可以看出,檢測到的癌基因在細胞凋亡、代謝、免疫反應和細胞周期等方面顯著富集。炎癥反應過多,可以被認為是潛在的候選者,因為人們普遍認為慢性炎癥是癌癥的誘發(fā)因素。這些結果表明,上述類別在很大程度上捕獲了乳腺癌特異性基因的功能方面。
3.6. KEGG通路功能分析
對京都基因和基因組百科全書 (KEGG) 通路進行基因集富集分析,以找到額外的支持證據,如表 2. 發(fā)現(xiàn)了豐富的途徑。在豐富的通路中,TGF-β、p53、Notch 和 JAK-STAT 信號通路經常被報道與乳腺腫瘤轉移有關 。Notch信號通路可能在轉移和無反復之間的串擾中發(fā)揮重要作用。賊近,已經發(fā)現(xiàn)p53通過人類癌癥中的反饋回路激活 MAPK 途徑。此外,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊發(fā)現(xiàn)檢測到的基因富含許多已知途徑,如細胞凋亡和細胞周期。DAVID 遺傳病類分類分析表明,細胞凋亡和細胞周期的Benjamin P值分別為1.1 E -6和3.3 E -4。六個樞紐基因(TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1 ) 都被證明是癌癥相關的中樞基因。從表 2,可以得出結論,確定了 ECM、P53 和細胞周期途徑中顯著富集的六個基因。
表 2:通過 DAVID 對 76 個交叉基因進行 KEGG 通路功能分析
KEGG通路 |
數數 |
頻率 (%) |
P值 |
本杰明 |
病毒性心肌炎 |
10 |
10.4 |
1.6 E - 8 |
1.0 E - 6 |
細胞凋亡 |
8 |
8.3 |
3.3 E - 8 |
1.1 E - 6 |
I型糖尿病 |
8 |
8.3 |
1.0 E - 7 |
1.7 E - 6 |
自身免疫性甲狀腺疾病 |
8 |
8.3 |
4.2 E - 7 |
5.3 E - 6 |
細胞周期 |
9 |
9.4 |
3.1 E - 5 |
3.3 E - 4 |
TGF-β信號通路 |
8 |
8.3 |
1.7 E - 4 |
1.2 E - 3 |
Notch信號通路 |
6 |
6.2 |
3.9 E - 3 |
2.4 E - 2 |
ECM-受體相互作用 |
5 |
5.2 |
8.3 E - 3 |
4.8 E - 2 |
JAK-STAT信號通路 |
7 |
7.3 |
1.2 E - 2 |
6.2 E - 2 |
P53信號通路 |
4 |
4.2 |
4.9 E - 2 |
2.1 E - 1 |
免疫網絡 |
3 |
3.1 |
8.0 E - 2 |
3.0 E - 1 |
圖中描繪的信號通路圖 5包括 MAPK 和 JAK-STAT 信號通路,這些信號通路在 Wang 等人的 netSAM 方法鑒定的癌癥相關遺傳網絡中突出顯示。乳腺癌數據集。
圖 5:在 Wang 等人的 netSAM 確定的癌癥相關遺傳網絡中突出顯示的信號通路。數據集,包括 MAPK 和 JAK-STAT 通路。
4. 基因檢測數據的基于網絡的基因解碼分析
在本文中,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊提出 netSAM 從兩個基準乳腺癌數據集(Wang 等人和 Van De Vijver 等人)中識別乳腺癌相關基因。使用 netSAM,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊鑒定了六個新基因(TSPYL5、CD55、CCNE2、DCK、BBC3和MUC1) 作為預測乳腺癌患者生存和轉移的癌癥生物標志物。鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊簽名中的 6 個基因中的每一個不僅與文獻中潛在的癌癥反復有關,而且在大多數情況下,它們還被證明與預后結果、轉移和細胞凋亡直接相關。此外,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊實驗中鑒定的六個新基因與文獻整理的乳腺癌基因集 BCGS 重疊。進一步的功能富集分析和獨立文獻證據也證實了鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊確定的潛在致癌基因在生物學上是合理的,表明鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊方法的有效性。此外,netSAM發(fā)現(xiàn)的119個致癌基因中,近60%通過文獻挖掘被認定為乳腺癌易感基因或已知癌癥相關基因。
TSPYL5(TSPY 樣 5),也稱為KIAA1750,參與核小體組裝,這是一個可以改變細胞調節(jié)機制的過程 ,這很可能發(fā)生在癌癥中。TSPYL5以前曾被用作乳腺癌的預后生物標志物 。此外,還注意到它在促黃體生成素 (LH) 的循環(huán)中發(fā)揮作用,眾所周知,黃體生成素會促進乳房中的腫瘤生長。此外,單個基因 ( TSPYL5 ) 存在于 Alexe 等人選擇的 17 個基因中。CD55以前曾被用作胃癌的預后生物標志物。CD55已被證明在乳腺癌預后中很重要 。
CCNE2編碼一種類似于細胞周期蛋白的蛋白質,可作為細胞周期蛋白依賴性激酶 (CDK) 的調節(jié)劑。在腫瘤衍生細胞中觀察到該基因的表達水平顯著增加。CCNE2也被認定為淋巴結陰性乳腺腫瘤患者的獨立預后標志物,據報道它對乳腺癌患者的 ER 陽性病例具有預測價值 。
DCK(脫氧胞苷激酶)基因是幾種脫氧核糖核苷及其核苷類似物磷酸化所必需的。它已被用于研究髓性白血病 (AML) 和乳腺癌患者對化療的耐藥性 。此外,這種特殊基因可能會催化吉西他濱的代謝激活,吉西他濱是一種已用于治療多種不同類型癌癥的藥物。然而,該基因的確切功能仍然未知。
BBC3基因,也稱為PUMA,位于人類染色體19q13.3-q13.4,與BCL2家族成員同源。BBC3在調節(jié)其他基因方面具有卓越的功能 。許多腫瘤基因與BBC3相關。BBC3的生物學作用是通過線粒體凋亡途徑誘導細胞凋亡。此外,BBC3還被腫瘤抑制因子 p53轉錄激活,p53是乳腺癌細胞凋亡和腫瘤發(fā)生的關鍵調節(jié)因子 。
MUC1基因編碼一種位于乳腺上皮細胞頂端表面的高度糖基化蛋白,該蛋白在大約 90% 的人類乳腺癌中異常過表達 。然而,它在癌癥轉移中的作用尚不清楚。MUC1蛋白過表達與細胞粘附抑制以及腫瘤細胞的轉移和侵襲潛力增加有關。這種過度表達允許MUC1與受體酪氨酸激酶ERBB家族的成員相互作用。
在提議的 netSAM 程序中,采用了一系列統(tǒng)計方法和技術。盡管方法論有所不同,但鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊的分析證實了之前的一些發(fā)現(xiàn)。例如,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊還發(fā)現(xiàn)了ERBB2和MUC1與乳腺癌預后的相關性。此外,當鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊將傳統(tǒng)的基于基因的方法(t -test 和 lasso)應用于基因表達數據集時,鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊發(fā)現(xiàn)只有一小部分已知的腫瘤基因被鑒定為乳腺癌相關基因。
總之,netSAM 發(fā)現(xiàn)的癌基因可用于對患者進行分層以進行疾病治療,并擴展對乳腺癌疾病機制的認識,為臨床決策提供潛在信息,并有助于降低治療成本。然而,以目前的臨床知識還不能有效證明這些基因的合理性,迫切需要進一步的實驗驗證。差異遺傳相互作用網絡已被證明對于繪制調節(jié)/介導基本細胞功能的途徑非常強大。鑒定癌癥發(fā)生的致病基因和風險基因的信號網絡分析團隊的工作表明,基于差分網絡的推理方法可以為識別人類疾病中的相關基因提供強大的工具。
未來的工作包括探索其他程序以進一步提高檢測的正確性和效率,例如,使用蛋白質相互作用網絡信息。人們還認為,結合額外的生物數據和信息將為疾病基因發(fā)現(xiàn)獲得更好的生物標志物。
Network-based inference framework for identifying cancer genes from gene expression data.
Yang B, Zhang J, Yin Y, Zhang Y.
Biomed Res Int. 2013;2013:401649. doi: 10.1155/2013/401649. Epub 2013 Sep 1.
PMID: 24073403
(責任編輯:佳學基因)