【佳學(xué)基因檢測】如何在基因檢測后提高基因集富集分析的能力?
腫瘤基因檢測與靶向藥物選擇導(dǎo)讀:
背景
集合富集方法通常用于分析高維分子數(shù)據(jù)并獲得對分子或臨床表型的生物學(xué)洞察力。一類重要的分析方法采用富集分數(shù),它是根據(jù)表型和每個分子屬性之間的排名單變量相關(guān)性創(chuàng)建的。通過從表型排列產(chǎn)生的零分布確定關(guān)聯(lián)的重要性的估計?;驒z測與基因信息學(xué)研究攻關(guān)團隊研究了這種方法的一些統(tǒng)計特性,并展示了如何使用富集的替代評估來增加此類分析的統(tǒng)計能力,以檢測表型與生物過程和途徑之間的關(guān)聯(lián)。
結(jié)果
對于這類集合富集分析,零分布在很大程度上獨立于具有可用分子數(shù)據(jù)的樣本數(shù)量。因此,如果樣本隊列不太小,基因檢測與基因信息學(xué)研究攻關(guān)團隊表明通過將隊列分成兩半并使用對每一半評估的富集分數(shù)的平均值作為替代,可以增加識別生物過程和表型之間關(guān)聯(lián)的統(tǒng)計能力檢驗統(tǒng)計量。此外,基因檢測與基因信息學(xué)研究攻關(guān)團隊證明,可以通過將隊列的多個隨機分成兩半來平均來擴展這一原則。這使得可以計算任意精度的富集統(tǒng)計和相關(guān)的p值,而與使用的確切隨機拆分無關(guān)。
結(jié)論
有可能增加基因集富集分析的統(tǒng)計能力,該分析采用從單變量表型屬性相關(guān)性和表型排列生成空分布的運行總和創(chuàng)建的富集分數(shù)。這種增加可以通過使用替代測試統(tǒng)計來實現(xiàn),該統(tǒng)計為數(shù)據(jù)集的拆分計算平均富集分數(shù)。除了基因集中上調(diào)和下調(diào)基因之間的密切平衡的特殊情況外,通過這種方法可以提高或至少保持統(tǒng)計能力,直至小樣本量,其中正確評估單變量表型基因相關(guān)性變得不可行。
關(guān)鍵詞: 富集分析,基因集富集分析,統(tǒng)計功效
背景
集富集分析已成為生物信息學(xué)和生物統(tǒng)計學(xué)工具包的重要組成部分。此類分析可以深入了解不同分子或臨床定義表型的基本生物學(xué)過程 。假設(shè)有一個可用的數(shù)據(jù)集,其中測量了 N 個實例(樣本)的 p 個屬性(例如蛋白質(zhì)豐度、基因表達),每個實例都具有相關(guān)的連續(xù)或分類表型。集合富集不是進行 p 單變量分析來評估 N 個實例中每個單獨屬性與表型之間的相關(guān)性,而是試圖確定 p 屬性子集中與余??梢赃x擇包含與感興趣的特定生物過程或途徑相關(guān)的屬性的屬性子集。
集合富集分析有許多化身,主要區(qū)別在于用于評估富集的方法及其意義。在 Ackermann 等人中可以找到多種方法的概述和比較。。一類集合富集分析方法使用富集分數(shù) (ES) 來捕獲屬性子集與其補集之間的個體屬性-表型相關(guān)性的差異。一種常用的富集評分方法,基因集富集分析 (GSEA) ,對屬性和表型之間的單變量相關(guān)性進行排序,并根據(jù)從有序等級構(gòu)建的運行總和的極值定義富集分數(shù)。屬性子集(基因集)和由富集分數(shù)捕獲的表型之間關(guān)聯(lián)的統(tǒng)計顯著性是基于通過排列表型標簽生成的 ES 的空分布來確定的。
諸如 GSEA 之類的分析檢測與特定屬性子集的關(guān)聯(lián)的能力取決于:i.測量的屬性數(shù)量;ii. 屬性子集中的屬性數(shù)量以及它們之間的相關(guān)性;iii. 可獲得數(shù)據(jù)的樣本數(shù)量;和四。用于評估單變量屬性-表型相關(guān)性的指標。已經(jīng)進行了大量研究以更好地了解GSEA的局限性以及上述因素如何影響其敏感性和統(tǒng)計能力(例如,)。在本文中,基因檢測與基因信息學(xué)研究攻關(guān)團隊探討了 GSEA 方法的統(tǒng)計能力對具有可用分子數(shù)據(jù)的隊列中的樣本數(shù)量的依賴性。基因檢測與基因信息學(xué)研究攻關(guān)團隊表明,雖然 ES 的分布隨著 N 的增加而變窄,但表型排列產(chǎn)生的零分布卻沒有。因此,增加隊列中的樣本數(shù)量并不會帶來與在其他設(shè)置中通常觀察到的 N 相同的統(tǒng)計功效增加。作為推論,基因檢測與基因信息學(xué)研究攻關(guān)團隊表明,只要隊列足夠大,將隊列分成兩個不同的部分,并使用每個部分的 ES 平均值作為替代統(tǒng)計量,比使用定義的傳統(tǒng) ES 提供更大的檢測關(guān)聯(lián)的能力使用整個隊列。這種方法產(chǎn)生一個富集統(tǒng)計,因此富集p值,這取決于隊列分成兩部分的具體情況。這種潛在的劣勢可以通過隨機選擇多個隊列拆分并對這些拆分以及特定拆分中的一半的 ES 進行平均來緩解。基因檢測與基因信息學(xué)研究攻關(guān)團隊表明,這種技術(shù)可以產(chǎn)生所需的精度水平(在富集分數(shù)指標和p值中),而與群組的拆分方式無關(guān)。
結(jié)果
乳腺癌患者的 mRNA 表達數(shù)據(jù)
本節(jié)使用一個公開可用的數(shù)據(jù)集,測量從乳腺癌患者收集的組織樣本中獲得的 13,018 個基因的表達。該隊列已得到充分研究 ,并且是開發(fā)一項測試的基礎(chǔ),該測試將患者在乳腺癌手術(shù)后分為良好或不良結(jié)果組 。測試分類(“好”或“差”)可作為數(shù)據(jù)集的一部分使用,并用作二元表型。這些數(shù)據(jù)來自 Venet 等人提供的補充材料。。使用的屬性子集(這里是基因集)是 Hallmarks 基因集(一組 50 個基因集) 可從 Broad Institute GSEA 網(wǎng)站獲得(參見方法)。選擇了兩個特定基因集 HALLMARK_MYC_TARGETS_V1 和 HALLMARK_ALLOGRAFT_REJECTION 作為標志基因集中過程的示例,這些基因集與以 GSEA p值約為 0.05 為特征的乳腺癌隊列中的表型相關(guān)(對于 MYC_TARGETS_V1 和p = 0.0684,p = 0.0172 和p = 0.0684)對于 ALLOGRAFT_REJECTION)。兩個基因組的標準 ES 的零分布顯示在富集分析中使用的不同數(shù)量的樣本 N 中,在圖 3 中以藍色顯示。 1ab。每個條帶的寬度反映了在創(chuàng)建的 1000 個子集實現(xiàn)中每個直方圖箱中的零分布的標準誤差(從整個隊列中隨機選擇 N 個樣本,按表型分層)。很明顯,隨著 N 的增加,零分布基本上保持不變。請注意,這與典型統(tǒng)計的原型、教科書案例形成對比,例如學(xué)生的 t 統(tǒng)計,其中零分布隨著 N 的增加而變窄。樣本數(shù)量在確定 ES 的零分布寬度方面并不起典型作用。其他因素,例如測量的屬性數(shù)量和基因集中的屬性數(shù)量,對于確定空分布的形狀更為重要。
圖1:N = 20、40、60、80、100 和 200 的 ES 和 ES avg 的空分布。a HALLMARKS_MYC_TARGETS_V1,b HALLMARKS_ALLOGRAFT_REJECTION。ES 的分布以藍色顯示,ES avg的分布以紅色顯示
對于相同的基因組,ES 的采樣分布,對于從 294 個樣本的研究隊列中抽取的 N 個樣本的子集,隨著 N 的增加而變窄(圖 3 的下圖)。 2B)。對于賊低 N,分布保留了零分布的雙峰特征的痕跡。隨著 N 的增加,分布變得單峰,然后進一步變窄。請注意,由于采樣是在僅 294 個樣本的總體中執(zhí)行的,因此采樣實現(xiàn)之間會有相關(guān)性,尤其是對于較大的 N。
圖 2:N = 20、40、60、80、100 和 200的ES 和 ES平均抽樣分布。a HALLMARKS_MYC_TARGETS_V1,b HALLMARKS_ALLOGRAFT_REJECTION
結(jié)果如圖所示。 1和???2
2這意味著檢測特定屬性子集和表型之間關(guān)聯(lián)的能力將隨著 N 增加。然而,它不會像一些更簡單的統(tǒng)計數(shù)據(jù)那樣迅速發(fā)生,因為盡管與備擇假設(shè)相關(guān)的分布隨著 N 而變窄,但零假設(shè)沒有。
基因檢測與基因信息學(xué)研究攻關(guān)團隊現(xiàn)在考慮將測試統(tǒng)計量從使用 N 個樣本計算的標準 ES 更改為兩個 ES1 和 ES2 的平均值的影響,每個 ES 計算將 N 個樣本拆分為 N/2 個樣本的兩個不同子集,即ES平均值 = 0.5 (ES1 + ES2)。數(shù)字 1ab 比較了 ES avg(紅色)和 ES(藍色)的零分布,對于兩個示例基因組的各種 N 值。(請注意,ES avg的零分布是三峰的,而不是雙峰的。對于表型分類的排列,ES1 和 ES2 同樣可能是正數(shù)或負數(shù),因此 ES avg接近 0 的可能性不大。) 圖 2ab 對 ES avg(上圖)和 ES(下圖)的采樣分布顯示相同。對于所有研究的 N,基因檢測與基因信息學(xué)研究攻關(guān)團隊觀察到 ES avg的零分布比 ES 的更窄。這是相對獨立于 N 的零分布的結(jié)果:ES 的零分布對于 N 和 N/2 是相似的。因此,ES1 和 ES2 的零分布(針對 N/2 個樣本計算)與 ES 的相似。由于 ES avg是 ES1 和 ES2 的平均值,對于 N/2 個樣本,它的零分布將比 ES(類似 ES1 和 ES2)窄,因此比 N 個樣本的 ES 窄。對于小 N,ES avg的采樣分布可能比 ES 更寬。當 N 非常小以至于無法以足夠的正確度評估表型-個體基因相關(guān)性以產(chǎn)生單峰 ES平均抽樣分布時,就會發(fā)生這種情況,即使基因集和表型之間存在真正的群體關(guān)聯(lián)。當基因集和表型之間沒有種群關(guān)聯(lián)時,較大的 N 可能會發(fā)生這種情況。然而,當基因集和表型之間存在真正的群體關(guān)聯(lián)時,對于較大的 N,ES avg的抽樣分布N 個樣本的位置和寬度與 ES 相似。在這些情況下,如 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 所示,盡管 ES1 和 ES2 的采樣分布比 ES 的更寬,但由于樣本量減半,這可以通過將 ES1 和 ES2 平均化為新統(tǒng)計,ES avg。
因此,使用 ES avg作為檢驗統(tǒng)計量增加了檢測表型與特定基因組關(guān)聯(lián)的能力,而不是使用 ES 獲得的關(guān)聯(lián),只要 N 不太小并且存在有意義的群體關(guān)聯(lián)。數(shù)字 3顯示 ES 和 ES avg之間的統(tǒng)計功效差異作為檢驗統(tǒng)計量,以檢測兩個示例基因集和表型之間的關(guān)聯(lián)。結(jié)果顯示為 294 名患者隊列的子集大小 N 的函數(shù)。即使對于 40 個樣本(24 個“差”和 16 個“好”表型),使用 ES avg作為統(tǒng)計數(shù)據(jù)也可以提高檢測關(guān)聯(lián)的能力。對于 20 個樣本,ES avg的功率在數(shù)值上小于ES,盡管這兩種方法都提供了賊小的功率(小于 30%)。受益于 ES avg的確切樣本量超過 ES 停止將取決于關(guān)聯(lián)的大小。對于非常小的樣本量,除了表型和個體基因表達之間非常強的單變量相關(guān)性之外,不可能以任何正確度評估任何東西。在這種情況下,使用標準 ES 測試統(tǒng)計量檢測基因組與表型關(guān)聯(lián)的能力已經(jīng)受到嚴重影響。如果將數(shù)據(jù)集分成兩半,這種情況會更加嚴重。然后,ES avg的功效不會比 ES 有所提高,但使用任一檢驗統(tǒng)計量的統(tǒng)計功效都會很低。
圖 3
檢測表型與 HALLMARKS_MYC_TARGETS_V1(藍色)和 HALLMARKS_ALLOGRAFT_REJECTION(紅色)與 α = 0.05 的關(guān)聯(lián)的能力。對于 ES(虛線)和 ES avg(實線) ,功率顯示為 N 的函數(shù)
使用統(tǒng)計 ES avg的一個缺點是它不是為一個群組少有定義的,并且取決于將群組分成兩部分的方式??梢酝ㄟ^多次(M)次將隊列隨機分成兩個不同的部分并將測試統(tǒng)計定義為 M 多次拆分的 ES avg的平均值來減少這種可變性,即
<
ES
平均
> =
∑
分裂
ES
平均
M
. 可以通過對 <ES avg >平均的所有拆分應(yīng)用相同的表型標簽排列來生成適當?shù)牧惴植?。?shù)字 4顯示了為 MYC_TARGETS_V1 基因組的 294 名患者隊列中抽取的N = 200的一個子集生成的零分布 ,該基因集用于沒有分裂 (ES)、一個分裂 (ES avg )、兩個分裂和 25 個分裂的子集的測試統(tǒng)計. 隨著平均分裂數(shù)增加到 1 以上,分布失去其多峰結(jié)構(gòu)但保持相同的總寬度。
圖 4
ES 和 <ES avg > 的空分布。<ES avg > 的空分布 顯示為一個拆分(ES avg = <ES avg >)、兩個拆分和 25 個拆分。所有分布均針對從 294 名患者隊列中抽取的 200 個樣本中的一個子集生成
數(shù)字 5顯示了 ES avg和 < ES avg > 對于 200 個樣本的相同單個子集和 MYC_TARGETS_V1 基因集的 1000 個隨機分裂平均值的兩次分裂和 25 次分裂獲得的測試統(tǒng)計量的分布。正如考慮到大數(shù)定律所預(yù)期的那樣,分布的位置保持不變,并且分布的寬度隨著測試統(tǒng)計量在更多隨機分割上的平均值而變窄。此過程允許通過平均足夠的隨機拆分來定義測試統(tǒng)計量,從而定義相關(guān)的富集p值,以達到隊列的任意精度。
圖 5
1000 個隨機分裂平均值的 ES avg和 < ES avg >(兩次分裂和 25 次分裂)分布。所有分布均針對使用 MYC_TARGETS_V1 基因集的 200 個樣本的單個子集
為了說明使用 ES avg和 < ES avg > 對 ES 進行 25 次分裂作為更廣泛基因集的測試統(tǒng)計量的好處,表 1比較了所有 50 個 Hallmarks 基因組的富集p值,這些值是使用 294 名患者使用三個統(tǒng)計數(shù)據(jù)計算得出的。ES avg和 < ES avg >的關(guān)聯(lián)p值幾乎總是小于 ES,在少數(shù)情況并非如此的情況下,這兩種方法都不會產(chǎn)生表示顯著關(guān)聯(lián)的p值。
表格1
50 個 Hallmarks 基因組的p值。p值是使用 ES、ES avg或 < ES avg >使用 294 個樣本隊列計算的, 其中 25 個拆分作為檢驗統(tǒng)計量。通過增加使用 ES avg作為統(tǒng)計量獲得的p值對基因集進行排序
基因組
|
ES 的p值
|
ES avg的p值
|
<ES avg >的p值
|
MTORC1_SIGNALING
|
< 0.0001
|
< 0.0001
|
< 0.0001
|
E2F_TARGETS
|
< 0.0001
|
< 0.0001
|
< 0.0001
|
UV_RESPONSE_UP
|
0.0132
|
< 0.0001
|
< 0.0001
|
G2M_CHECKPOINT
|
< 0.0001
|
< 0.0001
|
< 0.0001
|
PI3K_AKT_MTOR_SIGNALING
|
0.0040
|
0.0002
|
< 0.0001
|
有絲分裂紡錘體
|
0.0028
|
0.0004
|
< 0.0001
|
UNFOLDED_PROTEIN_RESPONSE
|
0.0006
|
0.0004
|
< 0.0001
|
REACTIVE_OXIGEN_SPECIES_PATHWAY
|
0.0063
|
0.0004
|
0.0002
|
ESTROGEN_RESPONSE_EARLY
|
0.0068
|
0.0006
|
0.0002
|
精子發(fā)生
|
0.0185
|
0.0006
|
0.0002
|
糖酵解
|
0.0216
|
0.0012
|
0.0008
|
MYC_TARGETS_V1
|
0.0172
|
0.0020
|
0.0002
|
UV_RESPONSE_DN
|
0.0156
|
0.0020
|
0.0012
|
MYC_TARGETS_V2
|
0.0320
|
0.0032
|
0.0026
|
DNA_REPAIR
|
0.0263
|
0.0035
|
0.0008
|
INTERFERON_GAMMA_RESPONSE
|
0.0373
|
0.0046
|
0.0038
|
IL6_JAK_STAT3_SIGNALING
|
0.0790
|
0.0074
|
0.0081
|
INTERFERON_ALPHA_RESPONSE
|
0.0638
|
0.0080
|
0.0105
|
補充
|
0.1059
|
0.0157
|
0.0149
|
ESTROGEN_RESPONSE_LATE
|
0.0622
|
0.0188
|
0.0080
|
ALLOGRAFT_REJECTION
|
0.0684
|
0.0194
|
0.0144
|
INFLAMMATORY_RESPONSE
|
0.0963
|
0.0303
|
0.0172
|
CHOLESTEROL_HOMEOSTASIS
|
0.1035
|
0.0449
|
0.0252
|
膽汁酸代謝
|
0.0966
|
0.0472
|
0.0247
|
血管生成
|
0.2591
|
0.0796
|
0.0753
|
WNT_BETA_CATENIN_SIGNALING
|
0.4422
|
0.1160
|
0.1235
|
EPITHELIAL_MESENCHYMAL_TRANSITION
|
0.2984
|
0.1219
|
0.0984
|
凝血
|
0.2516
|
0.1223
|
0.1093
|
IL2_STAT5_SIGNALING
|
0.1685
|
0.1437
|
0.0596
|
生肌
|
0.2767
|
0.1589
|
0.1043
|
TGF_BETA_SIGNALING
|
0.3229
|
0.1593
|
0.1344
|
OXIDATIVE_PHOSPHORYLATION
|
0.3773
|
0.1877
|
0.1604
|
PROTEIN_SECRETION
|
0.3107
|
0.2032
|
0.2028
|
脂肪生成
|
0.4204
|
0.2247
|
0.2581
|
APICAL_SURFACE
|
0.4078
|
0.2477
|
0.0824
|
P53_PATHWAY
|
0.5724
|
0.2489
|
0.2423
|
TNFA_SIGNALING_VIA_NFKB
|
0.3401
|
0.2509
|
0.1545
|
缺氧
|
0.4398
|
0.2712
|
0.2450
|
細胞凋亡
|
0.5796
|
0.2905
|
0.3886
|
APICAL_JUNCTION
|
0.5175
|
0.2907
|
0.2579
|
NOTCH_SIGNALING
|
0.7451
|
0.3104
|
0.3226
|
FATTY_ACID_METABOLISM
|
0.5358
|
0.3134
|
0.3853
|
PANCREAS_BETA_CELLS
|
0.6834
|
0.3201
|
0.1500
|
XENOBIOTIC_METABOLISM
|
0.4921
|
0.3541
|
0.4946
|
HEME_METABOLISM
|
0.7713
|
0.4576
|
0.4731
|
KRAS_SIGNALING_UP
|
0.6241
|
0.7068
|
0.4892
|
ANDROGEN_RESPONSE
|
0.8082
|
0.7539
|
0.5841
|
HEDGEHOG_SIGNALING
|
0.7870
|
0.7810
|
0.5163
|
過氧化物酶體
|
0.3931
|
0.8977
|
0.3682
|
KRAS_SIGNALING_DN
|
0.9700
|
0.9193
|
0.7337
|
合成數(shù)據(jù)集
為了進一步研究該方法對具有不同表型關(guān)聯(lián)程度和不同屬性相關(guān)程度的屬性子集的性能,基因檢測與基因信息學(xué)研究攻關(guān)團隊使用合成數(shù)據(jù)進行了一組實驗。基因檢測與基因信息學(xué)研究攻關(guān)團隊的方法類似于 Ackermann 和 Strimmer 的基準測試方法。基因檢測與基因信息學(xué)研究攻關(guān)團隊為 50 個樣本(每個表型 25 個)模擬了 600 個基因的數(shù)據(jù)集,并定義了 21 個基因組,它們具有不同程度的基因間相關(guān)性和表型之間的差異表達。方法中提供了完整的詳細信息。為了評估不同測試統(tǒng)計數(shù)據(jù)識別表型與基因組關(guān)聯(lián)的能力,基因檢測與基因信息學(xué)研究攻關(guān)團隊評估了 100 個數(shù)據(jù)集實現(xiàn)中檢測到與p關(guān)聯(lián)的比例 < 0.05 使用 ES、ES avg和 < ES avg > 進行 25 次拆分。結(jié)果如表所示 2.
表 2
ES、ES avg和 < ES avg > 的 25 次拆分p < 0.05 的實現(xiàn)比例。使用 3 個測試統(tǒng)計量 ES、ES avg和 < ES avg >計算 21 個基因組中每個基因組的 100 次數(shù)據(jù)集實現(xiàn)的比例 ,M = 25。a表示與表型無關(guān)的對照基因組
基因組 |
p < 0.05的比例 |
||
ES
|
ES平均
|
<ES平均>
|
|
一個_
|
0.06
|
0.08
|
0.05
|
b
|
1.00
|
1.00
|
1.00
|
C
|
0.82
|
0.81
|
0.92
|
d
|
0.09
|
0.09
|
0.14
|
e
|
0.38
|
0.39
|
0.46
|
F
|
0.06
|
0.13
|
0.10
|
G
|
0.01
|
0.00
|
0.01
|
H
|
0.29
|
0.19
|
0.19
|
一世
|
0.10
|
0.16
|
0.07
|
一個_
|
0.07
|
0.07
|
0.07
|
?
|
0.92
|
0.93
|
0.98
|
l
|
0.81
|
0.88
|
0.91
|
M
|
0.92
|
0.94
|
0.98
|
n
|
0.34
|
0.35
|
0.43
|
○
|
0.73
|
0.76
|
0.84
|
p
|
0.42
|
0.56
|
0.64
|
q
|
0.77
|
0.84
|
0.90
|
r
|
0.22
|
0.26
|
0.22
|
s
|
0.75
|
0.77
|
0.90
|
噸
|
0.36
|
0.38
|
0.44
|
你
|
0.25
|
0.28
|
0.37
|
除了兩個控制組(a 和 j)之外,所有基因組的構(gòu)建都具有基因組中至少一些屬性與表型之間的關(guān)聯(lián)。該關(guān)聯(lián)被選擇為從中等到弱。這允許檢測統(tǒng)計能力的差異,以識別基因集和表型之間的關(guān)聯(lián);如果關(guān)聯(lián)很強(例如,大于基因組 b),它們將在所有方法的幾乎所有實現(xiàn)中統(tǒng)一檢測到。對于兩個對照基因組,表型和基因組之間沒有關(guān)聯(lián),p值在實現(xiàn)上的分布是均勻的(參見附錄中的直方圖),實現(xiàn)的比例產(chǎn)生p對于基因檢測與基因信息學(xué)研究攻關(guān)團隊的方法,低于 0.05 的關(guān)聯(lián)值保持在 5% 左右。對于大多數(shù)其他基因組,識別與p < 0.05 關(guān)聯(lián)的實現(xiàn)比例對于 <ES avg > (M = 25) 更高,并且通常對于 ES avg,而不是 ES。這表明在各種屬性子集場景中識別構(gòu)建關(guān)聯(lián)的能力增加,包括表型和基因之間不同程度的單變量關(guān)聯(lián)、表型之間上調(diào)和下調(diào)基因的混合以及基因組內(nèi)相關(guān)結(jié)構(gòu)的差異。除了控制之外,還有其他兩種情況沒有觀察到增加的功率。先進個包括關(guān)聯(lián)非常弱的那些基因集(基因集 d、f 和 g)。所有三個測試統(tǒng)計數(shù)據(jù)在識別表型和基因組之間構(gòu)建的非常弱的關(guān)聯(lián)方面都具有同樣差的能力。第二種情況包括基因組(基因組 h 和 i)內(nèi)上調(diào)和下調(diào)屬性之間平衡的特殊情況?;蚪M h 和 i 由相同數(shù)量的表型上調(diào)和下調(diào)屬性構(gòu)成,它們與表型的單變量相關(guān)強度有效相同。在這個非常特殊的設(shè)置中,對于數(shù)據(jù)集的任何特定實現(xiàn),計算正 ES 或負 ES 的可能性相同。對于基因組 h,在大約 30% 的病例中發(fā)現(xiàn)p < 0.05,但其中大約一半對應(yīng)于陽性 ES,另一半對應(yīng)于陰性 ES。當數(shù)據(jù)集分成兩部分來計算 ES avg和 < ES avg > 時,由于與表型的上下關(guān)聯(lián)之間的正確平衡,每一半都可能產(chǎn)生正或負 ES。對這種雙峰分布進行平均產(chǎn)生以 ES avg = 0 或 < ES avg > =0 為中心的分布,因此降低了識別表型和基因集之間顯著關(guān)聯(lián)的能力。因此,在這種與表型上下關(guān)聯(lián)的特征范圍和數(shù)量之間取得平衡的特殊設(shè)置中,ES avg的表現(xiàn)和 <ES avg > 測試統(tǒng)計不如 ES。然而,只要不接近正確匹配的上調(diào)和下調(diào)場景,ES avg和 < ES avg > 至少顯示出與 ES 相似的功率(參見基因集 r,有 13 個基因,Δμ = 0.5和 7 個具有 Δμ = - 0.5) 或更大功率(基因組 l、p 和 q,每個具有 15 個 Δμ = 0.5 的基因和 5 個具有 Δμ = - 0.5 的基因)。在現(xiàn)實世界的環(huán)境中,表型之間差異基因表達的相反方向的數(shù)量和幅度非常接近平衡不太可能在基因集中發(fā)生。因此,合成數(shù)據(jù)的分析表明使用 ES avg或 < ES avg > 只要樣本集的大小和關(guān)聯(lián)強度足夠大,可以通過標準 ES 方法為識別提供一些賊小的能力,就可能增加檢測與基因集所代表的生物過程關(guān)聯(lián)的能力。
討論和結(jié)論
富集分數(shù)的零分布,如 GSEA 設(shè)置富集分析方法中所定義的,在很大程度上獨立于分析中使用的樣本數(shù)量。因此,增加樣本隊列大小 N 只能通過縮小 ES 的抽樣分布來提高檢測基因集和表型之間關(guān)聯(lián)的能力。將隊列分成兩個不同的相等部分,計算每個部分的 ES,并對它們進行平均以創(chuàng)建新的測試統(tǒng)計量 ES avg,可以產(chǎn)生明顯更窄的空分布和類似的 ES 抽樣分布。這種方法導(dǎo)致增加的統(tǒng)計能力來檢測表型和屬性子集之間的顯著關(guān)聯(lián)。在大多數(shù)情況并非如此的情況下,ES 和 ES avg由于測試統(tǒng)計導(dǎo)致表型和基因集的顯著關(guān)聯(lián)的識別,因為不存在關(guān)聯(lián),屬性子集與表型的關(guān)聯(lián)不夠強,無法檢測,或者 N 太小而無法對單個基因和表型之間的相關(guān)性進行有意義的評估。在表型之間上調(diào)和下調(diào)屬性的數(shù)量和幅度之間密切匹配的特殊情況下,即使對于賊大的樣本量,ES 統(tǒng)計量的抽樣分布也具有雙峰的不尋常特性。使用 ES平均因為檢驗統(tǒng)計量會降低識別關(guān)聯(lián)的能力。然而,這種情況不太可能發(fā)生在綜合生成的數(shù)據(jù)集之外,并且可以通過檢查計算 ES 的運行總和來識別這種情況。(即使與這些 ES 值相關(guān)的p值很小,也會觀察到運行總和與零的賊大和賊小偏差的相似幅度。)測試統(tǒng)計量和富集p值對隊列方式的不可接受的依賴性通過使用平均過程的擴展以在測試統(tǒng)計 <ES avg >中包含隊列的多個隨機拆分,可以避免拆分以產(chǎn)生 ES avg 。
這種方法的應(yīng)用可以在統(tǒng)計能力方面帶來明顯的優(yōu)勢,可用于識別生物過程或途徑與樣本/患者表型之間的關(guān)聯(lián),但賊小樣本群組除外,其中標準方法的能力也非常有限。這可能有助于緩解文獻 中指出的這類 ES 的功率相對降低的問題。增加的權(quán)力將能夠高效地識別較弱的關(guān)聯(lián),并增加識別可能在p方面具有臨界意義的確定性-值和錯誤發(fā)現(xiàn)率與標準統(tǒng)計。該方法已使用二元表型分類和表型-個體基因相關(guān)度量的一種選擇進行了說明,但它應(yīng)該適用于使用其他相關(guān)度量或連續(xù)表型評分的富集分析。使用 ES avg或 < ES avg的好處 > 超過 ES 取決于 ES 的零分布對樣本數(shù) N 的相對獨立性。這種現(xiàn)象是通過運行總和的極值評估富集方式的結(jié)果(由排名和組合屬性-表型相關(guān)性)和通過表型排列生成零分布。用于生成空分布的每個表型排列導(dǎo)致屬性-表型相關(guān)性的值和等級的隨機化。因此,評估屬性和表型之間相關(guān)性的方式并不重要,基因檢測與基因信息學(xué)研究攻關(guān)團隊的方法應(yīng)該直接適用于采用其他相關(guān)性度量的 GSEA(例如,用于連續(xù)屬性的 Spearman/Pearson r)。
在這里,基因檢測與基因信息學(xué)研究攻關(guān)團隊只探索了將樣本集分成兩個不同的相等部分。該方法可以擴展為將數(shù)據(jù)集拆分為兩個以上的部分進行平均,這將通過進一步縮小相關(guān)的空分布來提高性能。然而,拆分成更多不同子集的好處需要更大的隊列規(guī)模??绮煌蛹骄?ES 的概念也可能有助于組合來自具有相同可用屬性的多個樣本群組的數(shù)據(jù)。如果批次效應(yīng)阻止將多個樣本集合并到一個隊列中,這可能特別有用。使用歸一化的 ES 還將允許使用相同的方法來組合來自不同隊列的患者的數(shù)據(jù),每個隊列具有不同的可用屬性,例如,甚至可以組合基因組和蛋白質(zhì)組學(xué)面板數(shù)據(jù),前提是可以將一致的表型分配給多個隊列。如果使用患者定義的表型類別標簽的排列生成空分布,則還可以使用對每個數(shù)據(jù)源計算的 ES 進行平均來擴展到單個患者隊列的多個數(shù)據(jù)源的情況。
方法
數(shù)據(jù)集和基因集:mRNA 表達
本部分研究中使用的數(shù)據(jù)集可從 訪問,包括從接受乳腺癌手術(shù)的患者收集的組織樣本中采集的 13,018 個基因的 mRNA 表達測量值。這個由 295 名患者組成的隊列是開發(fā)將患者分為“好”和“差”結(jié)果組的測試的基礎(chǔ) 。每個患者的測試分類都包含在數(shù)據(jù)集中,并且這個二元結(jié)果被用作尋求與生物過程關(guān)聯(lián)的表型?;虮磉_值用于 無需進一步處理或標準化。在整個研究過程中,基因檢測與基因信息學(xué)研究攻關(guān)團隊使用了 295 名患者中的 294 名的數(shù)據(jù)(未使用來自樣本 NKI373 的數(shù)據(jù)),以便將隊列分成兩個不同的、大小相等的亞組。
此處使用的屬性集(在本例中為基因集)是可從 Broad Institute GSEA 網(wǎng)站 ( http://software.broadinstitute.org/gsea/msigdb/collections/jsp#H ) 獲得的 Hallmarks 基因集 。它們是精心策劃的基因集集合,代表了明確定義的生物狀態(tài)和過程。集合中包括五十個基因組。對于大多數(shù)分析,基因檢測與基因信息學(xué)研究攻關(guān)團隊從 Hallmarks 集中選擇了兩個特定的基因集,MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 作為示例。測試分類表型顯示出與這些基因組的明確但不是極端的關(guān)聯(lián),因此,它們被認為是特別說明性的例子。磷還使用 ES、ES avg和 < ES avg >(25 次分割)作為測試統(tǒng)計數(shù)據(jù),使用來自所有 294 個樣本的數(shù)據(jù)計算了 Hallmarks 集合中所有 50 個基因組的富集值。
數(shù)據(jù)集和基因集:合成數(shù)據(jù)
為了以更可控的方式研究方法的性能對屬性子集中屬性之間的關(guān)聯(lián)程度和相關(guān)程度的依賴性,基因檢測與基因信息學(xué)研究攻關(guān)團隊使用合成數(shù)據(jù)集和屬性子集進行了一組分析,遵循 Ackermann 的基準測試方法和斯特里默 。
600 個屬性(基因)的表達值的合成數(shù)據(jù)集是通過從具有單位方差的多元正態(tài)分布中繪制的,其中包含 25 個具有表型 A 的樣本和 25 個具有表型 B 的樣本。對于屬性i,基因檢測與基因信息學(xué)研究攻關(guān)團隊定義了平均屬性值之間的差異A 和 B 為 Δμ i。屬性i和屬性j之間的相關(guān)性定義為 ρ ij。為 50 個樣本選擇了 600 個屬性,如下所示:
- 一世。420,Δμ = 0 和 ρ = 0,
- ii. 20,Δμ = 0.5 和 ρ = 0,
- iii. 20,Δμ = 0.25 和 ρ = 0,
- iv. 20,Δμ = 0.1 和 ρ = 0,
- v. 20,Δμ = 0.5 和 ρ = 0.6,
- 六。20,Δμ = 0.25 和 ρ = 0.6,
- 七。20,Δμ = 0.1 和 ρ = 0.6,
- 八。10 與 Δμ = + 0.5 和 10 與 Δμ = - 0.5,在 10 的每個子組內(nèi) ρ = 0.6,在子組之間 ρ = - 0.6,
- 九。10,Δμ = + 0.5 和 10,Δμ = - 0.5,ρ = 0,
- X。20,Δμ = 0 和 ρ = 0.6。
通過采用以下屬性組創(chuàng)建了 21 個具有不同程度的表型關(guān)聯(lián)和不同相互關(guān)聯(lián)的基因組:
- 20 來自 (i)
- (ii) 中的 20
- 20 來自 (iii)
- 20 來自 (iv)
- 20 來自 (v)
- 20(六)
- 20(七)
- (八) 20
- 20 來自 (ix)
- 20 來自 (x)
- (ii) 中的 10 和 (v) 中的 10
- (ii) 中的 10,(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
- (ii)、(iii) 和 (iv) 中的 20
- (v)、(vi) 和 (vii) 中的 20
- 20 從 (ii)-(vii)
- (ix) 中的 10 個,Δμ = + 0.5,(viii) 中的 5 個,Δμ = - 0.5,和 (viii) 中的 5 個,Δμ = + 0.5 和 ρ = 0.6
- (ii) 中的 10,(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
- 來自 (ii) 的 3,來自 (ix) 的 10 Δμ = 0.5 和來自 (ix) 的 7,Δμ = - 0.5
- (i) 中的 10 和 (ii) 中的 10
- (i) 中的 10 和 (v) 中的 10
- (i) 中的 8 個和 (ii)-(x) 中的 12 個
基因集富集分析實現(xiàn)
使用的富集集分析方法密切遵循 Subramanian 等人的方法。?;诘燃壍南嚓P(guān)性,以 Mann-Whitney 檢驗統(tǒng)計量的形式,范圍從 1 到 - 1,用于表征單個屬性的表達與二元表型之間的關(guān)聯(lián)。對于標準基因集富集分析,使用的富集分數(shù) ES 與 Subramanian 等人的定義有效相同。p = 1。用于評估富集統(tǒng)計顯著性的空分布是通過表型分類的重復(fù)隨機改組(排列)獲得的。
使用 ES avg的替代富集評估方法實施如下。大小為 N 的隊列被分成兩個相等且不同的子組,S 1和 S 2,每個子組的大小為 N/2。對于每個亞組,如上文所述計算富集分數(shù),以分別產(chǎn)生 S 1、S 2的 ES1、ES2 。替代統(tǒng)計 ES avg被定義為兩個亞組富集分數(shù)的平均值,即 ES avg = 0.5(ES1 + ES2)。通過表型分類的排列再次計算空分布。表型分類被打亂,然后數(shù)據(jù)集被分成兩半,S 1和 S 2. ES1 和 ES2 分別在 S 1和 S 2內(nèi)計算并取平均值,得到 ES avg用于置換實現(xiàn)。
使用測試統(tǒng)計量<ES avg > = 0.5 Σ i (ES1 i + ES2 i )/M使用多個拆分的平均值評估富集,其中總和超過拆分數(shù) M,將 N 個樣本分成兩個隨機子集 S 1i和 S 2i,分別具有富集分數(shù) ES1 i和 ES2 i。為了生成空分布,表型分類被打亂,然后數(shù)據(jù)集被隨機分成兩半 M 次。<ES avg > 然后為置換實現(xiàn)計算。對于生成零分布所需的置換實現(xiàn)的數(shù)量重復(fù)此操作。
ES 和 ES avg的空分布
對于基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 的大小為 20、40、60、80、100 和 200 的群組的子集,生成標準富集分數(shù) ES 和替代統(tǒng)計量 ES avg的空分布。在每種情況下,隨機選擇一個子集,按表型分類分層。在每種情況下,表型分類隨機排列 10,000 次。
ES 和 ES avg的抽樣分布
對于N = 20、40、60、80、100 和 200 的基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION,為 ES 和 ES avg生成了從 294 個樣本的群體隊列中抽取的大小為 N 的子集的抽樣分布 。選擇了一千個子集每個子集大小隨機,按表型分類分層。
檢測 ES 和 ES avg之間關(guān)聯(lián)的能力比較
檢測表型與基因組 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 關(guān)聯(lián)的能力計算如下。首先如上所述計算不同子集大小的 ES 和 ES avg的零分布。ES 和 ES avg如上所述計算,每個子集大小的 1000 次實現(xiàn),用于估計采樣分布。對于每個子集大小的每個實現(xiàn),將 ES 和 ES avg與其各自的零分布進行比較,以確定是否觀察到與p < 0.05 的關(guān)聯(lián)。檢測這種與 α = 0.05 的關(guān)聯(lián)的能力被定義為p < 0.05 的實現(xiàn)比例。
不同分割數(shù)的富集分數(shù)統(tǒng)計的空分布,M
估計了 ES(無拆分)、ES平均(1 次拆分)和 <ES平均 > 的零分布,其中 2 次和 25 次拆分來自 294 名患者隊列中的 200 個樣本的一個子集。如上所述,從表型分類的 10,000 個排列中生成每個空分布。
<ES avg > 在隊列的不同拆分上的分布,對于不同數(shù)量的拆分,M
使用 1000 個實現(xiàn)估計從研究隊列中抽取的 200 個樣本的單個子集的不同隨機拆分的 ES(無拆分)、ES avg(1 拆分)和 <ES avg > 的分布,其中 2 和 25 拆分每個統(tǒng)計數(shù)據(jù)所需的拆分集。
所有 50 個 Hallmark 基因組與隊列表型分類的關(guān)聯(lián)
對于 50 個 Hallmark 基因組中的每一個,GSEA 分別使用 ES、ES avg和 < ES avg > 在 294 個樣本的整個隊列中進行 M = 25 次分割。通過 10,000 個表型分類排列估計每個基因集的無效分布。
綜合數(shù)據(jù)分析
對于 21 個基因組中的每一個,使用 ES、ES avg和 < ES avg >分別執(zhí)行 GSEA, 其中 M = 25 次拆分,用于 100 次合成數(shù)據(jù)集的實現(xiàn)。通過 10,000 個表型分類排列估計空分布。通過計算富集p值低于 0.05的實現(xiàn)比例來估計分析檢測 α = 0.05(顯著性水平為 95%)的基因集和表型之間關(guān)聯(lián)的能力。為了檢查兩個對照基因組(a 和 j)的p值分布,對統(tǒng)計數(shù)據(jù) ES、ES avg和 < ES avg >執(zhí)行 GSEA, 其中 M = 25 用于數(shù)據(jù)集的 1000 次實現(xiàn)。
軟件
實施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲庫中獲得。
致謝
不適用。
資金
不適用。
數(shù)據(jù)和材料的可用性
支持本文結(jié)論的數(shù)據(jù)集可在與 Venet 等人相關(guān)的補充材料中找到。 在 10.1371/journal.pcbi.1002240.s001。
實施本研究中介紹的方法的軟件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存儲庫中獲得。軟件要求包括:
- 操作系統(tǒng) - Windows(使用 Windows 7 Professional 開發(fā)/測試)
- 編程語言 - C#。Net(需要.Net Framework 4.5.2 版)
- 其他要求 – IMSL 6.5.0 的 Roguewave IMSL C# 許可證
- 許可證 – 新(3 條款)BSD 許可證
縮寫
ES
|
濃縮分數(shù)
|
GSEA
|
基因集富集分析
|
附錄
對于通過構(gòu)建與表型沒有關(guān)聯(lián)的對照合成基因組,使用數(shù)據(jù)集的 1000 個實現(xiàn)的所有三個富集統(tǒng)計數(shù)據(jù)進行 GSEA,以檢查實現(xiàn)中p值的分布(圖 2)。 6)。
圖 6
用于控制基因集的 ES、ES avg和 < ES avg > 的數(shù)據(jù)集實現(xiàn)上的p值分布。a基因組 a, b基因組 j
Improving the power of gene set enrichment analyses.
Roder J, Linstid B, Oliveira C.
BMC Bioinformatics. 2019 May 17;20(1):257. doi: 10.1186/s12859-019-2850-1.
(責(zé)任編輯:佳學(xué)基因)