【佳學基因檢測】如何貯存用于基因序列比對的全部基因組序列?
人類全基因組參照序列的組成成分
Analysis set 參照基因組分析數據集
分析集參考基因組的設計參照了與讀取序列進行比對地需求,它與出于瀏覽目的基因序列可能不同。
Contig 連續(xù)序列單元
連續(xù)序列單元,有時候被稱為重疊群,是指沒“物理”間隙的連續(xù)序列(“N”堿基的延伸在這種情況下不被認為是間隙),例如染色體。 也可以是還沒有有效組裝的支架、細菌基因組中的質粒等。
Alternate contigs, alternate scaffolds
或者是alternate loci: 替代連續(xù)序列單元、替代支架、替代位點
替代重疊群、替代支架或替代基因座是指在一種表示方案無法有效正確表示的不同的單倍型。
Primary Assembly 主要組裝體
主要組裝體由 (i) 組裝的染色體、(ii) 未定位(已知屬于特定染色體但順序或方向未知)的基因組序列和 (iii) 未歸屬染色體的序列組成。 它是一個非冗余的單倍體基因組序列。
PAR
PAR 是指假常染色體區(qū)域。 哺乳動物 X 和 Y 染色體中的 PAR 區(qū)域允許性染色體之間進行重組。 因為 PAR 序列一起創(chuàng)建了一個二倍體或偽常染色體序列區(qū)域,所以 X 和 Y 染色體序列在基因組的組裝中是相同的。 分析集基因組通過遮蔽Y染色體上的兩個PAR區(qū)域,從而使基因測序數據僅僅被定位到X染色體的PAR區(qū)域。
不同的主要組裝體會改變基因座的坐標,并且這種改變很少發(fā)布。 對于人類基因組來說,Hg19 和 GRCh38/hg38是兩個不同的組裝體。比較來自不同組裝體的數據需要采用提升工具來調整基因組坐標,從而實現基因組的匹配,但有時并不出色。
PATCHES修復補丁
補丁是針對特定的組裝體的的特定區(qū)域的修改。 它們旨在在不破壞染色體坐標的情況下提示基因組的組裝或者是添加信息。 有兩種類型的補丁,修改補丁和新補定,它們是指不同類型的序列變化。
修復補丁表示將在下一個主要裝配版本中替換主要裝組裝體的序列。 在解釋數據時,修復補丁應優(yōu)先于染色體。
新補丁代表替代基因座。 在解釋數據時,將新補丁視為種群序列變體。
主要參照基因組組裝體的組成成分示意圖
GRCh38/hg38 是佳學基因自 2013 年 12 月開始的人類基因組的序列組體。在這一基因組裝體中,使用替代或 ALT 重疊群來表示常見的復雜變異,包括 HLA 位點。 替代重疊群也出現在過去的組件中,但沒有達到在 GRCh38 中看到的程度。 在改進GRCh38的正確性和有效性的過程中,使用了 自其他基因組測序和分析的結果。除了添加許多替代重疊群外,GRCh38 還糾正了數以千計的序列錯誤,這些錯誤會導致產生錯誤的SNP 和插入缺失檢測結果。GRCh38版本它還包括合成著絲粒序列和對非核基因組序列的更新。
GRCh38版本的主要內容介紹
主要組裝體:
hg38 的組裝染色體是染色體 1–22 (chr1–chr22)、X (chrX)、Y (chrY) 和線粒體 (chrM)。
未定位的序列
是指在組裝GRCh38初組組裝體時,已明確來自于特定的染色體,但在特定染色體的坐標和方向嘗未明確的基因序列,在參照基因組數據庫中采用_random 后綴來表示。
未放置的序列
對于基因序列來源于哪一條染色體還沒有明確的堿基序列,由 chrU_ 前綴來標識。
GRCh38 ALT 重疊群
GRCh38 ALT 重疊群可通過其 _alt 后綴識別; 它們的總長度為 109Mb,跨越了 60Mb 的主要組裝序列。 替代重疊群序列可以是新穎的、也可以是高度變化的,也會與相應的主要組裝序列幾乎相同。 與主要組裝高度不同的序列僅有幾百萬個堿基。 大多數 ALT 重疊群的子序列與主要組裝體非常相似。 這意味著如果盲目地將測序序列定位到 GRCh38+ALT 序列上,那么我們將獲得許多測序質理為零的多定位結果。 許多基因檢測機構在對測序序列進行分析時,會采用 GATK 工具中的ZeroMappingQuality 過濾器,因此會錯過與此類位點對應的基因突變序列。
佳學基因解碼介紹了如何以檢測替代重疊群的方式對測序序列進行比對分析,并討論使用參考基因組替代重疊群進行比對對基因測序結果的影響。
偽常染色體區(qū)域
X 和 Y 上的偽常染色體區(qū)域 (PAR) 序列共同創(chuàng)建了一個二倍體區(qū)域,因此它們在基因組組裝體中是相同的。 在基因組的分析集版本中,對兩個 Y 染色體 PAR 區(qū)域采用了硬掩蔽技術,以便允許將基因測序結果僅僅定位到X 染色體 PAR 區(qū)域。 PAR1和PAR2在GRCh38上的chrY位置是chrY:10,000-2,781,479和chrY:56,887,902-57,217,415。 在下面采用 IGV 查看基因組序列的圖中,可以看到在分析集基因組中,chrY PAR1區(qū)域部分被硬遮蔽。
參考集中的序列是大小寫字母的混合。 小寫字母是采用RepeatMasker 和 Tandem Repeats Finder發(fā)現的重復序列,采用了軟遮蔽形式。
同源著絲粒和基因組重復陣列
5、14、19、21 和 22 號染色體上具有同源著絲粒和基因組重復陣列的一些其他區(qū)域在分析用基因組組裝中也采用了硬掩蔽方式被遮蔽。
EBV 和誘餌
GRCh38 分析集還包括一個重疊群,用于獲取對應于 Epstein-Barr 病毒序列的測序序列,以及誘餌重疊群。 EBV 重疊群可以幫助糾正因 EBV 轉化使人血淋巴細胞永生化而產生的假序。 它還可以用來識別人體基因組中的內源性 EBV 序列,因為在自然情況下,EBV感染人類約 90% 的 B 細胞。
補丁序列
補丁序列是指在不破壞染色體坐標的情況下,用提高基因組組裝的質量,并向組裝本添加信息。 如:GRCh38.p7 表示 GRCh38 的第七個補丁版本。
染色體 | 全長(bp) | 基因庫數據獲取代碼 | 參照基因組獲取代碼 |
---|---|---|---|
1 | 248,956,422 | CM000663.2 | NC_000001.11 |
2 | 242,193,529 | CM000664.2 | NC_000002.12 |
3 | 198,295,559 | CM000665.2 | NC_000003.12 |
4 | 190,214,555 | CM000666.2 | NC_000004.12 |
5 | 181,538,259 | CM000667.2 | NC_000005.10 |
6 | 170,805,979 | CM000668.2 | NC_000006.12 |
7 | 159,345,973 | CM000669.2 | NC_000007.14 |
8 | 145,138,636 | CM000670.2 | NC_000008.11 |
9 | 138,394,717 | CM000671.2 | NC_000009.12 |
10 | 133,797,422 | CM000672.2 | NC_000010.11 |
11 | 135,086,622 | CM000673.2 | NC_000011.10 |
12 | 133,275,309 | CM000674.2 | NC_000012.12 |
13 | 114,364,328 | CM000675.2 | NC_000013.11 |
14 | 107,043,718 | CM000676.2 | NC_000014.9 |
15 | 101,991,189 | CM000677.2 | NC_000015.10 |
16 | 90,338,345 | CM000678.2 | NC_000016.10 |
17 | 83,257,441 | CM000679.2 | NC_000017.11 |
18 | 80,373,285 | CM000680.2 | NC_000018.10 |
19 | 58,617,616 | CM000681.2 | NC_000019.10 |
20 | 64,444,167 | CM000682.2 | NC_000020.11 |
21 | 46,709,983 | CM000683.2 | NC_000021.9 |
22 | 50,818,468 | CM000684.2 | NC_000022.11 |
X | 156,040,895 | CM000685.2 | NC_000023.11 |
Y | 57,227,415 | CM000686.2 | NC_000024.10 |
(責任編輯:佳學基因)