【研究報告】遺傳病基因檢測行業(yè)的局限與突破方向。遺傳病基因檢測行業(yè)研究導讀 ?;驒z測主要有臨床級應用和消費用應用,在臨床領域的應用中,出生前(NIPT)和腫瘤正確用藥基因檢測是目前的兩大主要應用領域。佳學基因等機構除了在這兩個領域的檢測產品上提高份額外,還開啟了遺傳病的致病基因鑒定新項目,使得遺傳病的基因檢測成為一項日益成熟的技術。由
【研究報告】遺傳病基因檢測行業(yè)的局限與突破方向
遺傳病基因檢測行業(yè)研究導讀
基因檢測主要有臨床級應用和消費用應用,在臨床領域的應用中,出生前(NIPT)和腫瘤正確用藥基因檢測是目前的兩大主要應用領域。佳學基因等機構除了在這兩個領域的檢測產品上提高份額外,還開啟了遺傳病的致病基因鑒定新項目,使得遺傳病的基因檢測成為一項日益成熟的技術。由于遺傳病成為健康中國和人口素質提升的主要攻關方向,很有可能在下一階段獲得政策支持,成為基因信息產業(yè)新的熱點。佳學基因對目前遺傳病診療現狀、市場容量以及行業(yè)內企業(yè)的市場競爭要素做簡要分析。
01
遺傳病簡介以及診療現狀
遺傳病是指由遺傳物質發(fā)生改變而引起疾病,更正確的說法應當是基因病。基因病常為先天性的,也可表現為后天發(fā)病,如先天愚型、多指(趾)、先天性聾啞、血友病等。約50%的遺傳病患者在出生時或兒童時期發(fā)病,約30%的遺傳病兒童壽命不超過5歲。也有的遺傳病要經過幾年甚至幾十年后才能出現明顯癥狀。遺傳病主要可以分為染色體病、單基因病和多基因病。
染色體病(chromosomal disorders)是由于染色體數目和(或)結構異常而導致結構、生理功能異常而引起的疾病。由于染色體上基因眾多,加上基因的多效性,因此染色體病常涉及多個器官、多個系統(tǒng)的形態(tài)和功能異常,臨床表現多種多樣,常表現為綜合征,故染色體病是一大類嚴重的遺傳病。染色體畸變嚴重者在胚胎早期死亡并自然流產,少數染色體畸變者能存活至出生,常造成機體多發(fā)畸形、智力低下、生長發(fā)育遲緩和多系統(tǒng)功能障礙。染色體病無有效治療方法,因此通過染色體疾病的基因檢測,結合染色體病的遺傳咨詢,選擇合適的生育方案,并采用產前診斷預防染色體病尤為重要。
單基因遺傳病是指受一對等位基因控制的遺傳病,據OMIM數據庫(人類孟德爾病數據庫)數據,單基因遺傳病的病種數量有7000多種,其中約4000多種致病基因和發(fā)病機制比較明確,成為依賴于數據庫比對進行基因檢測的依據之一。單基因遺傳病單個發(fā)病率低,但單基因病種類極多,累積起來可達到這個全球出生人口數的1%,所以總體發(fā)病率高,且具有先天性、致死致殘性的特點。另外,一些單基因遺傳病,其本身的發(fā)病率就很高,比如馬凡綜合征、藥物性耳聾等。由于染色體異常的判斷標準明確,且已經大面種推廣使用,通??梢栽诨榍啊⑴咛ブ踩肭凹?/h-inner>產前被檢測出來,因此新生兒/兒童發(fā)病的通常是單基因遺傳病和多基因遺傳病。
就診斷而言,單基因遺傳病可發(fā)生任何臨床科室,臨床癥狀少見、復雜。而且由于基因的突變具有多樣性,每種突變發(fā)生在不同的基因背景下,從而產生不一樣的臨床癥狀。同時,不同的突變,會具有各不相同的臨床意義,對疾病發(fā)生的影響互不相同,從而表現出高度遺傳異質性和臨床異質性,故臨床診斷困難。而且,許多遺傳病都及其罕見,屬于罕見病。根據WHO的定義,罕見病是患病人數占總人口的0.65‰到1‰的疾病。80%的罕見病是單基因遺傳病。對于一名醫(yī)生來說,診斷經驗不足,根據癥狀極易誤診。所以對于臨床醫(yī)生而言,這些問題顯得頗有挑戰(zhàn)性:比如如何根據患者癥狀快速鑒別其是否為遺傳病;患者表現為某些特定癥狀時,哪種基因突變的概率賊大?這種發(fā)病原因先入為主的猜測和判斷成為現今基因檢測不正確、檢測沒有結果的主要來源。
如今,隨著基因測序成本的大幅下降,隨之而來的是基因大數據的出現,在這種形勢下,基于基因型和表型的關系,建立輔助診斷系統(tǒng)和臨床知識庫是一條容易且有效的路徑。我們目前了解比較清楚、遺傳關系和疾病關聯(lián)很明確的是染色體病和單基因病,基因檢測也多半在這個領域,多基因病目前還停留在科研階段。但是,就目前來說,單基因病的檢測主要是依賴于數據庫的累積,使得與數據庫記載不一致的突變引起的疾病還無法有效地分析出來,而這占據單基因遺傳病的80%以上。新近出現的基因解碼技術則可以突破數據庫比對技術,推進單基因遺傳病的快速和正確應用。
基因檢測主要針對樣本在染色體、DNA、RNA和(或)基因產物等層面進行分析。明確的遺傳診斷對遺傳病的早期診斷、早期干預、遺傳咨詢和生育指導具有重要意義。但是檢測是在哪個層面上,檢測范圍是否涵蓋了所有疾病發(fā)生的可能性,以及是否可以分析出數據庫以外的基因突充對疾病發(fā)生的影響決定了基因檢測的高效性。
02
常用遺傳病檢測技術
不同的遺傳病由于遺傳物質的缺陷不同,采用的檢測技術可能不同,醫(yī)生要結合實際情況綜合考慮檢測陽性率、費用和檢測時效等因素進行選擇。鑒于遺傳病的復雜性且不同的技術有各自的局限性,應充分考慮到各技術的優(yōu)勢和互補性,合理選擇適宜的檢測方法。
對于具有典型特征性的臨床表型、疾病候選基因單一或致病變異位點已明確的疾病病例,可選擇PCR和 Sanger 測序;對于基因不明確的遺傳病,可權衡選擇高通量測序技術,包括基因包(panel)、全外顯子組測序 (whole exome sequencing,WES)、全基因組測序 (whole genome sequencing,WGS)等二代測序(next generation sequencing,NGS)技術進行檢測。懷疑以拷貝數變異為主要遺傳特征的遺傳病,可根據實際情況,選擇多重連接探針擴增技術(multiplex ligation?dependent probe amplification,MLPA)等進行檢測。
(1)Sanger 測序:廣泛應用于已知單基因遺傳病致病基因或熱點致病位點的遺傳檢測。但Sanger測序的通量有限,適合檢測已知基因的變異,常作為致病基因或致病位點明確的單基因遺傳病的檢測手段或作為NGS結果的驗證技術。
(2)NGS:是一種大規(guī)模平行測序技術,能在短時間內完成上百億堿基的測序,解決了一代測序每次只能測一段較短序列的不足,又稱為高通量測序技術。NGS 主要包括目標區(qū)域捕獲測序的靶向測序,具有較高的靈敏度和正確度。越來越多的疑難罕見病病例通過父母及先證者一家三口的 WES(trio?WES),發(fā)現了致病基因,Trio?WES也逐漸成為賊后選擇的遺傳檢測手段。另外,由于 WGS不需要進行捕獲,已有嘗試采用 WGS 尋找疑難病的病因。CNV—seq采用NGS技術對樣本DNA進行低深度全基因組測序,將測序結果與人類參考基因組堿基序列進行比對,通過生物信息分析以發(fā)現受檢樣本存在的CNVs。與核型分析、染色體微陣列分析等其他技術相比,CNV-seq技術具有檢測范圍廣、通量高、操作簡便、兼容性好、所需DNA樣本量低等優(yōu)點。NGS 測序和生物信息分析技術已經可以同時檢測基因的致病變異和拷貝數異常。但是,無法對將檢測出來的變異序列和拷貝數異常同患者的疾病表征建立關聯(lián),賊新發(fā)展出來的基因解碼技術則將各種測序技術所不能完成的這種關聯(lián)進行了有效彌補。
(3)MLPA 技術:主要用于目標片段基因串聯(lián)拷貝數或者是目標區(qū)域內片段的缺失的檢測,如診斷杜興肌肉營養(yǎng)不良癥(Duchenne muscular dystrophy,DMD)、脊髓性肌萎縮癥(spinal muscular atrophy,SMA)、貓叫綜合征(5p缺失)、DiGeorge 綜合征(22q11 缺失)等。
03
遺傳病致病基因鑒定的應用
3.1 癲癇分子診斷
以癲癇為例,癲癇是除頭痛外神經系統(tǒng)第二大常見慢性疾病,嚴重影響患者的認知及生活質量。我國癲癇患病率為千分之七,約有900萬癲癇患者,每年約有40萬新發(fā)病的患者。導致癲癇的致病因素眾多,包括結構性、遺傳性、感染性、代謝性、免疫性等來源因素。癲癇綜合征類型繁多、表型復雜,尤其是遺傳因素導致的癲癇綜合征通過傳統(tǒng)方法難以鑒別診斷。癲癇10歲前始發(fā)者占37%~51.8%,70%~80%與遺傳因素有關。按檢測費用5000/人計算,新發(fā)癲癇基因檢測市場容量約為10億元/年。
提示線索:
除外結構性、免疫性、感染性、代謝病(血尿代謝篩查)等致病因素導致的癲癇發(fā)作; 未找到其他明確病因的癲癇發(fā)作; 有家族史、發(fā)作有熱敏感性特點的患兒遺傳因素致病可能性大; 早發(fā)癲癇性腦病、發(fā)育落后患者遺傳因素致病可能性大; 通過MRI檢測額顳區(qū)發(fā)育不良、腦白質發(fā)育落后、胼胝體發(fā)育不良時遺傳因素致病可能性大。
相關基因:近年來與癲癇相關的基因被迅速發(fā)現,目前文獻報道與癲癇相關的基因超過一千個,以兒童癲癇性腦病為例,其基因變異導致的致病機制涉及到DNA 修復、轉錄調控、軸突髓鞘化、代謝物和離子轉運、過氧化物酶體功能等多個生物學過程。其遺傳復雜性體現在:一種癲癇綜合征對應多個變異基因和多種變異形式;同一基因不同的變異位點、變異形式對應多種綜合征。
通過基因檢測,可以在分子水平上尋找病因,明確診斷疾病;尋找發(fā)病機制,指導針對性治療,如嬰幼兒癲癇性腦病SCN1A基因變異,卡馬西平、拉莫三嗪等鈉離子通道抑制劑可加重病情,司替戊醇有效;詢問患者家族史、進行家系分析,給予個性化優(yōu)生優(yōu)育咨詢。
3.2 新生兒篩查
新生兒疾病篩查是在新生兒早期對遺傳代謝缺陷、先天性內分泌異常及某些嚴重危害身體健康的疾病進行篩查的總稱。其目的是在新生兒期篩查并明確診斷以上疾病,使這些患兒能夠及時得到治療,防止或減輕其體格和智力發(fā)育障礙,降低死亡率。
對于新生兒遺傳疾病篩查,基因檢測相比傳統(tǒng)檢測方法(PCR、放免、酶免、時間分辨熒光、串聯(lián)質譜檢測等)優(yōu)勢明顯,具體表現在以下幾個方面:①傳統(tǒng)篩查技術篩查的病種較少,基因檢測技術一次可篩查上千種遺傳病;②基因檢測技術應用于新生兒疾病篩查時,在新生兒出生時采用血片采集臍帶血即可,無需等待新生兒出生72小時后扎足跟取血,傳統(tǒng)篩查技術是有創(chuàng)取血,而基因檢測是取血;③傳統(tǒng)篩查技術篩查結果顯示陽性時,需再采一次新生兒足跟血,第二次還是陽性的,需要進行基因檢測;若出生后直接選擇基因檢測,可一步到位,篩查價錢也相差不大;④傳統(tǒng)篩查技術檢測的是新生兒血液中代謝物的產量,檢測結果易受生理狀態(tài)的影響,容易出現假陽性。而基因檢測查的是基因,檢測正確性高,無需重復檢測。
目前,國家已經啟動實施了免費孕前優(yōu)生健康檢查、增補葉酸預防神經管缺陷、地中海貧血防控、貧困地區(qū)新生兒疾病篩查等重大公共衛(wèi)生項目,廣泛開展出生缺陷防治社會宣傳和健康教育,逐步將兒童先天性心臟病等出生缺陷治療納入大病保障,著力推進出生缺陷綜合防治,神經管缺陷、重型地中海貧血等出生缺陷的發(fā)生率明顯下降。但從整體來看,出生缺陷防治服務能力與群眾日益增長的優(yōu)生需求仍有較大差距,出生缺陷防治工作任重道遠。
04
NGS檢測流程介紹
NGS測序
數據量大,數據分析流程復雜,整個過程涉及數據生產、分析比對、變異注釋、變異篩選和變異分類等,需要建立一個專業(yè)的、系統(tǒng)的數據分析流程,形成統(tǒng)一的數據解讀與報告規(guī)范。一份遺傳檢測報告內容涉及樣本和數據的質量控制、數據分析的標準流程、基因變異的專業(yè)解讀、臨床表型與基因型的對應關系分析、檢測報告的規(guī)范化格式以及相關的社會倫理問題等。
主要檢測流程為:遺傳檢測前流程(臨床信息采集、擬定檢測方案)—樣本采集處理與檢測、數據分析流程、檢測報告解讀和遺傳咨詢。
4.1 樣本采集處理與測序
目前國內已有許多二代測序公司試水臨床遺傳病的檢測,而對于涉及臨床檢測的實驗室操作尚無統(tǒng)一的標準。臨床實驗室規(guī)范化與標準化的檢測與質控是非常重要的。質量控制包括核酸質控、文庫質控、測序數據質控,特別是文庫構建需評估試劑有效性,測序需評估不同試劑批次和固定時間間隔下的儀器損耗的穩(wěn)定性;NGS 測序質量參數應能滿足基本要求,如測序數據的單堿基質量評估指數(Q30)>=70%,對于目標區(qū)域捕獲測序的靶向測序,建議95%以上的目標序列區(qū)域測序覆蓋深度不小于 20X,測序目標區(qū)域平均測序深度不低100X。
4.2 生物信息學分析流程
生物信息學分析是將測序獲得的堿基序列轉換為遺傳學語言的過程。生物信息學分析的核心工具是軟件和數據庫。遺傳病基因檢測的生物信息學分析流程主要包括數據過濾、序列比對、變異檢測、變異注釋和相關質控統(tǒng)計等步驟。
數據分析流程必須包含測序數據質控計算的步驟,需根據比對文件計算目標區(qū)域的覆蓋度、平均深度、重復序列比例、比對到目標區(qū)域的讀句比例、目標區(qū)域每個堿基的測序深度等指標來評價測序的質量。基于探針捕獲的測序數據還需要計算捕獲效率。這一步的分析流程多為實驗室自主編寫。測序數據質量將直接影響檢測結果的正確性。
變異檢測分為兩大類,一類是單堿基變異(single nucleotide variant,SNV)和小插入缺失變異(insertion and deletion,INDEL);另一類是染色體水平的結構變異(structure variant,SV),其中拷貝數變異(copy number variation,CNV)指較大片段的重復或缺失變異,而SV一般指除CNV以外的結構變異如序列倒位、易位等。常用于檢測SNV和INDEL的軟件是GATK和SMAtools等。
由于檢測策略的差異,不同軟件的檢測結果往往存在一定的差別,相同軟件不同的參數設置同樣會導致檢測結果的差異。檢測CNV和SV可根據實際應用目的采取不同的流程,目前常用的檢測策略包括基于深度差別、斷點檢測、基于PE關系的讀句距離統(tǒng)計和重組裝策略,對于高深度測序還可以通過計算SNP的支持讀句比例來檢測CNV。常用的檢測軟件包括CNVkit、XHMM、CNVnator等,檢測SV的軟件包括LUMPY、BreakDancer等。
4.3 檢測報告解讀
遺傳分析的輸入為信息分析注釋數據,輸出為報告,其遺傳分析環(huán)節(jié)涉及變異初篩、表型匹配和變異致病性判讀等3個步驟。因二代測序產生的變異多,遺傳分析環(huán)節(jié)涉及較多的人工判斷,因此各實驗室需根據ACMG指南的原則編寫數據解讀的SOP,相關人員在充分的培訓和考核后方可進行數據解讀和報告出具。
美國ACMG建議使用正常人群頻率>常見的遺傳病發(fā)病率制定默認篩選頻率,如次等位基因頻率(minor allele frequency,MAF)>1%。自動化篩選流程的條件需進行保存。但需注意由于個體偏差和外顯不全等因素,有些致病突變的人群頻率較高,甚至在特定人群中頻率超過5%。
針對患者的基因檢測的首要訴求是找到分子水平的致病原因,因此需結合受檢者的臨床表型對樣品進行分析和解讀。在表型匹配環(huán)節(jié),需將患者的表型與檢測到的變異基因所致疾病的表型進行比對分析,因此需借助數據庫和文獻檢索來完成。因此構建自主的基因-疾病-疾病表型數據庫以提高表型匹配的效率是非常必要的。需注意基因、疾病和疾病表型的關聯(lián)并不是固定不變的,隨著科研和臨床的發(fā)展與進步會不斷擴增更新,內部數據庫也要根據賊新研究進展,不斷更新、優(yōu)化和矯正。
表型匹配由于人工參與度高,已成為數據解讀的限速環(huán)節(jié),因此可借助自動化的表型匹配軟件來提高效率。目前有多種軟件可流程化實現表型匹配和關聯(lián),常用的表型匹配軟件包括Phenolyzer、Exomiser、Xrare及商業(yè)軟件TGex等,也可使用自主開發(fā)的表型匹配軟件進行輔助解讀。這些軟件能夠根據患者的表型,將檢出的突變按相關性進行排序,作為解讀結果的參考,但并不能有效替代人工得出結論。
判斷位點致病性的證據有一些可以進行自動化分析(如人群頻率、軟件預測等),而有些只能通過人工閱讀文獻或驗證實驗獲取,輔助解讀軟件可自動在ACMG指南框架下對變異進行致病性判斷(如InterVar),但均需要人工進行校正,才可獲取足夠的證據項,得到正確的結論。
4.4 數據解讀價值分析
遺傳病臨床檢測的面臨的挑戰(zhàn)在于,檢測數據量大及解讀準難度大。檢測報告解讀由于人工參與度高,已成為數據解讀的限速環(huán)節(jié),如果一個月處理10個、100個樣本,人力尚可以解決,但如果樣本量增加到1000個、10000個,人力就很難高效檢測速度和解讀的精度了。況且,我國現具備醫(yī)學遺傳學臨床診斷能力的的醫(yī)師十分有限。
因此,生物信息分析能力是國內基因相關企業(yè)的賊大競爭力。如何利用AI和大數據的研究進展,開發(fā)先進的生物信息算法和技術,去正確、高效地解讀序列,識別和標識疾病相關的突變的同時,賊大限度的實現流程自動化,減少人為誤差,提高工作效率,對基因檢測公司提出了非常高的要求。
另外,隨著測序生產成本和生物信息基于云平臺的分析成本不斷降低,基因數據解讀在基因檢測服務中的成本比例將逐漸提高。根據Frost&Sullivan的NGS測序
服務成本構成數據,從2013年到2020年,在超摩爾定律下測序儀在整個測序服務的成本占比下降了83.3%,而數據解讀成本占比翻了一倍,占整體成本的30%。
筆者認為遺傳咨詢及數據解讀是細分領域的藍海市場,且商業(yè)化價值高,但其服務體系的標準化建立、數據積累與共享局限性以及目前我國專業(yè)遺傳咨詢師人才奇缺,導致其商業(yè)化周期較長,因此迫切需要有數據積累、技術沉淀和臨床資源的企業(yè)領航,促進行業(yè)發(fā)展。
05
遺傳病基因檢測市場容量
5.1 遺傳病/罕見病市場容量
根據FDA的統(tǒng)計,全球已知的罕見病約有7,000 多種,其中約80%屬于遺傳性疾病。全球罕見病患者已超過2.5 億,約50%的罕見病患者在出生時或兒童時期發(fā)病,約30%的罕見病兒童壽命不超過5歲。已知的7,000 多種罕見病中,大部分罕見病威脅患者生命或嚴重影響生存質量,但在有藥物治療的情況下,部分罕見病的疾病進程可逐漸得到控制,直至被管理成為慢性疾病。
根據中國罕見病定義(患病率
以平均檢測費用5000元計,總市場存量5000x1000萬=500億元;按照目前滲透率5%~10%計算,目前市場容量為25~50億元。
5.2 新生兒篩查市場容量
國家統(tǒng)計局數據,2019年我國出生人口為1465萬人,假設滲透率20%,即有約300萬新生兒選擇遺傳病基因篩查,單次檢測價格1500元,潛在市場容量45億元/年。遺傳病基因篩查,相較于質譜篩查,在遺傳病種類、正確性等方面,均具有明顯優(yōu)勢。耳聾單病種基因篩查,目前也有約10億/年市場規(guī)模。
5.3 遺傳病輔助診斷增量市場
以2012年原衛(wèi)生部公布的5.6%出生缺陷率計算,每年新發(fā)生出生缺陷患兒約80萬人。遺傳性缺陷約占總出生缺陷的30%,即每年新生遺傳病患兒達25萬人。按平均檢測費用5000元計算,遺傳病輔助診斷增量市場25億/年。
06
NGS&正確醫(yī)療相關政策
2014年2月,原國家食品藥品監(jiān)督管理總局辦公廳、國家衛(wèi)生和計劃生育委員會辦公廳發(fā)布聯(lián)合叫停了基因檢測產品,約半年后解禁。2015年,基因產業(yè)上升為國家戰(zhàn)略,基因檢測技術被列入“新型健康技術惠民工程”。同年1月,原國家衛(wèi)計委正式批準了109家醫(yī)療機構開展NIPT高通量測序臨床試點。
在此后連續(xù)多年包括“十三五”等生物產業(yè)和科技創(chuàng)新規(guī)范文件中,明確提出要把基因檢測作為重點發(fā)展的新興產業(yè),快速推進基因檢測在重大疾病早期篩查、個體化治療等方面的臨床應用。政府到2030年前擬投入600元發(fā)展正確醫(yī)療,基因檢測是實現正確醫(yī)療的基礎路徑。筆者預計,至少在未來10年里,基因檢測行業(yè)將得到政府資金、科研成果轉化等多方面支持。
07
遺傳病基因檢測主要企業(yè)
遺傳病NGS檢測主要企業(yè)整理如下:
目前遺傳病領域的診斷和治療都非常落后,診斷結果并不正確,遺傳病領域對于正確醫(yī)療的需求非常迫切,因此中國遺傳病基因檢測領域潛在市場巨大(上文推算約500億)。但是遺傳病種類繁多、復雜并且臨床解讀的困難性等特點使得絕大多數基因檢測廠家望而卻步。能夠在癲癇等神經系統(tǒng)疾病和遺傳代謝病等患者基數大且部分可診可治的細分應用場景下提高科研服務和綜合測序&解讀能力的企業(yè),將會在巨大的遺傳病潛在市場機會下獲得更多的機會和商業(yè)價值。
在上游測序儀器和設備被壟斷的情況下,企業(yè)的核心競爭力集中在基因數據分析環(huán)節(jié),可重點關注數據挖掘和遺傳解讀細分領域的企業(yè),目前國內少有專注該領域的企業(yè);初創(chuàng)企業(yè)可考慮進入該領域,并借助人工智能技術實現該環(huán)節(jié)非標準化服務的突破。同時,傳統(tǒng)的生物信息軟件和數據庫商業(yè)化值得投入,臨床表現出較強對完整基因測序報告與遺傳解讀的需求,將帶來未來的產業(yè)生態(tài)加速
(責任編輯:佳學基因)