高通量測序,或稱下一代測序(Next Generation Sequencing,NGS)方法在研究中的運用已經很廣泛了,它能產生非常豐富的信息量,有助於探索幾乎所有性狀、疾病的遺傳學特徵,已經對許多疾病的研究都做出了貢獻。

但放下研究者的滿腔熱血,還是要冷靜地想,這種方法並不是沒有偏倚,不恰當的設計仍然會帶來錯誤的結論。要避免偏倚則要從研究設計階段就做好控制,否則後邊執行或發文章時可糟心了。

NGS研究的設計有和其他研究的共同之處,但也有它自身的特色。近期BMJ上發文討論了NGS研究設計中的四個原則,是避免偏倚、假陽性等問題需要注意的,可供不太熟悉NGS的臨床研究者參考。

1設立實時對照組

要看一個遺傳變異是否與疾病相關,一般要設立病例和對照組進行比較。有些研究者就會選用現有資料庫中的數據作為對照組,自己收集病例組做新的檢測,以此節省成本。

儘管DNA突變相比於其他遺傳學特徵,如表達量、甲基化等,可重複性要好一些,但自己同時做個對照組仍然很有用,尤其是全外顯子測序(WES)及其他靶向測序的研究。

與全基因組測序(WGS)不同的是,WES和其他靶向測序應用商業生產的「釣餌」(捕捉探針)等工具來實現特定基因組位置的測序,而生產商可能會對這些產品如探針、試劑、儀器等定期更新,來提升覆蓋度。

而且,不同的歷史資料庫也有可能採用了不同的試劑、測序深度,或靶向不同的區域,或用不同的生信工具、流程進行處理。所以資料庫中的歷史數據是否仍能作為新樣本的對照呢?

如果沒有實時對照,若現在測出的跟歷史數據不一樣,則可能是由於技術不同,但卻會讓研究者誤以為是疾病和對照組的不同。進一步講,有自身對照、用同樣的技術流程去檢測就更好了。

還有一種兩步法設計,即用新樣本病例組的測序數據去跟歷史數據對比,排除常見變異,而剩下的變異再拿去跟新樣本對照組對比,這回用一種稍便宜的測序方法。不過如果能在第一步就用上一些新樣本對照組,或許能排除部分假陽性,總體上仍然降低成本。

如圖,上下三組序列分別代表歷史數據、新樣本病例組、實時或相似技術下的對照組。圖左,在新的病例組中發現了變異,但歷史數據和新的對照組都沒有,則很可能是疾病相關的變異,需要跟蹤研究。

中間一列,如果歷史上沒有很好地測過這一位置的序列,那麼新對照不僅必要,還能排除一些常見變異。

圖右,如果三者都採用了相似的技術,則鑒定常見變異就比較容易了。

2合適的隨機化策略

隨機化有助於防範系統誤差。當測序技術在某一時間或空間內發生改變時,隨機化的樣本則可使病例組和對照組受影響的差異減小。

有各種各樣的隨機化策略。簡單的隨機化只是把受試者盲目分配,可能不會考慮到多種潛在的混雜因素中,對照組和病例組是否仍均勻分布;區組隨機化則以可能的混雜因素劃分區組,在區組內做隨機分配,使兩組更為均衡。選擇合適的隨機化方法可以減少假陽性率,提高可重複性。

3充分的測序深度和多路復用

NGS技術很依賴於對每個核苷酸的多次檢測。在全外顯子和全基因組測序中,來自多個細胞的DNA片段被分離、測序、比對、繪製成基因組。測序深度即指這些片段為某個鹼基位置提供信息的次數,也稱讀取深度(read depth),或覆蓋度(coverage),比如可以說「某段序列是以15 reads或15× coverage的深度進行測序」。

這深度可能在不同實驗條件下中會有很大的不同,尤其是靶向測序方法。雖然也有分析工具允許對深度較小的樣本進行對比、分析,甚至病例和對照組深度不同都行,但許多分析流程會完全過濾掉某個域值以下的位點,於是它們就無法進入分析,來檢驗你的假設。

下圖示意一個DNA片段上,一條泳道上測序4樣本、3樣本和2樣本(即多路復用,multiplexing)的測序深度及覆蓋度。如果以20× 為深度閾值,則三種情況下該片斷的覆蓋度分別為35%、60%、95%。

減少測序深度時,多路復用可以省錢,但有時候也會發生誤讀。研究者必須結合實際情況,權衡一下經費條件和覆蓋度之間的平衡。可以從前期的或相似的研究中尋找最佳的多路復用策略。

4足夠的樣本量

這是在所有研究中都會被提醒的要點,在一定的效應量下,提高樣本量才能達到理想的統計功效。首先要通過現有的信息預先估計好效應量,將要選用的統計方法,需要控制的假陰性假陽性率,再去計算所需的樣本量。這跟選擇最佳測序深度一樣重要。

由於多重檢驗問題,NGS研究所要求的統計顯著性閾值比大多數研究要低得多、嚴格得多,而又有基因位點間並非相互獨立的情況,所以並非簡單校正,一般採用1 × 10-7至1 × 10-8。

雖然有現成的軟體工具能在給定的效應量、統計顯著性閾值等參數下,很快計算出樣本量,但參數也不是這麼好估計的,最好也要由臨床學者、統計學者、生物信息學者一起制定方案。

參考文獻:

1. Mason, C. C. Four study design principles for genetic investigations using next generation sequencing. BMJ 359, j4069 (2017).

來源:解螺旋,如有侵權,請聯繫我們刪除!


推薦閱讀:
相关文章