如何估算測序數據量？

首先，需要明確一點: 數據量大小其實就是鹼基的個數。

那麼，數據量大小的計算方法是：

單端測序

數據量=reads長度 * reads個數 (reads長度很容易得知，reads個數等於測序所得到的fastq文件的總reads數)

2. 雙端測序

數據量=單端reads長度 * 單端reads個數 * 2

通常測序數據量的單位都是用「G"表示，例如1G。需要強調的是，這裡所說的G不是說測序文件在硬碟上的大小為1G，而是表示10億個鹼基。這是如何計算的呢？

首先，我們需要知道1個鹼基=1 byte ；

其次是，1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte。

所以，1G的數據量=10^9=10億個鹼基。

此外，測序數據量還有另外一種表示方式，即cluster。一個cluster表示一個DNA片段（對於RNA-seq，則表示一個片段化後的RNA分子）。比如說某一個樣本測序數據量為30M 的 cluster。如果採用雙端測序技術，每個cluster從兩端都測一次，每次測150bp, 所以就會得到30M*2=60M的reads數，然後reads數乘以每條read的長度就是我們最後的測序數據量（鹼基數），即為60M*150=9G的鹼基數。

我們知道了測序數據量是如何計算的，那麼問題來了，對於一個測序樣本，需要測多少G 的數據量才能滿足實驗要求呢？要回答這個問題，首先要搞清楚幾個概念。

測序深度（Sequencing depth）：是指測序得到的鹼基總量（bp）與基因組大小的比值，即測序深度=數據量大小 / 參考基因組大小。或者理解為基因組中每個鹼基被測序到的平均次數。

2. 測序覆蓋度（Sequencing coverage）：是指測序獲得的序列占整個基因組的比例。或者可以理解為基因組上至少被檢測到1次的區域（或者是鹼基），占整個基因組的比例。

由於基因組中的高GC、重複序列等複雜結構的存在，測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域，這部分沒有獲得的區域就稱為Gap。例如一個細菌基因組測序，覆蓋度是98%，那麼還有2%的序列區域是沒有通過測序獲得的。

測序深度與基因組覆蓋度之間是一個正相關的關係，測序帶來的錯誤率或假陽性結果會隨著測序深度的提升而下降。

測序深度和覆蓋度的示意圖如下：

如何估算測序數據量？

热门新闻

周热门

如何估算測序數據量？

基因篩查都能篩查什麼病？

「個體基因差異影響基因編輯有效性」的研究將對基因編輯靶向治療帶來怎樣的影響和改變？

基因真的可以決定一切嗎？ 購買該講書查看完整 32 分鐘內容

一個人的努力與否是基因決定的嗎？

合成生物學之逆天改命：合成基因組

19個視頻，帶你快速入門「表觀遺傳學」

利用g:profiler基因注釋網站進行GO注釋分析

PNAS丨樊小龍/江濤/康春生合作團隊揭示基因組不穩定可望成為膠質瘤治療靶點

『珍藏版』Cell綜述丨哺乳動物的基因組印記與生理過程

北京生科院在宏基因組方法學研究中取得進展

為什麼說基因組編輯嬰兒違反倫理？

JAMA：非小細胞肺癌患者腫瘤突變特徵與預後

第四章Illumina測序數據分析方法簡介

最新幹細胞技術:剪掉那條讓男性不育的多餘的 Y 染色體

NGS研究設計的四項基本原則

热门新闻

周热门

基因真的可以決定一切嗎？購買該講書查看完整 32 分鐘內容