文章來自微信公眾號"金特達基因",版權歸上海金特達基因科技有限公司所有,未經許可,不得轉載。轉載請聯繫原作者。

小L生信日記

嗨,大家好,我是小L

我作為一個生信小白,這段時間看了好多好多原理類的知識,感受可以用七個字形容,就是「頭昏腦脹打瞌睡」

怎麼說呢,因為這些原理有了實操經驗之後一看就明白,但是沒有實操經驗的時候真的是「不知道在講些什麼鬼東西~」,還讓我產生了心裡負擔,感覺自己怕不是個傻子。

每個人的學習背景都是不同的,學計算機的不懂生物,學生物的不懂醫學,學醫的不懂計算機嘛!總有一些知識是需要補充的!(努力給自己心理重建中——)

因此,在生信部小哥哥小姐姐的指導下,我簡單整理了一些生信必須了解的、後續學習中會用到的知識點,大家可以查漏補缺一下哈~

中心法則

還記得高中學過的中心法則嗎?不要往下拉,現在自己複述一遍

還是一起複習一下吧

1957年9月,克里克在論文「論蛋白質合成」中正式提出,遺傳信息流的傳遞方向是:DNA→RNA→蛋白質,後來被稱為「中心法則」。

中心法則的基本內容:

  1. 遺傳信息是DNA上的核苷酸序列
  2. 基因表達包括轉錄(transcription)和翻譯(translation)兩個階段
  3. 轉錄(transcription):生物體以DNA為模板合成RNA的過程,是基因表達的核心步驟
  4. 翻譯(translation):生物體以mRNA為模板,在核糖體內合成蛋白質的過程

二代測序

生物信息學分析現在分析的主要對象就是二代測序的下機數據,因此我們要對其有一定的了解。

NGS技術(next generation sequencing)可以一次對數百萬個DNA分子同時進行序列測定,又稱大規模平行測序或深度測序,包括第二代、第三代和第四代測序技術。

之前的文章(戳這裡)和視頻(戳這裡)有介紹過各種測序技術,可以戳鏈接查看。

二代測序技術的核心原理是邊合成邊測序,基本步驟包括文庫製備、單克隆DNA簇的產生和測序反應,具有高通量、成本低、敏感性高、讀長較短等特點。

二代測序的下機數據類型分為以下兩種:

單端(Single-Read,SR)測序:只檢測基因片段一端的基因信息,即一個片段只讀一次;

雙端(Paired-End,PE)測序:只檢測基因片段兩端的基因信息,即一個片段,從正向和反向各讀一次。

二代測序技術主要有以下3種:Illumina/Solexa 聚合酶合成測序、羅氏 454 焦磷酸測序、ABI/SOLiD 連接酶測序。其中,應用最廣的是Illumina (solexa)技術。

我們一般是對測序得到的fastq文件進行分析,fastq文件是Illumina(solexa)測序技術中一種反應測序序列的鹼基質量的文件格式。

如圖:

  • 第一行:以「@」符號開頭,後面緊跟一個序列的描述信息
  • 第二行:序列內容
  • 第三行:以「+」符號開頭,後面可以是該序列的描述信息,也可省略
  • 第四行:是第二行的序列內容中每個鹼基所對應的測序質量值

接下來是fastq文件中一些常見名詞:

Index(Barcode):標籤。在Illumina平台的多重測序過程中會使用Index來區分樣品,通過Index的識別,可以在1條Lane中區分不同的樣品。

Lane:泳道,可以使用Barcode在單Lane中檢測多樣本。

Read:是一段鹼基序列。高通量測序平台產生的鹼基序列就是reads,reads是read的集合。

Fragment:測序的時候要將基因序列打斷成固定長度片段(即fragment)之後再進行測序,測出來的結果就是reads。單端測序由於只能從fragment的一端進行測序,測多長,read就是多長;雙端測序從一個fragment的兩端測序,會產生兩個read。

Contig:read進行拼接之後就會獲得不同長度的contig。

數據量:測序所測到的鹼基總數。計算方法:數據量=讀長xReads數x端數。例如:PE125,20M Reads:數據量 = 125 x 20M x 2 = 5Gb

(1Gb = 103Mb= 106Kb = 109b)

Q值:指測序過程中的鹼基識別(Base Calling)過程對所識別的鹼基給出的錯誤概率。

覆蓋深度(depth of coverage、覆蓋度):是指平均鹼基測序深度,即每個鹼基被測序的平均次數(測序得到的總鹼基數與待測基因組大小的比值)。由於基因組中的高GC、重複序列等複雜結構的存在,測序最終拼接組裝獲得的序列往往無法覆蓋所有的區域。

測序深度(Sequencing depth)是指測序得到的鹼基總量(bp)與基因組大小的比值,它是評價測序量的指標之一。測序深度與基因組覆蓋度之間是一個正相關的關係,測序帶來的錯誤率或假陽性結果會隨著測序深度的提升而下降。

轉錄組測序

NGS技術由於通量高、成本低、測序周期短已被廣泛應用於基因組學、轉錄組學、蛋白質組學等方面。由於金特達基因的特色分析是轉錄組分析,所以小L首先學習的就是轉錄組分析,後續的記錄也會以它為例,現在簡單了解一下。

轉錄組測序(RNA sequencing,RNA-Seq):即利用第 2 代高通量測序技術全面快速地獲取某一物種特定器官或組織在某一特定狀態下所有的轉錄本信息(主要包括 mRNA 和非編碼 RNA)。 所獲得的海量數據經過專業生物信息軟體的比對、組裝等分析後,就可以還原出不同時空條件下不同組織或細胞中基因表達的各類特徵。

轉錄組(transcriptome):廣義上指某一生理條件下,細胞內所有轉錄產物的集合,包括信使RNA(mRNA)、核糖體RNA(rRNA)、轉運RNA(tRNA)及非編碼RNA(ncRNA);狹義上指mRNA的集合。

  • mRNA是以DNA的一條鏈為模板,以鹼基互補配對原則轉錄而形成的一條單鏈。其功能就是把DNA上的遺傳信息精準無誤地轉錄下來,然後再由mRNA的鹼基順序決定蛋白質的氨基酸順序完成翻譯、合成蛋白質。
  • smallRNA:是生物體內一類高度保守的重要的功能分子,其大小在18-30nt,包括miRNA、siRNA、snRNA、snoRNA和piRNA等,主要功能是誘導基因沉默、調控細胞生長、發育、基因轉錄和翻譯等生物學過程。
  • lncRNA(long non-coding RNA,長鏈非編碼RNA):是長度大於200個核苷酸的非編碼RNA,可在表觀遺傳水平、轉錄水平和轉錄後水平調控基因的表達,廣泛參與集體的生理和病理過程。
  • circRNA(circular RNA,環狀RNA)是一類不具有5』端帽子和3』端poly(A)尾巴、並以共價鍵形成環狀結構的非編碼RNA分子,不易被核酸外切酶降解、比線性RNA更穩定。circRNA可作為競爭性內源RNA(ceRNA)結合胞內miRNA阻斷miRNA對其靶基因的抑制作用,還可調控其他類型RNA、調節蛋白活性等。

生物信息資料庫

生信分析必不可少的還有生物信息資料庫,相信大家多少都有些了解,這裡就簡單說一下。

隨著生物實驗方法和檢測手段的提高與發展,產生了海量生物學數據和成千上萬的資料庫。生物信息學資料庫幾乎覆蓋了生命科學的各個領域,如核酸序列資料庫,蛋白質序列資料庫,蛋白質、核酸等三位資料庫,文獻資料庫和其他資料庫等。

  • 基因組資料庫:GDB、GenBank、Ensembl
  • 核酸序列資料庫:ENA(EMBL)、GenBank、DDBJ
  • 蛋白質序列資料庫:PRINTS、PIR、PDB、MIPS

以上就是小L本期專欄記錄的「生信入門必知背景知識」全部內容!

有生物背景的可能會覺得過於簡單,沒有生物背景的人可能又覺得難以理解。不管怎麼樣,我們可以先簡單過一下本期內容,直接進行下一步,遇到問題再查資料。

對小L有什麼想說的?歡迎大家提出建議。

和小L一起期待下次的學習吧~

拜拜

小L

內容主要整理自金特達基因內部培訓材料,部分整理自網路。

轉載請註明來自微信公眾號「金特達基因」

推薦閱讀:

相关文章