文章来自微信公众号"金特达基因",版权归上海金特达基因科技有限公司所有,未经许可,不得转载。转载请联系原作者。

小L生信日记

嗨,大家好,我是小L

我作为一个生信小白,这段时间看了好多好多原理类的知识,感受可以用七个字形容,就是「头昏脑胀打瞌睡」

怎么说呢,因为这些原理有了实操经验之后一看就明白,但是没有实操经验的时候真的是「不知道在讲些什么鬼东西~」,还让我产生了心里负担,感觉自己怕不是个傻子。

每个人的学习背景都是不同的,学计算机的不懂生物,学生物的不懂医学,学医的不懂计算机嘛!总有一些知识是需要补充的!(努力给自己心理重建中——)

因此,在生信部小哥哥小姐姐的指导下,我简单整理了一些生信必须了解的、后续学习中会用到的知识点,大家可以查漏补缺一下哈~

中心法则

还记得高中学过的中心法则吗?不要往下拉,现在自己复述一遍

还是一起复习一下吧

1957年9月,克里克在论文「论蛋白质合成」中正式提出,遗传信息流的传递方向是:DNA→RNA→蛋白质,后来被称为「中心法则」。

中心法则的基本内容:

  1. 遗传信息是DNA上的核苷酸序列
  2. 基因表达包括转录(transcription)和翻译(translation)两个阶段
  3. 转录(transcription):生物体以DNA为模板合成RNA的过程,是基因表达的核心步骤
  4. 翻译(translation):生物体以mRNA为模板,在核糖体内合成蛋白质的过程

二代测序

生物信息学分析现在分析的主要对象就是二代测序的下机数据,因此我们要对其有一定的了解。

NGS技术(next generation sequencing)可以一次对数百万个DNA分子同时进行序列测定,又称大规模平行测序或深度测序,包括第二代、第三代和第四代测序技术。

之前的文章(戳这里)和视频(戳这里)有介绍过各种测序技术,可以戳链接查看。

二代测序技术的核心原理是边合成边测序,基本步骤包括文库制备、单克隆DNA簇的产生和测序反应,具有高通量、成本低、敏感性高、读长较短等特点。

二代测序的下机数据类型分为以下两种:

单端(Single-Read,SR)测序:只检测基因片段一端的基因信息,即一个片段只读一次;

双端(Paired-End,PE)测序:只检测基因片段两端的基因信息,即一个片段,从正向和反向各读一次。

二代测序技术主要有以下3种:Illumina/Solexa 聚合酶合成测序、罗氏 454 焦磷酸测序、ABI/SOLiD 连接酶测序。其中,应用最广的是Illumina (solexa)技术。

我们一般是对测序得到的fastq文件进行分析,fastq文件是Illumina(solexa)测序技术中一种反应测序序列的碱基质量的文件格式。

如图:

  • 第一行:以「@」符号开头,后面紧跟一个序列的描述信息
  • 第二行:序列内容
  • 第三行:以「+」符号开头,后面可以是该序列的描述信息,也可省略
  • 第四行:是第二行的序列内容中每个碱基所对应的测序质量值

接下来是fastq文件中一些常见名词:

Index(Barcode):标签。在Illumina平台的多重测序过程中会使用Index来区分样品,通过Index的识别,可以在1条Lane中区分不同的样品。

Lane:泳道,可以使用Barcode在单Lane中检测多样本。

Read:是一段碱基序列。高通量测序平台产生的碱基序列就是reads,reads是read的集合。

Fragment:测序的时候要将基因序列打断成固定长度片段(即fragment)之后再进行测序,测出来的结果就是reads。单端测序由于只能从fragment的一端进行测序,测多长,read就是多长;双端测序从一个fragment的两端测序,会产生两个read。

Contig:read进行拼接之后就会获得不同长度的contig。

数据量:测序所测到的碱基总数。计算方法:数据量=读长xReads数x端数。例如:PE125,20M Reads:数据量 = 125 x 20M x 2 = 5Gb

(1Gb = 103Mb= 106Kb = 109b)

Q值:指测序过程中的碱基识别(Base Calling)过程对所识别的碱基给出的错误概率。

覆盖深度(depth of coverage、覆盖度):是指平均碱基测序深度,即每个碱基被测序的平均次数(测序得到的总碱基数与待测基因组大小的比值)。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖所有的区域。

测序深度(Sequencing depth)是指测序得到的碱基总量(bp)与基因组大小的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随著测序深度的提升而下降。

转录组测序

NGS技术由于通量高、成本低、测序周期短已被广泛应用于基因组学、转录组学、蛋白质组学等方面。由于金特达基因的特色分析是转录组分析,所以小L首先学习的就是转录组分析,后续的记录也会以它为例,现在简单了解一下。

转录组测序(RNA sequencing,RNA-Seq):即利用第 2 代高通量测序技术全面快速地获取某一物种特定器官或组织在某一特定状态下所有的转录本信息(主要包括 mRNA 和非编码 RNA)。 所获得的海量数据经过专业生物信息软体的比对、组装等分析后,就可以还原出不同时空条件下不同组织或细胞中基因表达的各类特征。

转录组(transcriptome):广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA(mRNA)、核糖体RNA(rRNA)、转运RNA(tRNA)及非编码RNA(ncRNA);狭义上指mRNA的集合。

  • mRNA是以DNA的一条链为模板,以碱基互补配对原则转录而形成的一条单链。其功能就是把DNA上的遗传信息精准无误地转录下来,然后再由mRNA的碱基顺序决定蛋白质的氨基酸顺序完成翻译、合成蛋白质。
  • smallRNA:是生物体内一类高度保守的重要的功能分子,其大小在18-30nt,包括miRNA、siRNA、snRNA、snoRNA和piRNA等,主要功能是诱导基因沉默、调控细胞生长、发育、基因转录和翻译等生物学过程。
  • lncRNA(long non-coding RNA,长链非编码RNA):是长度大于200个核苷酸的非编码RNA,可在表观遗传水平、转录水平和转录后水平调控基因的表达,广泛参与集体的生理和病理过程。
  • circRNA(circular RNA,环状RNA)是一类不具有5』端帽子和3』端poly(A)尾巴、并以共价键形成环状结构的非编码RNA分子,不易被核酸外切酶降解、比线性RNA更稳定。circRNA可作为竞争性内源RNA(ceRNA)结合胞内miRNA阻断miRNA对其靶基因的抑制作用,还可调控其他类型RNA、调节蛋白活性等。

生物信息资料库

生信分析必不可少的还有生物信息资料库,相信大家多少都有些了解,这里就简单说一下。

随著生物实验方法和检测手段的提高与发展,产生了海量生物学数据和成千上万的资料库。生物信息学资料库几乎覆盖了生命科学的各个领域,如核酸序列资料库,蛋白质序列资料库,蛋白质、核酸等三位资料库,文献资料库和其他资料库等。

  • 基因组资料库:GDB、GenBank、Ensembl
  • 核酸序列资料库:ENA(EMBL)、GenBank、DDBJ
  • 蛋白质序列资料库:PRINTS、PIR、PDB、MIPS

以上就是小L本期专栏记录的「生信入门必知背景知识」全部内容!

有生物背景的可能会觉得过于简单,没有生物背景的人可能又觉得难以理解。不管怎么样,我们可以先简单过一下本期内容,直接进行下一步,遇到问题再查资料。

对小L有什么想说的?欢迎大家提出建议。

和小L一起期待下次的学习吧~

拜拜

小L

内容主要整理自金特达基因内部培训材料,部分整理自网路。

转载请注明来自微信公众号「金特达基因」

推荐阅读:

相关文章