一、背景

在Selected Reaction Monitoring和串联质谱中,肽段离子(precusor)经过CID被碎裂成很多子离子(fragment),我们把肽段离子和对应的子离子叫做一个transition,可以翻译成子母离子。在后续的数据分析中,需要基于子母离子的信息作为库,基于质谱信息在库中进行匹配,以此进行肽段的识别,因此有必要有一种文件格式来描述子母离子。

最简单实用的格式就是tsv(TAB作为分割符)或csv(逗号作为分隔符),即文件首行表明数据类别,后续行为具体的子母离子对应的数据大小,一种tsv的具体实现如下所示:

这种方法虽然简单实用,但是数据格式不统一,不利于数据的交换和传输,因此HUPO PSI 在2012年提出了TraML格式用于描述子母离子。

可见,mzML侧重用于描述未知离子的原始质谱信息,及质荷比和对应强度,traML侧重用于描述已知子母离子的质荷比及生成方式等信息。

二、TraML文件的XSD文件分析

TraML文件的XSD部分文件如下:

可以看出TraML格式的框架,如下图所示:

可见,在根元素TraML下,子元素可以包含源文件信息、论文信息、设备信息、软体信息、蛋白质信息,成分列表、子母离子列表,必须包含控制字典信息等。其中,成分列表主要内容是对每一个肽段的信息描述,包含肽段的蛋白质属性,保留时间等信息。子母离子信息主要包括蛋白质属性,母离子肽段信息,子离子分子质量信息,母离子生成子离子信息等。

三、TraML文件详解

由于我们主要关注子母离子的信息,因此主要介绍TraML文件中的子母离子列表和对应的肽段部分。

一个肽段信息如下:

<Peptide id="4_AAC(UniMod:4)AQLNDFLQEYGTQGC(UniMod:4)QV_3" sequence="AACAQLNDFLQEYGTQGCQV">
<cvParam cvRef="MS" accession="MS:1000041" name="charge state" value="3"/>
<cvParam cvRef="MS" accession="MS:1000893" name="peptide group label" value="4_AAC(UniMod:4)AQLNDFLQEYGTQGC(UniMod:4)QV_3"/>
<userParam name="full_peptide_name" type="xsd:string" value="AAC(UniMod:4)AQLNDFLQEYGTQGC(UniMod:4)QV"/>
<ProteinRef ref="3/sp|P0C0L4|CO4A_HUMAN/sp|P0C0L4-2|CO4A_HUMAN/sp|P0C0L5|CO4B_HUMAN"/>
<Modification location="3" monoisotopicMassDelta="57.021464" averageMassDelta="57.0513">
<cvParam cvRef="UNIMOD" accession="UNIMOD:4" name="Carbamidomethyl"/>
</Modification>
<Modification location="18" monoisotopicMassDelta="57.021464" averageMassDelta="57.0513">
<cvParam cvRef="UNIMOD" accession="UNIMOD:4" name="Carbamidomethyl"/>
</Modification>
<RetentionTimeList>
<RetentionTime>
<cvParam cvRef="MS" accession="MS:1000896" name="normalized retention time" value="107"/>
<cvParam cvRef="MS" accession="MS:1002005" name="iRT retention time normalization standard"/>
</RetentionTime>
</RetentionTimeList>
</Peptide>

  • id:表示该肽段在该TraML文件中的编号,便于引用指代,是必须属性
  • sequence:表示该肽段的氨基酸序列。胰酶作用下为K/R结尾。该肽段有二十个氨基酸。
  • charge state:表示该肽段离子带的电荷
  • peptide group label:表示肽段组别(用途?)
  • full_peptide_name:表示含修饰信息的肽段序列
  • proteinRef:表示对应的蛋白质编号
  • modification修饰:
    • location:表示从N端开始的第几个氨基酸发生修饰
    • monoisotopicMassDelta:表示当只考虑最常见的同位素时,原子的分子量之差。(谁于谁比较?Atomic mass delta when assuming only the most common isotope of elements in Daltons.)
    • averageMassDelta:表示当考虑同位素的自然分布情况下,原子的分子量之差。(谁于谁比较?Atomic mass delta when considering the natural distribution of isotopes in Daltons.)
  • UniMod: N:表示某种修饰
  • normalized retention time:表示归一化后的保留时间

上述肽段对应的一个子母离子的描述为:

<Transition id="27_b9_1_AAC(UniMod:4)AQLNDFLQEYGTQGC(UniMod:4)QV_3" peptideRef="4_AAC(UniMod:4)AQLNDFLQEYGTQGC(UniMod:4)QV_3">
<Precursor>
<cvParam cvRef="MS" accession="MS:1000827" name="isolation window target m/z" value="758.336898623333" unitCvRef="MS" unitAccession="MS:1000040" unitName="m/z"/>
</Precursor>
<Product>
<cvParam cvRef="MS" accession="MS:1000041" name="charge state" value="1"/>
<cvParam cvRef="MS" accession="MS:1000827" name="isolation window target m/z" value="991.430191974"/>
<InterpretationList>
<Interpretation>
<cvParam cvRef="MS" accession="MS:1000903" name="product ion series ordinal" value="9"/>
<cvParam cvRef="MS" accession="MS:1000926" name="product interpretation rank" value="1"/>
<cvParam cvRef="MS" accession="MS:1001224" name="frag: b ion"/>
</Interpretation>
</InterpretationList>
</Product>
<cvParam cvRef="MS" accession="MS:1001226" name="product ion intensity" value="3069.1"/>
<cvParam cvRef="MS" accession="MS:1002007" name="target SRM transition"/>
<userParam name="annotation" type="xsd:string" value="b9/-0.001,b18-46^2/-0.001"/>
</Transition>

  • id:该子母离子的编号
  • peptideRef:对应的肽段
  • precursor:特指对应Q1选择出的母离子
    • isolation window target m/z:表示该母离子的质荷比
  • produce:子离子
    • charge state:子离子带的电荷
    • isolation window target m/z:子离子质荷比
    • product ion series ordinal:表示子离子还有几个氨基酸
    • product interpretation rank:都是1
    • frag:根据子离子命名规则,从N端开始为abc,从C端开始为xyz
  • product ion intensity:子离子强度
  • target SRM transiton:表示通过SRM方法获取子母离子信息
  • annotation:子离子命名,包含类型(abc,xyz),断裂位置,分子量误差,带电量(默认为1),调整量。比如"b9/-0.001,b18-45^2/-0.001",表示该子离子有两种可能来源得到相同的质荷比,一种是b类型9个氨基酸1个电荷无调整量误差为-0.001,一种是b类型18个氨基酸2个电荷-45的调整量误差为-0.00.

以上就是traML格式的具体介绍,traML格式现在正作为库文件的标准格式,以期替换各种csv和tsv格式文件。

四、引用文献

  1. Deutsch, E. W., Chambers, M., Neumann, S., Levander, F., Binz, P.-A., Shofstahl, J., … Brusniak, M.-Y. (2012). TraML—A Standard Format for Exchange of Selected Reaction Monitoring Transition Lists. Molecular & Cellular Proteomics, 11(4), R111.015040. doi.org/10.1074/mcp.R11
  2. matrixscience.com/help/

推荐阅读:

相关文章