一个长度为200的氨基酸蛋白质,其可能序列就达到了20的200次幂个,仅仅是这个数字都会导致计算机的溢出错误。但在自然界中出现的样本只占这庞大集合中的一小部分。在蛋白质折叠的物理原则指导下,蛋白质的从头设计可以探索整个序列空间。

计算方法也已经可以从原子尺度上精确设计大范围的结构。几乎所有蛋白质工程都利用了修饰天然蛋白质的方法。我们可以通过从头到尾设计新功能的蛋白质,来应对目前在生物医药和纳米技术上的挑战。

这篇文章主要讲述使用基础的物理规则和非自然序列进行蛋白质的从头设计的原理与方法。


蛋白质分子机器

我们已经知道,蛋白质作为分子机器,在生命活动中承担了绝大部分的功能,如:利用太阳能合成复杂分子,超灵敏探测小分子或光。然而从另一个角度讲,特定的蛋白质分子机器本质上只是进化的意外,然而其性能却是如此的显著而卓越。显然,这些意外并不是那么容易造就的。那么,我们该如何进行蛋白质的设计呢?


序列空间内的蛋白质

进化是通过增量突变和选择进行的,所以天然存在的蛋白质不是均匀分布在整个序列空间内的,而是紧密地聚集在一起,其中进化产生的蛋白质只占总可能序列空间的一小部分。之前,合成生物学家采用的定向进化技术,仅限于探索天然蛋白质周围的序列空间区域,根据我们上文的描述这显然是不够的,因此,我们有必要开发从头蛋白质设计以探索整个序列空间。

我们可以在蛋白质生物物理学原理的基础上从头开始生成新的蛋白质。即假设蛋白质折叠成其氨基酸序列最接近的最低能量状态(Christian Anfinsen ),计算蛋白质链的能量,结合对可能的蛋白质结构和序列的空间进行采样,从而设计新结构序列。

能量函数计算是蛋白质设计中的常用方法,但目前仍存在著两个挑战:其一是系统能量无法精确计算;其二是蛋白质结构和序列空间非常大,导致采样困难。那么,我们该如何应对这两大挑战呢?

下文将描述在能量函数计算中克服采样难题的方法,以及一些蛋白质结构预测和骨架设计的方法。


关于蛋白质设计,有三种全局优化策略:结构预测、固定骨架设计、全从头设计。

①结构预测的序列是确定的,结构是不确定的。已知氨基酸序列,可通过骨架采样和侧链采样来预测结构。

②固定骨架设计的结构是确定的,序列是不定的。已知骨架结构,可通过骨架采样和侧链采样来设计序列。

③全从头设计中两者皆是不确定的。可通过体系结构定义,进行骨架采样和侧链采样,设计出骨架和序列。

蛋白质设计的三种全局优化策略


蛋白质设计的物理原则(Physical principles that underlie protein design

蛋白质折叠的驱动力是将疏水残基从溶剂中埋藏到蛋白质的核心部位(三种学说之一),为了最小化蛋白质在溶剂中占据的空穴和最小化原子重叠的范德华力,蛋白质的侧链必须被紧密地包装且不溶于任何能量不利地重叠。在展开状态下与溶剂形成氢键的残基必须形成蛋白质分子内的氢键以补偿能量,否则剥离水所需要消耗的巨大能量将使蛋白质错误折叠。

蛋白质的折叠与能量变化紧密相关,由此,科学家们提出了这样的思路——测量蛋白质中原子之间以及原子与溶剂之间相互作用的能量的大小,然后使用能量函数预测并设计所需的骨架和侧链结构,最后从采样中筛选出能量最低的结构和序列。(能量函数主要受范德华力影响,包含原子堆积、空间排斥、静电相互作用、氢键、溶剂化以及主链和侧链键的扭转能)

在能量函数的构建过程中,涉及到大量的样本,样本多而繁复,那我们该如何高效采样呢?目前,采样的方式主要有两种,一种是侧链取样,一种是骨架采样。在侧链取样中,通常使用离散组合优化鉴别氨基酸和侧链构象(旋转异构体),筛选出低能量紧密堆积的蛋白质核心。在骨架采样中,首先将局部序列中的可能结构作为局部结构的子集,构建离散优化问题;然后使用准牛顿最小化(quasi-Newton minimization)等连续优化方法调整蛋白质结构(此时主要调整的是静电相互作用和氢键对蛋白质结构的影响)。


蛋白质结构预测(Protein-structure prediction

蛋白质的结构预测:指在不知道相关进化蛋白结构信息的情况下,找到固定氨基酸序列的最低能量结构。即结构预测的序列已知,结构未知。由于氨基酸序列是固定的,而骨架可由具有相似局部序列的短片段构建,有了这两项条件,侧链组合优化便可涵盖各种旋转异构体状态。如此,就可以从庞大的序列结构集合中寻找局部序列进行结构采样,解决序列空间庞大导致采样困难的问题。但目前进展仍旧缓慢,除最小的蛋白质外,如果不知其同系物的结构,蛋白质的结构仍旧很难预测。

为什么方法已找到,而进展却仍旧缓慢呢?其主要原因是骨架构象空间大小的采样困难:正确结构的能量通常低于其它任何结构,很难筛选找出。目前的应对方法之一是由额外信息源引导采样,如在协同进化距离的约束下找到原始状态能量最小值。如此,便可对复杂的蛋白质结构进行精密预测。


蛋白质从头设计(De novo protein design

与结构预测和固定骨架设计问题不同,在从头蛋白质设计问题中,蛋白质确切的骨架序列和结构通常都是未知的。由于只有一小部分骨架构象具有完美核心堆积和包埋氢键的序列,所以设计计算通常以大量(超过10,000)可能构象开始,然后逐渐缩小范围。范围缩小后,如何设计骨架结构呢?首先,组装短肽片段或使用代数方程参数化构建初始骨架。其次,使用组合序列优化计算每个初始骨架,筛选出具有最低能量序列的骨架结构。最后,通过从头结构预测计算确定所设计的结构是否为设计序列的最低能量状态(计算机一致性检查)。要求最终结果为预测结构与设计结构的计算能量几乎一致。

结构预测的能量景观示例

理想的α螺旋 β折叠:利用序列无关设计原理,可设计多种理想的α β蛋白结构。设计方法主要包括以下几个步骤。①首先,依据骨架设计原则创建拓扑「蓝图」 ,该蓝图包括组成α-螺旋和β-折叠的多肽链的长度,排列的位置和顺序,以及连接环的长度。②其次,依照蓝图,从蛋白质结构片段中组装蛋白质骨架(蒙特卡罗方法)。③再通过组合旋转异构体优化筛选出每个骨架的低能氨基酸序列。④然后,通过骨架松弛和序列优化两者的交替循环,确定最低能量的序列 - 结构对。⑤最后,测试结构预测中与设计结构最接近的序列(一致性检验)。通过编码新设计蛋白质的合成基因,然后将合成基因转入大肠杆菌中,便可生产新设计的蛋白质。实验发现生产的新设计蛋白质非常稳定,并与设计结构趋于一致。

α螺旋 β折叠

蛋白质多聚体:在构建理想骨架的过程中,科学家们发现了理想单元重复多次且具有内部对称性的蛋白质结构——蛋白质多聚体。蛋白质的内部对称性缩小了采样序列空间的大小,并使已知序列 - 结构组合的小单元能被重复利用,给蛋白质设计带来了极大的便利,由此可设计出更大的蛋白质。蛋白质多聚体的另一特性是最末重复单元与第一重复单元的闭合结构导致其内部对称约束性特别强。在TIM桶中,骨架设计原理与闭合β-折叠协同作用使得四重对称性达到最高,导致每个α-β-α-β单元中的两个α-螺旋以不同的长度连接。将含有蛋白质多聚体的合成基因引入大肠杆菌,然后对纯化的蛋白质进行实验验证,实验证明纯化的蛋白质中含有闭合重复和开放重复的蛋白质,其高解析度X射线晶体学结构与设计模型趋于一致,且这些新的重复蛋白非常稳定。

具有内部对称性的蛋白质设计

参数螺旋束:参数方程也可用于构建理想骨架,其在全局结构中起到较大的控制作用。如Francis Crick开发的方程能够生成平行或反平行方向的理想化α-螺旋束(理想化α-螺旋束具有任意长度、相位、相对方向和扭曲)。参数方程可以直接用于序列设计计算,产生多亚基寡聚结构等,用途甚广。目前使用参数方程已设计了多种螺旋束,如与碳纳米管结合的肽、平行自组装螺旋通道、离子转运蛋白和具有水解活性装置的α-螺旋桶。

利用参数骨架进行从头设计

氢键网路:虽然单体折叠的从头设计概述原则在蛋白质设计中尤为重要,但仅仅依靠它,是不能够完全控制蛋白质相互作用的特异性的。目前控制蛋白质相互作用特异性的进展仍旧缓慢。蛋白质的结构特异性是如何产生的呢?据实验发现,疏水残基的包埋与极性相互作用可以驱动蛋白质结合,形成溶剂化单体结构并产生结构特异性。蛋白质的氢键网路构建十分困难。天然蛋白质的氢键排列不规则,导致其难以设计。除此以外,设计极性相互作用还有另一个难点——使供体和受体形成的所有氢键为蛋白质内氢键。在过去一年中,已逐渐形成了用原子级准确度设计精确的氢键网路的方法。这种方法主要通过产生具有特异性的螺旋束寡聚体(特异性由中心氢键网路的规则阵列确定),进行氢键网路设计,类似于DNA中的Watson-Crick碱基配对。大多数氢键网路都十分复杂,如鉴定含有一个以上氢键网路的稀有骨架需要参数化生成数千个骨架,才能进行下一步的分析验证。在蛋白质结构构建过程中,将氢键网路模块化,化繁为简,逐步编码其特异性,也不失为一个很好的方法。


蛋白质新功能的设计(The design of new functions

目前蛋白质结构和蛋白质折叠的原理已基本建立,许多稳定的蛋白质结构和组件也都能够以原子级精度设计。计算机设计蛋白质可以改变天然蛋白质骨架,随之改变其功能和用途。计算机从头设计蛋白质取得的成就证实了蛋白质新功能设计具有巨大潜力。例如通过定向进化获得高催化效率的酶,其可作为保护动物免受病毒感染的蛋白质 - 蛋白质相互作用抑制剂和掺入体内生物感测器的小分子结合蛋白。除此之外,蛋白质亚基之间精确的介面设计可以产生环状同源寡聚体,四面体,八面体和开放的二维组件等。蛋白质界面设计方法可用于形成具有二十面体对称性和60个亚单元 或120个亚单位的单组分或双组分组件。这些组件的高度对称性可用于疫苗应用,使抗原多价呈现,并且其庞大的内部空间非常适合包装货物及运输至目标靶点。

自组装纳米材料的设计

约束肽的设计:在从头蛋白质设计的调控下,次代设计的功能蛋白质的能力可能远远超过第一代设计蛋白质(第一代设计蛋白质基于天然蛋白质)的能力。在从头蛋白质设计过程中,可引入新的化学成分和非天然氨基酸,产生自然界中不存在的蛋白质。由此看来,从头蛋白质设计具有超越自然的巨大潜力。 例如设计二硫键连接的超稳定肽和连接N和C末端的环肽链。

提高从头设计的稳定性:从头蛋白质设计有著诸多好处,但也存在著局限性。当利用大肠杆菌生产新设计的蛋白质时,只有一小部分蛋白质设计保持稳定的折叠结构。这是由什么原因引起的呢?实验证明可溶性和单分散结构与设计模型非常相似,而不溶性结构与设计模型很难保持一致,且有时会形成非预期低聚结构。蛋白质的不溶性和多分散性可能源于非预期的分子间疏水相互作用。如此看来,要增加新设计蛋白质的稳定性还需要提高设计过程中基础能量函数的准确性(如蛋白质原子与特定结合水分子间的相互作用的建模)。除此以外,最好还要熟知负面设计中不利的可能结构和其它计算方法的前沿知识,来完善从头蛋白质设计。如今合成DNA的成本已降低,这无疑给了从头蛋白质设计一个契机。


Rosetta为从头蛋白质设计中较为常用的工具,其使用方法可参考【待续】Rosetta简易手册 - 喵大侠的文章 - 知乎 zhuanlan.zhihu.com/p/56

本文参考了David Baker老师2016年的综述文章:

Huang, P.-S., Boyken, S. E., & Baker, D. (2016). The coming of age of de novo protein design. Nature, 537(7620), 320–327. doi.org/10.1038/nature1

如有疏漏,欢迎指正,谢谢!

欢迎致电[email protected]提出问题。

推荐阅读:

相关文章