x1 fold,diluted 10fold是什么意思( 五 )


构建蛋白质结构预测的新方法(图片来源:DeepMind官网)
使用这些评分函数,DeepMind能够搜索蛋白质图像,找到与我们的预测相匹配的结构 。第一种方法建立在结构生物学中常用的技术上,并且用新的蛋白质片段反复替换蛋白质结构的片段 。为了构建AlphaFold,DeepMind在数千种已知蛋白质上训练了一个神经网络,直到它可以预测单独使用氨基酸的3D结构 。
一旦AlphaFold被提供了一种新蛋白质,它就会利用其神经网络来预测其组成氨基酸对之间的距离,以及它们连接化学键之间的角度,形成一个牵伸结构 。然后,AlphaFold调整此结构以找到最节能的结构 。
虽然AlphaFold花了两周的时间来预测第一个蛋白质结构,但该程序现在可以在几个小时内完成 。
AI将漫长费力的预测过程缩短至几小时
根据英国《卫报》报道中的数据显示,截至2010年,只有0.6%的已知蛋白序列被解析出了相应的结构 。
在过去的五十年中,科学家们已经能够使用冷冻电子显微镜,核磁共振或X射线晶体学等实验技术来确定实验室中蛋白质的形状,但每种方法都依赖于大量的试验和错误,这可能需要每年高达数万美元的成本 。这就是为什么生物学家正在转向人工智能方法,以此作为这一漫长而费力的过程的替代方案 。
对于蛋白质折叠的复杂性,曾有外媒载文称,用当今最快的计算机模拟计算蛋白质折叠,要花100年 。不过是在当时最快的计算机每秒几万亿甚至十几万亿次浮点运算的速度下,虽然目前性能最强悍的超级计算机每秒运算速度峰值可达20亿亿次,对于蛋白质折叠的模拟计算仍有可能耗费科学家数年乃至数十年的时间 。
每个蛋白质都是一个氨基酸链,而后者的类型就有 20 种 。蛋白质可以在氨基酸之间扭曲、折叠,因此一种含有数百个氨基酸的蛋白质有可能呈现出数量惊人(10 的 300 次方)的结构类型 。通常,已经发现功能失常的蛋白质会导致疾病,并且历史上,用药物瞄准其结构、激活或停用它们会产生治愈效果 。由于计算机的算法和算力局限,直到现在,了解蛋白质的结构并不容易 。
根据中国科学院生物物理研究所生物大分子国家重点实验室研究员,中国科学院院士王志珍的观点,蛋白质的折叠和构象发生错误将会造成一些疾病,如阿尔茨海默氏症,帕金森氏症,亨廷顿氏症和囊性纤维化等 。随着蛋白质折叠研究的深入,人们会发现更多疾病的真正病因和更加针对性的治疗方法,从而设计更有效的要素 。
如果科学家能够学会从化学成分中预测蛋白质的形状,他们可以弄清楚它的作用,它可能会误导和造成伤害,并设计新的抗击疾病或履行其他职责 。简而言之,了解蛋白质如何折叠,研究人员可以开创科学和医学进步的新时代 。
以老年痴呆症(学名为阿尔茨海默氏症)为例,它在人体的潜伏期长达十几年之久,且病因复杂,以目前的医学技术,临床上甚至很难在发病前几年检测出这一疾病 。
幸运的是,由于基因测序成本的快速降低,基因组学领域的数据非常丰富 。因此,在过去几年中,依赖于基因组数据的预测问题的深度学习方法变得越来越流行 。DeepMind关于这个问题的工作产生了AlphaFold,并于今年提交给了CASP 。
DeepMind在博客中称:“我们很自豪能成为CASP组织者称之为‘计算方法预测蛋白质结构能力的前所未有的进步’的一部分,在进入的团队中排名第一 。我们的团队专注于从头开始建模目标形状的难题,而不使用先前解析的蛋白质作为模板 。我们在预测蛋白质结构的物理性质时达到了高度的准确性,然后使用两种不同的方法来构建完整蛋白质结构的预测 。”

推荐阅读