AI再发力,解决困扰生物学家近50年的一个基本问题( 二 )


氨基酸连接形成一维的多肽链 , 然后进一步折叠形成具有独特三维结构的蛋白质 。 有些时候 , 还会形成更复杂的四级结构 。 |DeepMind
整个蛋白质折叠的过程看似随机 , 却又仿佛遵循着一张设计蓝图 , 一旦组成蛋白质的氨基酸序列确定下来 , 它的折叠方式也就完全确定了 。 这实际上很符合直觉 , 我们可以想象 , 如果同样的氨基酸序列可以折叠成不同结构的蛋白质 , 发挥不同的功能 , 我们的身体内部会陷入怎样的混乱状态 。
自然界经过漫长的生命进化过程 , 蛋白质分子在一眨眼之间就能够自发地完成整个折叠过程 。 但科学家们发现 , 如果想要通过计算氨基酸分子间的相互作用来预测它们如何折叠 , 那么要穷尽所有可能的蛋白质构型 , 需要的时间将比整个宇宙年龄还要长 。
这个问题困扰了科学家们很长时间 。 但是在人工智能进入这个领域后 , 预测蛋白质折叠的准确性很快获得提升 。
03.
AI出手!精确预测蛋白质结构
人工智能(AI)的一种实现手段是时下流行的机器学习 。 2016年打败人类围棋冠军的AlphaGo和此次预测蛋白质结构的AlphaFold , 利用的都是机器学习算法 。 它的大致思路是 , 先将大量已有的数据——包括结果(比如围棋棋谱、猫狗图片等)输入计算机 , 然后计算机对这些数据进行分析 , 利用它惊人的计算能力从这些数据中寻找特征或规律 。 这样 , 对于以后输入的新数据 , 它就能作出“富有经验”的高明反应了 。
2016年 , 人工智能阿尔法狗(AlphaGo)打败围棋九段李世石 。 2017年 , 进化的阿尔法狗又让天才围棋少年柯洁碰了壁 。 图为李世石 。 |来自网络
更为先进的人工智能算法甚至允许只输入很少量的学习样本 , 就能掌握相关技能 。 比如AlphaGo的升级版本根本不需要输入棋谱 , 只要知道围棋的规则 , 就能根据算法对规则进行自我摸索和训练 , 通过自己跟自己对弈 , 最终获得超越人类顶级围棋高手的能力 。
AlphaFold解决蛋白质折叠问题的过程与AlphaGo学习下围棋的过程类似 , 只不过输入的是大量蛋白质的序列和结构数据——这些数据来自实验室中实际测得的数据 。 AlphaFold从中找寻氨基酸分子之间的相互作用、蛋白质片段之间的演化关系 , 从而获得了预测蛋白质结构的强大能力 。 最终 , 只要知道蛋白质的氨基酸序列 , 就能迅速而准确地预测出它的结构 , 相当于通过精妙的算法 , 将蛋白质的一级结构和三级结构准确地联系了起来 。
AI 通过精妙的算法 , 由氨基酸序列(最左)即可预测出蛋白质结构(最右) 。 |thenewstack
在2018年的蛋白质结构预测竞赛 (CASP)中 , AlphaFold 在所有参赛团队中排名第一 , 准确地从43种蛋白质中预测出了24种蛋白质的结构 , 取得了前所未有的进步 。
到了2020年 , AlphaFold的升级版本从生物学、物理学和机器学习领域的最新进展中汲取灵感 , 升级算法 , 再次以压倒性的优异成绩夺冠 。 这一次 , AlphaFold预测的多种蛋白质结构与实验结果仅仅存在原子尺度的细微差异 , 达到了与传统的试验方法相媲美的程度 , 可以说AlphaFold基本解决了蛋白质折叠问题 。
04.
生物学家要失业了吗?并未!
AlphaFold取得里程碑性质的进展 , 让人类有望在诸多领域得到来自AI的切实助力 。 例如在医药领域 , 阿尔茨海默症、帕金森综合征、亨廷顿综合征等神经系统病变都与蛋白质的错误折叠有关 , 这直接导致蛋白质结构和功能出现异常 。 而AI的介入将让人类更有效地了解这些错误折叠背后的机理 , 从而提出更加有效的治疗方案 。

推荐阅读