病毒会“逃跑” “语言”露马脚


病毒会“逃跑” “语言”露马脚



病毒可能比人们想象得更狡猾 , 它能不断伪装自己 , 逃避“疫苗猎人”的追捕 。
一直以来 , 研制对抗流感和艾滋病病毒(HIV)等病毒的有效疫苗之所以如此困难 , 原因之一是这些病毒的变异非常迅速 。 这使得它们可以通过一种被称为病毒逃逸的过程 , 避开特定疫苗产生的抗体 。
美国麻省理工学院研究人员现在设计了一种计算病毒逃逸的新模型 。 该模型基于最初用来分析语言的模型 , 可以预测病毒表面蛋白的哪些部分更容易发生突变 , 从而使病毒能够逃逸 , 也可以识别出不太可能发生突变的部分 , 使它们成为新疫苗的良好靶标 。
“病毒逃逸是个大问题 。 ”麻省理工学院计算机科学与人工智能实验室教授Bonnie Berger说 , “流感病毒表面蛋白和HIV病毒包膜表面蛋白的病毒逃逸是造成目前没有通用疫苗的主要原因 。 这两种疾病每年都会导致数十万人死亡 。 ”
在1月15日发表在《科学》上的一项研究中 , Berger及同事确定了流感、HIV和新冠病毒疫苗的可能目标 。 研究人员还将该模型用于研究最近在英国和南非出现的新冠病毒新变种 。 研究人员说 , 尚未经过同行评审的相关分析发现 , 这些病毒的基因序列应该被进一步调查 , 以确定它们是否有可能逃脱现有疫苗的影响 。
病毒也有语言
不同类型的病毒以不同的速度发生基因突变 , HIV和流感是突变最快的病毒之一 。
“HIV和流感病毒突变得很快 , 这是它们复制生物学的结果 。 例如 , HIV和流感遗传物质复制的机制容易出错 , 从而导致突变 。 ”该研究通讯作者、麻省理工学院生物工程助理教授Bryan Bryson在接受《中国科学报》采访人员采访时表示 。
为了让这些突变促进病毒逃逸 , 它们必须帮助病毒改变其表面蛋白质的形状 , 这样抗体就不能再与它们结合 。 然而 , 这种蛋白质不会发生使其失去功能的变化 。
Berger、Bryson以及研究生Brian Hie等人 , 决定使用一种被称为语言模型的计算模型对这些标准进行建模 。 这种模型来自自然语言处理(NLP)领域 , 最初被设计用来分析语言模式 , 特别是某些单词同时出现的频率 。 然后 , 这些模型就可以预测哪些单词可以用来完成一个句子 , 比如要补全“萨莉在()中吃了鸡蛋” , NLP模型可能预测“早餐”或“午餐” 。
“我们对NLP语言模型的最新进展感到兴奋 , 这些模型可以通过训练原始文本来理解人类语言 。 于是 , 我们认为 , 由于病毒最丰富的数据只是原始的病毒序列 , 我们也可以通过训练语言模型从病毒序列数据集中学习非常复杂的模式 。 ”Bryson说 。
当这种模型应用于生物信息 , 如基因序列时 , 语法类似于确定特定序列编码的蛋白质是否具有功能的规则 , 语义意义类似于蛋白质是否能够呈现新的形状 , 帮助它逃避抗体 。 因此 , 使病毒能够逃脱的突变必须保持序列的语法性 , 但同时能以一种有用的方式改变蛋白质的结构 。
用序列训练模型
“如果病毒想要逃离人类的免疫系统 , 又不想让自己因突变而死亡或无法复制 , 换句话说 , 它既想保持健康 , 又想充分伪装自己 , 以便不会被人体免疫系统检测到 。 ”Hie说 。
为了模拟这一过程 , 研究人员训练了一个NLP模型来分析基因序列中的模式 , 该模型可以预测具有新功能但仍遵循蛋白质结构生物学规则的新序列 。 这种建模的一个显著优点是它只需要序列信息 , 这比获得蛋白质结构容易得多 。

推荐阅读