趣文网,分享全网好句子、好文章!

语言模型竟能追踪病毒

时间:2023-08-11 05:49:01

相关推荐

语言模型竟能追踪病毒

病毒可能比人们想象的更狡猾,它能不断伪装自己,逃避“疫苗猎人”的追捕。

一直以来,研制流感、艾滋病疫苗之所以如此困难,原因之一便是这些病毒的变异非常迅速。这使得它们可以通过一种被称为病毒逃逸的过程,避开特定疫苗产生的抗体。

美国麻省理工学院研究人员现在设计了一种计算病毒逃逸的新模型。该模型基于最初用来分析语言的模型,可以预测病毒表面蛋白的哪些部分更容易发生突变,从而使病毒能够逃逸,也可以识别出不太可能发生突变的部分,使它们成为新疫苗的靶标。

“病毒逃逸是个大问题。”麻省理工学院计算机科学与人工智能实验室教授Bonnie Berger说,“流感病毒表面蛋白和HIV(艾滋病病毒)包膜表面蛋白引发的病毒逃逸是造成目前没有通用疫苗的主要原因。这两种疾病每年都会导致数十万人死亡。”

在1月15日发表于《科学》的一项研究中,Berger及同事确定了流感、HIV和新冠病毒疫苗的可能目标。研究人员还将该模型用于研究最近在英国和南非出现的新冠病毒新变种。研究人员说,尚未经过同行评审的相关分析显示,这些病毒的基因序列应该被进一步调查,以确定它们是否有可能逃脱现有疫苗的影响。

病毒也有语言

不同类型的病毒以不同速度发生基因突变,HIV和流感是突变最快的病毒之一。

“HIV和流感病毒突变得很快,这是它们生物学复制的结果。例如,HIV和流感遗传物质的复制机制很容易出错,从而导致突变。”该研究通讯作者、麻省理工学院生物工程助理教授Bryan Bryson接受《中国科学报》采访时表示。

为了让这些突变促进病毒逃逸,病毒必须改变其表面蛋白质的形状,这样抗体就不能再与它们结合。然而,这种蛋白质不会发生使其失去功能的变化。

Berger、Bryson以及研究生Brian Hie等人,决定使用一种被称为语言模型的计算模型进行建模。这种模型来自自然语言处理(NLP)领域,最初被设计用来分析语言模式,特别是某些单词同时出现的频率,以预测哪些单词可以用来完成一个句子,比如要补全“萨莉在()中吃了鸡蛋”,NLP模型可能预测“早餐”或“午餐”。

“我们对NLP语言模型的最新进展感到兴奋,这些模型可以通过学习原始文本理解人类语言。于是,我们认为,由于病毒最丰富的数据是原始的病毒序列,我们也可以通过训练语言模型从病毒序列数据集中学习非常复杂的模式。”Bryson说。

当这种模型应用于生物信息,如基因序列时,其语法类似于确定特定序列编码的蛋白质是否具有功能,语义类似于确定蛋白质是否能够呈现新的形状,帮助它逃避抗体。因此,使病毒能够逃脱的突变必须保持序列的语法性,但同时能以一种有用的方式改变蛋白质的结构。

用序列训练模型

“病毒想要逃离人类的免疫系统,又不想因突变而死亡或无法复制,换句话说,它既想保持健康,又想充分伪装自己,以防被人体免疫系统检测到。”Hie说。

为模拟这一过程,研究人员训练了一个NLP模型分析基因序列中的模式,该模型可以预测具有新功能但仍遵循蛋白质结构生物学规则的新序列。这样建模的一个显著优点是它只需要序列信息,这比获得蛋白质结构容易得多。

此外,该模型可以在相对少量的信息上进行训练——在这项研究中,研究人员使用了60000条HIV序列、45000条流感序列和4000条冠状病毒序列。

“语言模型非常强大,因为它们可以学习这个复杂的分布结构,并从序列变化中获得一些对功能的洞见。”Hie告诉记者,“我们在每个氨基酸位置都有大量的病毒序列数据,模型通过训练数据学习氨基酸特性。”

该模型一旦经过训练,研究人员便能使用它来预测冠状病毒刺突蛋白、HIV包膜蛋白和流感血凝素(HA)蛋白的序列变化,这些蛋白或多或少可能产生逃逸突变。

“发现看似不相关的科学分支之间的联系,可能会发展出加速一个分支研究的新方法。该研究提供了一个此类联系的示例。作者发现了病毒与自然语言之间的相似之处,进而提出了一种识别突变的强大新方法,这种突变可以使病毒通过中和抗体逃脱识别。”未参与该研究的美国国家医学图书馆的Teresa M. Przytycka等人在相关评论文章中指出。

知己知彼 阻断逃逸

对于流感,该模型揭示了最不可能发生突变和产生病毒逃逸的序列是在HA蛋白的茎部。这与最近研究一致,表明针对HA茎部的抗体几乎可以提供全面的保护,以对抗任何流感毒株。

在对HIV的研究中,研究人员发现,该蛋白的V1-V2高变区域有许多可能的逃逸突变,这与之前的研究结果一致,他们还发现了逃逸概率较低的序列。

该模型对冠状病毒的分析表明,被称为S2亚基的刺突蛋白的一部分最不可能产生逃逸突变。但新冠病毒变异的速度仍是一个问题,因此目前部署的抗击新冠肺炎大流行的疫苗在多长时间内保持有效性尚不清楚。

“目前,对于新冠病毒,我们认为该模型可以迅速标记出与以前看到的病毒序列有本质区别的新序列,以便在实验室进行下一步测试。” Berger告诉《中国科学报》,“你可以想象,模型能检查每一个新序列,而改变超过一定阈值的序列就需要在实验室中展开进一步研究。”

初步证据表明,这种病毒的变异速度不像流感或HIV那么快。然而,研究人员最近发现了在新加坡、南非和马来西亚出现的新突变,他们认为应该对潜在的病毒逃逸进行调查。

研究人员认为,目前面临的问题仍然是新冠病毒的变异速度有多快。

“该病毒种类繁多,控制其复制的生物机制因人而异,所以尽管它们有共同的特征,但仍需要对每种病毒进行专门研究,以了解其突变率。”Bryson说,“我们最好的见解将来自于动物感染模型,其中完整的免疫反应是存在的,因此可以理解总的免疫压力是如何影响病毒突变率的。之后,我们需要对新冠病毒感染者的病毒进行测序,以识别这些病毒中存在的突变。”

此外,研究人员现在正与其他人合作,利用他们的模型确定癌症疫苗的可能目标,从而刺激人体自身免疫系统摧毁肿瘤。他们说,该模型还可以用来设计小分子药物,这种药物可能不会引发结核病等疾病的耐药性。(唐凤)

来源:《中国科学报》

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(2)
  1. 爬着去上学2023-12-19 13:27爬着去上学[湖北省网友]125.210.245.139
    这个技术真可以帮助我们更好地了解病毒传播规律希望能对防控疾病有帮助。
    顶0踩0
  2. 卐ǒ廣ㄓKing2023-10-15 09:38卐ǒ廣ㄓKing[江西省网友]202.150.57.143
    太厉害了现代科技真让人感到震撼!
    顶6踩0
相关阅读
探索“植物人”语言能力和意识水平 我科学家有了新进展

探索“植物人”语言能力和意识水平 我科学家有了新进展

研究团队在意识障碍患者上开展了语言加工相关神经表征的探索性研究,并将相关神经表征与机器学习方法相结合,成功实现了对患者意识状态的诊断和康复预测

2023-07-23

效仿婴儿学习语言 MIT打造了一个具有观察力的AI模型

效仿婴儿学习语言 MIT打造了一个具有观察力的AI模型

未来的AI将拥有像人一样的思想和情感,而现在的它们还处在小孩子牙牙学语的阶段,在学会了人类的语言后,才能更好地了解我们的需求并提供帮助

2023-01-28

探索多用户多任务操作系统:功能与特性解析

探索多用户多任务操作系统:功能与特性解析

vivo开发者大会正式开幕,以MORE,近你所想为主题,围绕产品、人文关怀和行业共赢等方面给用户带来了诸多新成果

2024-01-26

复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

复旦桂韬:当NLP邂逅Social Media——构建计算机与网络语言的桥梁

这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频

2023-06-01