医学前沿
2022年06月号

基于机器学习的抗生素发现

作者:生命新知

利用微生物组数据的高通量方法扩大了对AMP的探索,可能为对抗抗生素耐药的病原体提供新的候选药物。中国科学院微生物研究所的马越等描述了一种人工智能(AI)策略来鉴别新抗生素,利用自然语言处理工具有效挖掘大型肠道微生物组数据集,搜索具有抗菌特性的肽。

抗菌药物耐药性被世界卫生组织列为人类面临的十大公共卫生威胁之一。

抗菌肽(Antimicrobial peptide, AMP)——长度通常为8~50个氨基酸的小蛋白质,能够保护人体免受病原体的侵害——是传统抗生素的公认替代品,因为它们不太可能引发耐药性;然而,只有数量有限的这类分子进入临床实践,其中数十个正在进行临床和临床前试验。

利用微生物组数据的高通量方法扩大了对AMP的探索,可能为对抗抗生素耐药的病原体提供新的候选药物。中国科学院微生物研究所的马越等描述了一种人工智能(AI)策略来鉴别新抗生素,利用自然语言处理工具有效挖掘大型肠道微生物组数据集,搜索具有抗菌特性的肽(图1)。这种方法超越了传统的试验试错,可通过计算机快速发现分子。

全世界每年有127万人死于耐药细菌感染,如果没有新的抗菌疗法,严重感染的发病率和死亡率将增加。世界卫生组织强调了五种细菌,称为ESKAPE病原体,是经常表现出多重耐药性的优先病原体。

研究人员正在使用机器学习发现新的抗生素,方法包括预测模型到生成模型。例如,生成模型已用于设计新型AMP,其在动物中具有功效,并显示出低毒性。深度学习和其他计算方法已成功地将以前未被识别的分子重新定位为具有抗生素活性,并在人体中发现了具有抗菌特性的隐性肽。最后,开发了令人振奋的比较基因组管道,以探索作为生物活性肽和微蛋白来源的人类微生物群。 

马越等搜索了大规模宏基因组数据,确定了类似已知AMP的序列。为了设计AMP识别的管道,作者结合了几种基于深度学习的自然语言处理模型(例如,递归神经网络和注意力神经网络),对其性能进行了优化。作为训练数据,作者使用了来自蛋白质序列数据库UniProt的大量非AMP数据集,增加了模型训练的数据集,同时使假阴性的可能性最小化。共搜索了4 409个合格的代表性基因组,从长度为6~50个氨基酸的表达蛋白中选择了2 349个候选AMP。接下来,马越等研究了基因表达数据、相对丰度以及与选定细菌类群的关联,从列表中删除不太可能的AMP;这一步鉴定出241个肽序列。一旦确定了这些候选肽,作者就用化学方法合成了这些肽,并在体外评估了它们的抗菌活性。

在241个肽中,马越等能够合成216个,其中181个具有抗菌活性,命中率为83.8%,优于之前的工作,其中55个合成肽中63.6%具有抗菌活性。然后,作者评估了181个肽与训练集中已知AMP序列的相似性,发现最高同源性仅为61.4%,大多数序列的同源性低于40%。该分析表明,他们发现的肽序列与传统AMP无关。

这种计算方法的不足是可能会产生偏差。例如,UniProt中存在的大量肽序列以甲硫氨酸开始,由起始密码子AUG指定,可能与生物活性无关;这可能会使训练产生偏差,因为考虑到甲硫氨酸,机器学习方法将建立具有明显(和高估)高精度的预测值。额外偏差可能进一步限制机器学习工作。然而,马越等合成并实验验证了肽的抗菌活性,表明尽管存在潜在偏差,机器学习模型仍然能够有效地发现AMP。

选择对包括ESKAPE病原体在内的耐药细菌具有最强抗菌活性的11种AMP进行深入表征。在这11个序列中,7个来自拟杆菌(Bacteroides),这是人类肠道微生物群中的一个优势属,表明该属可能是AMP的极好来源。肽c_AMP1043显示出最强的抗菌活性,对所有受试临床分离菌的最小抑制浓度小于10 μM,证明是后续研究中最令人兴奋的先导候选物。对这11种肽的作用机制研究表明,马越等开发的管道可能能够捕捉具有不同作用机制的AMP,即使这不是所用算法的输入特征。这些结果表明,使用的计算方法可以揭示数据集中有吸引力的隐藏特征。

开发新药时的一个关键要求是目标细菌物种不会对药物产生耐药性。为了评估细菌对c_AMP1043耐药性的潜在发展,作者将大肠杆菌菌株DH5α连续暴露于该肽30天,但未检测到明显的耐药性。关键是,马越等提供了体内数据,以确定其策略的治疗潜力。简而言之,作者在细胞毒性和溶血试验中显示了三种先导肽的低毒性,并在小鼠模型中验证了这些药物对肺炎克雷伯菌(Klebsiella pneumoniae)肺部感染的抗感染效力,表明肽治疗可将体内细菌负荷减少10倍以上。

总的来说,马越等提出了一种基于自然语言处理和深度学习的人工智能方法,以探索复杂的宏基因组信息,作为新型肽抗生素的来源。

参考文献:Cesar de la Fuente-Nunez. Antibiotic discovery with machine learning[J]. Nature Biotechnology,2022,40:833-837.


Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5