NLP-like deep learning aided in identification and validation of thiosulfinate tolerance clusters in diverse bacteria

类NLP深度学习帮助识别和验证多种细菌中的硫代硫酸盐耐受簇

来源:July 2025 Volume 10 Issue 7 10.1128/msphere.00023-25

 

1. 摘要

植物病原细菌中的大蒜素耐受(alt)簇能赋予细菌对大蒜素等硫代硫酸盐的抗性,但由于其结构多样、序列差异大且存在"水平转移却属内垂直维持"的进化悖论,传统方法难以有效识别。本研究采用类似自然语言处理(NLP)的深度学习技术,将基因簇视为"生物语言",基于3个已验证的alt簇训练DeepBGC模型,对NCBI RefSeq数据库中238,362个细菌基因组进行大规模挖掘。通过基因共线性分析、蛋白结构预测、系统发育分析和异源表达实验,成功发现了多个传统方法无法检测到的新型alt-like簇,并验证了其硫代硫酸盐耐受功能。研究结果表明,类NLP技术能有效识别低代表性基因簇,极大扩展了我们对alt簇多样性、进化和功能的理解,为植物病害防控和微生物基因组挖掘提供了新的方法学范式。

 

2. 关键词

自然语言处理、细菌学、植物病理学、硫代硫酸盐、人工智能

 

3. 研究目的

解决传统序列比对方法难以跨属识别alt簇的技术瓶颈,开发基于类NLP深度学习的高效基因簇挖掘工具;系统调查alt簇在细菌界的分布和多样性,发现新型alt-like簇并验证其功能;解析alt簇的进化模式和分子作用机制;建立整合多维度信息的alt簇分类体系,为植物病原细菌的防控和微生物功能基因组学研究提供理论基础和技术支撑。

 

4. 研究思路

首先对已验证的3个alt簇(来自Pantoea ananatis、Burkholderia gladioli和Pseudomonas syringae)进行系统分析,明确其基因组成、序列相似性和共线性特征,揭示传统方法的局限性。然后利用DeepBGC深度学习框架,将Pfam结构域视为"单词"、基因簇视为"句子",基于这3个alt簇训练识别模型。接着用训练好的模型扫描整个RefSeq细菌基因组数据库,提取候选alt-like簇,通过MMseqs2去冗余和手动筛选得到47个代表性簇。随后从基因共线性、蛋白序列相似性、3D结构预测、系统发育关系和蛋白-配体结合亲和力等多个维度对候选簇进行全面表征。最后通过异源表达不同来源的altC/altE基因对,在缺失alt簇的P. ananatis PNA 97-1R Δalt菌株中进行硫代硫酸盐耐受性实验,验证候选簇的功能,并结合实验结果优化分类方法。

 

5. 研究亮点

首次将类NLP深度学习技术应用于硫代硫酸盐耐受基因簇的识别,突破了传统BLAST方法依赖序列相似性的局限,成功发现了多个跨属的新型alt-like簇。

仅用3个训练样本就实现了对alt簇的有效挖掘,证明了小样本下深度学习在微生物基因组挖掘中的巨大潜力,为其他低代表性基因簇的研究提供了可借鉴的方法。

系统揭示了alt簇的"高序列多样性、高结构保守性、高功能保守性"特征,发现尽管不同属的alt簇序列相似性低至18%,但核心蛋白的3D结构和硫代硫酸盐耐受功能高度保守。

提出了alt簇"古老水平转移+属内垂直分化"的进化模式,解释了其"跨属分布却属内保守"的悖论,丰富了我们对细菌基因簇进化的认识。

开发了整合Pfam结构域、基因定位和AI-Bind蛋白结合亲和力预测的多维度alt簇分类方法,能够有效区分功能性alt簇和伪alt簇,提高了识别准确性。

 

6. 可延伸的方向

扩大训练数据集,纳入更多已验证的alt簇和伪alt簇,优化DeepBGC模型的参数,提高其精确率、召回率和泛化能力。

结合转录组学、蛋白质组学和代谢组学技术,系统解析alt簇介导硫代硫酸盐耐受的分子机制,明确各基因的具体功能和调控网络。

调查alt簇在不同生态环境(如土壤、植物根际、动物肠道)中的分布和多样性,探索其在非植物病原菌中的生态功能。

开发基于alt簇核心基因的快速分子检测技术,用于葱属植物病害的早期诊断和病原菌监测。

利用合成生物学手段改造alt簇,构建高效的硫代硫酸盐降解工程菌,用于食品防腐或环境修复。

研究alt簇与细菌其他毒力因子的协同作用,阐明其在植物致病过程中的具体角色,为开发新型杀菌剂提供靶点。

探索类NLP技术在其他类型功能基因簇(如抗生素合成簇、重金属耐受簇)挖掘中的应用,拓展其在微生物学领域的适用范围。

 

7. 测量的数据及其研究意义

3个已验证alt簇的基因和蛋白序列相似性数据,数据来自表1和表2。表1显示alt基因的核苷酸序列相似性范围为21.9%-74.1%,表2显示蛋白序列相似性范围为18.1%-82.1%,其中altB最为保守(78.5%-82.1%),altI变异最大(18.1%-48.2%)。这些数据直观证明了alt簇序列的高度多样性,解释了为什么传统BLAST方法无法跨属识别alt簇,为采用深度学习方法提供了必要性依据。

 

 

DeepBGC模型的训练性能数据,包括15次重复训练的损失、准确率、精确率、召回率和AUC-ROC值。结果显示模型平均准确率达1.00,平均AUC-ROC为0.82,表明尽管训练样本极少,模型仍具有良好的区分能力和稳定性。这些数据评估了模型的可靠性,为后续大规模基因组挖掘提供了方法学验证。

RefSeq数据库挖掘结果和alt-like簇的分布数据,数据来自图2和图3。图2展示了47个代表性alt-like簇的分类情况,基于Pfam结构域的Levenshtein距离将其分为4个主要类群;图3统计了各alt-like基因的出现频率,其中altR(41次)、altC(38次)、altJ(36次)和altE(36次)出现频率最高,是alt簇的核心组成基因。这些数据全面揭示了alt簇在细菌界的广泛分布和基因组成特征,发现了许多之前未被报道的携带alt簇的细菌类群。

 

 

alt蛋白的3D结构叠加和相似性数据,数据来自图4和图5。图4比较了不同来源的altR蛋白与大肠杆菌nemR蛋白的结构,Zeal分数在0.88-0.96之间;图5比较了altA、altB、altC、altE、altI和altJ蛋白的结构,大部分Zeal分数在0.91-0.97之间。这些数据证明了alt核心蛋白的3D结构高度保守,其保守性远高于氨基酸序列,为理解alt簇的功能保守性提供了结构生物学基础。

 

 

altC/altE基因对的硫代硫酸盐耐受性验证数据,数据来自图6。图6A-C展示了三次独立实验中各菌株的生长曲线下面积(AUC),图6D是altC/altE基因的系统发育树,图6E是不同菌株生长浊度的直观对比。结果显示所有测试的14个altC/altE对都能不同程度恢复P. ananatis Δalt菌株的硫代硫酸盐耐受性,且耐受性强弱与系统发育距离有一定相关性。这些数据直接验证了DeepBGC挖掘到的alt-like簇的功能真实性,证明了深度学习方法的有效性。

 

altR蛋白与硫化合物的结合亲和力预测数据,数据来自图7。图7展示了基因共线性、蛋白序列相似性和AI-Bind结合亲和力预测的对比结果,发现结合亲和力预测能有效将altR蛋白分为与功能表型一致的类群。这些数据表明蛋白-配体结合特征可以作为alt簇分类的重要依据,为开发更精准的识别方法提供了新思路。

 

 

8. 结论

类NLP深度学习技术是识别和挖掘低代表性功能基因簇的强大工具,即使在训练样本极其有限的情况下,也能有效发现传统方法无法检测到的新型alt-like簇。alt簇在细菌界分布广泛,具有"序列高度多样、结构高度保守、功能高度保守"的显著特征,其核心基因编码的蛋白通过硫醇氧化还原机制赋予细菌硫代硫酸盐耐受性。alt簇可能起源于一次或多次古老的水平基因转移事件,随后在不同细菌属内垂直遗传并发生适应性分化。整合Pfam结构域信息、基因共线性特征和AI辅助的蛋白结合亲和力预测,能够构建更准确的alt簇分类体系,有效区分功能性alt簇和伪alt簇。本研究不仅极大扩展了我们对alt簇多样性和进化的理解,也为微生物功能基因组学研究提供了创新的方法学范式,对葱属植物病害的精准防控具有重要的理论和实践意义。

 

9. 芬兰Bioscreen仪器测量的微生物生长曲线数据的研究意义

本研究使用芬兰Bioscreen C自动微生物生长曲线分析仪进行了altC/altE基因对的硫代硫酸盐耐受性功能验证实验,该仪器在本研究中的应用具有以下关键意义:

实现高通量、自动化的定量功能验证:Bioscreen C采用100孔蜂窝板设计,可同时测定96个样品的生长曲线,本研究中同时测试了14个不同来源的altC/altE转化子、2个对照菌株和1个空白对照,每个设置至少5个技术重复,并进行了3次独立生物学重复。这种高通量能力大大提高了实验效率,使得在短时间内完成大量菌株的功能验证成为可能。

提供高精度的生长动力学数据:仪器每30分钟自动测定一次OD600值,连续监测48小时,每次测量前自动进行低强度振荡混匀。这种高时间分辨率的连续监测获得了完整的生长曲线,包括延迟期、对数生长期和稳定期的动态变化,能够全面反映细菌在硫代硫酸盐胁迫下的生长特性。

实现耐受性的精确定量比较:通过计算生长曲线下面积(AUC)作为耐受性的定量指标,能够准确区分不同altC/altE对的功能强弱。本研究发现不同来源的altC/altE对恢复硫代硫酸盐耐受性的能力存在显著差异,这种定量差异是传统平板计数法难以精确捕捉的。

保证实验结果的重复性和可比性:仪器自动控制培养温度(28℃)、振荡频率和测量时间,消除了人工操作带来的系统误差,确保所有菌株在完全相同的条件下生长。这使得不同实验批次、不同菌株之间的结果具有高度的可比性,为统计分析和结论的可靠性提供了保障。

为功能机制研究提供线索:生长曲线的动态变化还能反映alt簇在细菌不同生长阶段的作用。例如,本研究观察到部分altC/altE对主要缩短了细菌在硫代硫酸盐胁迫下的延迟期,而另一些则主要提高了对数生长期的生长速率,这些差异为后续深入解析alt簇的分子作用机制提供了重要线索。

建立标准化的功能验证方法:本研究建立的基于Bioscreen C的硫代硫酸盐耐受性测定方法具有良好的通用性和可重复性,可作为alt簇功能验证的标准方法,为后续大规模筛选和验证其他alt-like簇提供了统一的技术规范。