SboM-AG3 基因组的一般特征
基因组序列以单个重叠群形式获得,代表了 19 倍覆盖度的共识读取。基因组大小约为 158,091 bp,G+C 含量为 50.4%;后者与其宿主细菌鲍氏志贺氏菌(51 mol%)几乎相同。由于脉冲场凝胶电泳表明噬菌体基因组约为 165 kb,该噬菌体基因组是末端冗余的,具有 3.5 kb 的冗余区域。为了与沙门氏菌噬菌体 ViI 进行比较,SboM-AG3 基因组在注释前在 rIIA 同源物上游处打开。
开放阅读框(ORFs)的鉴定和分析
序列中没有通过 BLASTX 分析证明存在的移码。基因组使用 AutoFACT 进行自动分析,辅以 tRNA 分析;并通过使用 Kodon 结合每个蛋白质的 BLASTP、PFAM、TMHMM 和 Phobius 分析进行手动注释。
基因组中共鉴定出 216 个 ORFs(图 3;附加文件 1,表 S1)。共有 146,356 个核苷酸(基因组的 92%)参与编码推定蛋白质。使用了四种不同的起始密码子:ATG、GTG、CTG 和 TTG,频率分别为 95.4%、3.2%、0.9% 和 0.5%。在 2009 年初首次注释时,只有 107 个 ORFs 的产物与 NCBI 非冗余数据库中的蛋白质具有同源性。使用 CoreGenes 进行的详细比较蛋白质组学分析显示,该噬菌体与原绿球藻噬菌体 P-SSM2 共享 46 个同源物,与大肠杆菌噬菌体 T4 共享 57 个,与气单胞菌噬菌体 Aeh1 共享 60 个,有趣的是,与德尔夫特菌噬菌体共享 69 个(该噬菌体基因组大小为 8,006 bp,G+C 含量为 42.9%),这表明 SboM-AG3 是有尾噬菌体目 T4 超家族的一个外围成员。
最近的分析显示,该噬菌体编码的大多数蛋白质(179 个或 82.8%)与沙门氏菌噬菌体 ViI 显示序列相似性。另一个与 SboM-AG3 共享序列相似性的病毒是大肠杆菌 O157:H7 噬菌体 PhaxI,其在 GenBank 中由六个片段代表(HQ259285-HQ259290)。
密码子使用和 tRNAs
发现 ΦSboM-AG3 基因组包含四个 tRNA 基因,对应三种氨基酸,即丝氨酸(反密码子:TGA 和 GCT)、天冬酰胺(GTT)和酪氨酸(GTA)。虽然描述沙门氏菌噬菌体 ViI 基因组的稿件表明存在五个 tRNAs,但这些数据未包含在其 GenBank 提交中(FQ312032)。这两种病毒共享 tRNA-Asn、tRNA-Tyr 和 tRNA-Ser(GCT),但不同之处在于 ViI 额外有两个 tRNA,分别是 Met(CAT) 和 Gln(TTG) 的 tRNA,而 SboM-AG3 拥有第二个丝氨酸-tRNA。在这两种病毒中,tRNA 基因在基因组上的相对位置相同。SboM-AG3 tRNAs 的 GC 含量在 53.9% 到 56.2% 之间。将这些 tRNAs 添加到 ORFs 中,SboM-AG3 基因组的总编码容量为 146,481 bp 或 92.7%。将噬菌体的密码子使用模式与其宿主(鲍氏志贺氏菌)进行比较表明,这些 tRNA 都不太可能增强翻译。我们鉴定了六个在噬菌体基因中显著过表达的密码子(频率≥30% 且增加≥1.5 倍)(苯丙氨酸[UUC]、异亮氨酸[AUG]、脯氨酸[CCU]、赖氨酸[AAG]、天冬氨酸[GAC] 和精氨酸[CGU]),然而噬菌体并未指定相应的 tRNA。
在以下部分,我们将简要讨论一些噬菌体编码蛋白的作用。
核苷酸代谢、DNA 复制和重组
ΦSboM-AG3 基因组包含许多参与核苷酸代谢、DNA 复制和重组的基因。在前一类中,有 dNTP 二磷酸酶(orf063)、一个推定的烟酰胺磷酸核糖基转移酶(orf149)、NrdA(orf093)、NrdB(orf090)和谷氧还蛋白(orf088)同源物,以及胸苷酸合成酶(orf066)。至少鉴定出九个基因在大肠杆菌噬菌体 T4 的 DNA 复制中发挥重要作用,包括 DNA 聚合酶(orf236)、引物酶(orf102)、三个被定义为具有解旋酶活性的蛋白质(gp orf041/059/125)和 DNA 连接酶(orf045)。重组蛋白包括两个拓扑异构酶(orf014/017)、一个 T4 gp46/47 重组酶对(orf119/121)和 UvsWXY 同源物(orf168/061/170)。
裂解
在基因组中未检测到编码溶菌酶或裂解酶的基因。Holin 通常是小蛋白质,其特征在于存在两个或三个跨膜(TM)结构域。这些标准排除了基因 9.1、78、117、244 或 246,它们分别具有 65、103、54、65 和 61 个氨基酸。由于 holin 基因通常在噬菌体基因组上相邻排列,对基因 10、11、79、80、243 和 247 进行的详细 PSI-BLAST 检查未能揭示溶菌酶同源物或结构域。
转录和调控序列
在沙门氏菌噬菌体 ViI 的基因组序列中未鉴定出任何转录调控位点。基于与由 Sigma 70 识别的共识管家大肠杆菌启动子(TTGACA(N15-18)TATAAT)的序列同源性,初步鉴定了八个启动子(附加文件 2,表 S2),它们可能用于早期转录。
T4 相关噬菌体中晚期基因的转录起始涉及核心 RNA 聚合酶、噬菌体编码的 sigma 因子(gp55)、一个辅助蛋白(gp33)和滑动夹蛋白 gp45 之间的复合物,该复合物“促进转录延伸”。这适用于 SboM-AG3 的产物。SboM-AG3 编码所有三种蛋白质的同源物:gp55(Orf122)、gp33(Orf076)和 gp45(Orf165)。基于晚期启动子的序列(TATAAATA)并允许一个错配,在 SboM-AG3 的基因组中鉴定了 17 个推定的晚期启动子。在三种情况下,推定的启动子可能导致被推定为晚期产物的表达:P orf072(T4 样 gp2 DNA 末端保护蛋白上游)、P orf084(gp5 基板中心亚基)和 P orf217(gp6 基板楔形亚基)。构建了一个 WebLogo,从中得出的共识序列 TNT(N3)A(N10)C(N2)ATNAATA 被用于搜索基因组中其他潜在的晚期启动子,允许一个错配。鉴定出了三个。
发现了四十个基因间 ρ-非依赖性终止子,这种情况让人联想到大肠杆菌噬菌体 T1(附加文件 2,表 S2)。