结果


比较遗传命中点和差异表达基因

我们分析了已发表的179种酵母扰动的mRNA谱和遗传命中点。扰动包括影响多种细胞过程的化学和遗传损伤。三十个遗传筛选是完整的,通常识别超过100个遗传命中点。在几乎所有情况下,重叠都很小且统计不显著。


响应调控因子将通过调控通路与差异表达基因(此类通路的输出)连接,via实验数据中缺失的响应组分。

图1 遗传学与转录组数据间的调控关系。细胞响应通过通用信号通路呈现,包括受体结合、转录因子(TF)核转位及基因表达。如图所示,遗传筛选和mRNA谱分析仅能识别部分分子组分,且常无法识别相同基因。我们发现遗传筛选所识别基因(蓝色标注)的蛋白产物多为具有调控功能的分子,因此推测它们可能直接或间接参与调控观察到的基因表达变化(洋红色标注)。ResponseNet系统能识别潜在调控通路,并预测这些通路的组成蛋白——即使这些蛋白未被任何筛选方法识别(红色标注)。

识别响应网络的ResponseNet算法


我们设计了ResponseNet算法来识别连接遗传命中点和差异表达基因的分子相互作用路径,包括否则隐藏的响应组分。酿酒酵母为这种分析提供了一个强大的模型系统,因为现在有广泛的分子相互作用数据可用。我们组装了一个酵母相互作用组的整合网络模型,包含通过各种方法检测的蛋白质-蛋白质相互作用、代谢关系和蛋白质-DNA相互作用。差异表达基因来自所有扰动,网络关联5,622个相互作用蛋白质和5,510个受调控基因(由网络节点表示),via 57,955个分子相互作用(由网络边表示)。

图2 连接遗传学与转录组数据的互作子网络。(a)通过三条或更少边长的路径连接STE5缺失株遗传与转录数据形成的网络,共包含193个节点和778条边。(b)ResponseNet构建的网络通过23个中介节点和96条边连接STE5缺失株的遗传与转录数据。经ResponseNet算法确定的高权重节点以深蓝色显示,包括信息素响应通路的核心组分。Ste5蛋白本身(红色圆圈标记)在预测蛋白排名中位列第九。(c)ResponseNet将遗传筛选命中基因4,20与DNA损伤剂甲磺酸甲酯(MMS)处理的酵母中鉴定出的DNA损伤特征基因21相连接时生成网络的高权重部分。ResponseNet预测的最高排名中介节点包含DNA损伤响应通路的核心组分。完整网络见在线补充图4。每个节点代表蛋白质或基因,边代表蛋白质-蛋白质相互作用、代谢相互作用及蛋白质- DNA相互作用。边的颜色深度随其承载的信息流强度增加。差异表达基因后缀标注g+表示上调,g-表示下调。网络可视化通过Cytoscape实现。

我们使用基因本体富集分析检查每种检测是否偏向细胞响应的不同方面。所有179个遗传筛选的合并遗传命中点高度富集几个注释,其中最常见的是生物调控(23.3%),包括转录(14%)和信号转导(6.3%)。相反,所有扰动的差异表达基因主要富集各种代谢过程(例如,有机酸代谢过程7.1%)和氧化还原酶活性(7.2%)。我们观察到相同的富集趋势,当仅关注30个有完整数据的扰动时,无论是单独分析还是合并分析。因此,我们发现遗传检测倾向于探测细胞响应的调控,而mRNA分析检测倾向于探测细胞响应的代谢方面。


遗传命中点和差异表达基因之间注释的差异意味着每个基因集单独通常提供细胞响应的有限和有偏差视图。这一假设在通过更经典方法充分研究的通路中得到证实。例如,在酵母DNA损伤响应通路中,遗传筛选检测到感知DNA损伤的蛋白质(如Mec3、Ddc1、Rad17和Rad24),而mRNA分析检测到修复酶如Rnr4。然而,通过多年深入研究发现的核心组分,如信号转导器Mec1和Rad53以及转录因子Rfx1,仍未被任何高通量检测检测到。


为了充分利用高通量方法应用于新问题和未充分探索的生物过程的益处,必须找到连接这些数据并获得细胞响应调控真实图景的新途径。从如上述DNA损伤响应等特征化通路判断,我们预期一些遗传命中点(富集响应调控因子)将通过调控通路与差异表达基因连接,via实验数据中缺失的响应组分。


我们设计的相互作用组表示有两个重要特征,便于识别与转录变化相关的通路。首先,我们通过将差异表达基因及其蛋白质产物表示为独立的基因和蛋白质节点来突出蛋白质的转录调控作用。蛋白质和基因节点之间的唯一连接是通过代表观察到的转录调控因子与其靶基因之间蛋白质-DNA相互作用的边。两个蛋白质节点之间的边代表其他相互作用类型。因此,连接遗传命中点到差异表达基因的通路必须通过转录调控因子。其次,因为相互作用可靠性不同,每条边被赋予一个权重,代表连接节点在响应通路中相互作用的概率。概率使用贝叶斯方法计算,考虑支持相互作用的实验证据,并偏好作用于共同细胞响应通路中蛋白质之间的相互作用。


由于边数量巨大,搜索所有连接遗传命中点到差异表达基因的相互作用路径通常导致非常难以解释的“毛球”网络。搜索相互作用组中高概率路径的开创性方法必须将输出路径长度限制为三条边以解决计算复杂度问题。我们旨在寻求一个解决方案,能够(i)选择最可能调控差异表达基因的遗传命中点子集,而不先验限制于已知调控基因,(ii)识别和排名可能属于响应通路但未被高通量方法检测到的中间蛋白质,以及(iii)偏好位于连接遗传命中点到差异表达基因的高概率路径上的蛋白质,而不对网络拓扑施加约束。


这些要求通过“流算法”满足,这是一种先前用于分析已知信号或代谢通路的计算方法。基本上,流从源节点通过图边流向汇节点;边与限制流的容量和成本相关联。为了识别响应通路,我们要求流从遗传命中点通过相互作用组边传递到差异表达基因。然后我们将目标表述为最小成本流优化问题:成本定义为边概率的负对数。因此,最小化成本偏好高概率路径。


优化问题的解决方案是一个相对稀疏的网络,通过已知相互作用和中间蛋白质连接许多遗传命中点到许多差异表达基因。尽管这些中间蛋白质未被高通量遗传分析或mRNA分析检测到,但它们被算法预测为参与响应。解决方案中的所有蛋白质通过流经它们的量排名。流经蛋白质的流越多,它在连接输入集中的重要性越高。


ResponseNet算法的验证


为了确定ResponseNet是否提供有效的生物学见解,我们使用它分析来自充分研究通路扰动的数据。例如,我们使用ResponseNet连接与Ste5相关的遗传命中点(来自酿酒酵母基因组数据库)和从缺乏Ste5的菌株收集的差异表达基因,Ste5是一种协调信息素激活的MAP激酶级联的支架蛋白。ResponseNet选择的节点高度富集于信息素响应通路中功能的蛋白质,从而揭示了受扰动的生物过程。高度排名的中间蛋白质包括信息素响应的关键调控因子,包括扰动源Ste5。


ResponseNet在分析DNA损伤细胞响应数据时也表现良好。ResponseNet发现的节点高度富集于对DNA损伤刺激的响应和DNA修复。网络的高度排名部分包含核心通路蛋白质,这些蛋白质通过多年深入研究发现但未被高通量特异性筛选检测到,包括信号转导器(Mec1、Rad53)、RFC复合物成员(Rfc2、Rfc3、Rfc4、Rfc5)和转录调控因子Rfx1。ResponseNet在特征较差通路数据上性能的统计评估在补充说明中描述。

映射对α-突触核蛋白毒性的细胞响应


在建立我们的方法揭示otherwise disparate高通量数据集之间连接的有效性后,我们应用ResponseNet研究与α-突触核蛋白(α-syn)相关的细胞毒性。α-Syn是一种小型脂质结合蛋白,未结合脂质时天然未折叠,易于形成毒性寡聚体。它已涉及几种神经退行性疾病,特别是帕金森病(PD):它是Lewy体的主要组分,α-syn的位点重复或三倍导致家族性PD形式,且α-syn表达增加在几种动物模型中导致神经退行性变。尽管付出巨大努力,α-syn导致细胞死亡的细胞通路刚刚开始出现。


酵母酿酒酵母提供了一个研究α-syn毒性resulting from其内在物理性质的强大系统。人类α-syn在酵母中表达产生剂量依赖性缺陷,这些缺陷也在哺乳动物系统中发现,包括胞质脂滴积累、活性氧物种生产和泛素-蛋白酶体系统损伤。最初筛选过表达时改变α-syn毒性的酵母基因识别了涉及ER到高尔基体囊泡运输的基因,并导致观察that x-syn blocks ER-to-Golgi vesicle trafficking。

图3 酵母中α-突触核蛋白表达引发的亚硝化应激反应。(a) 包含Fzf1及其差异表达靶基因的预测子网络,图示呈现方式与图2相似。(b) 对对照菌株(空载体)、表达单拷贝α-突触核蛋白的无毒株(NoTox)以及表达多拷贝α-突触核蛋白的高毒株(HiTox)进行S-亚硝基半胱氨酸免疫印迹分析,结果显示随着α-突触核蛋白表达水平的升高,S-亚硝基化蛋白的数量相应增加。

我们现在报告筛选5,500个过表达酵母菌株的结果,thereby覆盖85%的酵母蛋白质组。我们识别了55个α-syn毒性抑制因子和22个增强因子,许多具有清晰的人类直系同源物,包括人类PD基因ATP13A2(也称为PARK9)的同源物。如伴随文章所示,PARK9和其他八个具有不同功能的遗传修饰因子的人类直系同源物(Ypt1、Hrd1、Ubp3、Pde2、Cdc5、Yck3、Sit4和Pmr1)在神经元模型中有效,验证酵母模型对神经元中α-syn毒性的意义。出现的主要基因类别包括囊泡运输基因、激酶和磷酸酶、泛素相关蛋白质、转录调控因子、锰转运蛋白和海藻糖生物合成基因。值得注意的是,海藻糖最近被显示促进错误折叠突变体α-syn的清除,且锰暴露与帕金森样症状相关,尽管具有distinct underlying病理学。筛选识别的基因指出α-syn表达与先前与α-syn毒性相关的毒性之间的因果关系。


酵母模型中α-syn毒性的转录谱在单独的mRNA分析实验中确定。差异表达基因显著包括具有氧化还原酶活性的基因。下调基因包括核糖体基因,如通常在应激下观察到的。更具体地针对α-syn毒性,下调基因显著富集编码定位于线粒体的蛋白质的基因。


遗传和mRNA数据例证了当前方法的威力和局限性。尽管它们揭示了α-syn改变的广泛细胞功能,但识别基因在细胞响应中的精确作用不清楚。例如,我们检查了泛素相关遗传命中点是否影响α-syn降解。然而,在过表达这些泛素相关基因的菌株中,我们未检测到稳态α-syn蛋白质浓度的变化。与我们上述分析一样,遗传命中点和差异表达基因之间的重叠很小。


应用ResponseNet到这些disparate数据集提供了更连贯的细胞响应视图。resulting网络为大部分数据提供了背景:34个(44%)遗传命中点和166个(27%)差异表达基因通过106个中间蛋白质相互连接。这些包括三分之二的蛋白激酶、磷酸酶和泛素相关遗传命中点,阐明了它们在α-syn响应中的复杂作用。


ResponseNet识别的主要细胞通路包括泛素依赖性蛋白质降解、细胞周期调控和囊泡运输通路,所有这些先前都与PD相关。四个例子说明ResponseNet澄清与PD相关的α-syn响应方面并揭示与α-syn关系完全未知的others的能力。



相关新闻推荐

1、微塑料与致病菌、细菌迁徙、耐药性的关系

2、测定代表性排放路径等级下噬藻体生长曲线、感染力指标——讨论、结论

3、乳酸乳球菌的包埋体系LL@Fe-TA@mGN 生长曲线测定及胃肠道抗性与体内滞留能力(二)

4、人参外泌体改变巨噬细胞极化状态,抑制非小细胞肺癌细胞的生长的分子机制(三)

5、植物根系及其分泌物对微生物生长及活性的影响