所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

在结核分枝杆菌全基因组筛选的细胞Wall-related模块基于大规模Co-Expression分析

Huaidong王1,Bingqiang刘2,卓远鑫1段,Zipeng1,小雨的太阳1林,燕1锋,杨2宋国青王1*李、风扇1*

1Pathogenobiology、人畜共患病的重点实验室,中国教育部基础医学院、吉林大学、长春、吉林,130021,p . r .中国

2山东大学数学学院,济南250100,p . r .中国

*通讯作者:
王主任
部门Pathogenobiology
人畜共患病的重点实验室
中国教育部
基础医学院、吉林大学
长春、吉林、130021
p . r .中国

李风扇
部门Pathogenobiology
人畜共患病的重点实验室
中国教育部
基础医学院、吉林大学
长春、吉林、130021
p . r .中国
电子邮件:qing@jlu.edu.cn

收到日期:30/11/2015;接受日期:05/08/2016;发表日期:15/08/2016



访问更多的相关文章rayapp

文摘

结核分枝杆菌细胞壁的发病机制中起着重要的作用。是不可能的一个接一个地分析细胞wall-associated基因由于缺乏功能注释。在这里,我们进行基因芯片表达数据的聚类分析,获得33 co-expression模块由三个节点重新网络的建设。总共有555个细胞wall-related基因预测模块中使用多因素logistic回归模型和主题预测分析。模块分析确定了15个基因没有注释,也与细胞壁相关。25模块包含重要的主题,和基因在10这25个模块共享一个共同的主题。方法论的方法利用这可能适用于其他关联基因的识别和描述结核分枝杆菌基因组。这项研究的结果可能会提高对结核分枝杆菌细胞壁的理解,和寻找新的抗结核药物的目标。

关键字

结核分枝杆菌细胞wallrelated模块、主题分析、集群分析

介绍

结核病是全球最严重的健康问题之一,它的发病机理仍然不清楚(1]。出现耐多药耐药(MDR),最近,极端耐药结核分枝杆菌菌株(XDR),连同结核—艾滋病毒合并感染,成为新的重大挑战了结核病的治疗和控制(2]。抗结核药物利福平、异烟肼等,在1963年被发现,从那以后,并没有任何发现的小说,有效的抗结核药物(3]。有效的治疗靶点结核病治疗的数量不足,尤其是耐多药结核病的治疗。因此,高通量筛查治疗目标是第一步,也是最重要的一步发展的新型抗结核药物和改善结核病控制(4]。

的细胞壁结核分枝杆菌主要由胶囊、霉菌酸肽聚糖、阿拉伯糖和内膜(5]。这些组件中扮演重要角色的流程维护的完整性结核分枝杆菌细胞形态、行为与化学物质侵蚀,逃避宿主免疫反应,并导致耐药性的发展,一个整体,增加的致病性结核分枝杆菌。在这个视图中,结核分枝杆菌细胞wall-related组件和生物合成途径可以作为抗结核药物的目标。传统的抗结核药物,如异烟酸酰肼(异烟肼),目标霉菌酸合成途径(6]。然而,不足或中断治疗通过收购与异烟肼导致异烟肼耐药性突变韩国仁荷,ahpC, nadh katG或KasA结核分枝杆菌临床分离株7- - - - - -9]。因此,它是明智的新屏幕结核分枝杆菌细胞wall-relevant基因。另外,组件和功能结核分枝杆菌细胞壁非常复杂,不同。传统的方法筛选结核分枝杆菌细胞壁基因是昂贵和低效,因为他们使用基因敲除的技术和RNA干扰筛选潜在的细胞壁合成目标分子基因或新陈代谢。随着实验方法的局限性,仍然没有有效的技术系统屏幕与细胞壁合成相关的分子。因此,发展的全景扫描和筛选的新方法结核分枝杆菌细胞壁合成相关基因是必要的。由于上述原因,在我们的研究中,我们检索所有出版的基因微阵列数据结核分枝杆菌H37Rv, co-regulatory网络的建立结核分枝杆菌与细胞壁合成相关的基因,未知的基因和其他基因通过集成和聚类(10]。模块分析和高通量的注释结核分枝杆菌与细胞壁相关的基因提供了一种建立在分子理论基础上的研究和开发新型高效、敏感的抗结核药物和更少的有害影响。

结果与讨论

细胞wall-related模块结核分枝杆菌

微阵列数据结核分枝杆菌H37Rv下载从NCBI数据库(2013年5月),总计2863 43系列的微阵列。这些微阵列与DNA甲基化(n = 15),药物作用在肺结核(n = 1076),增长和发展条件结核分枝杆菌(n = 758)、感染(n = 910),基因突变(n = 78)和调节因素(n = 21) (表S1)。总共727个基因注释的基因本体数据库(www.geneontology.org)是利用“种子”基因,通过分层聚类分析聚类处理,k - means聚类和综合聚类(表1)。基于层次聚类的结果,每个模块包含大量的基因,和最大的模块包含了342个基因。这种方法减少了基因功能的歧视,尽管层次聚类显示基因之间的相互作用(11]。相反,基于k - means聚类,与细胞壁相关的基因在201年被分散的模块。这个方法有更高的歧视,但不太清楚关于基因之间的相互作用(12]。考虑到这两个方法的结果,综合聚类进行了基于k - means聚类和层次聚类在材料与方法(详细)。使用这个集成聚类分析,我们确定了163模块,所有已知的细胞wall-associated基因分配。统计分析表明,33 163模块与细胞壁合成密切相关,含有共555个基因。这些模块的相关计算皮尔逊相关系数,与Cytoscape软件和集成聚类结果可视化3.0.2版本。去包含了分析的结果表明这些基因与多个生物过程显著相关,如发病机理和对刺激的反应(图1),这与细胞壁的功能是一致的结核分枝杆菌发病机理。这些结果显示更好的歧视的综合聚类分析以来最多49基因被包含在一个模块中,最多16与细胞壁相关的基因。

的模块总数 不。模块包含细胞wall-associated基因 最大的没有。的基因在一个模块中 显著相关模块 最大的没有。细胞wall-associated基因的一个模块
k - means聚类 308年 201年 54 24 19
层序聚类 308年 131年 342年 29日 70年
集成的集群 163年 163年 49 33 16

表1。聚类分析的结核分枝杆菌H37Rv基因表达

microbiology-and-biotechnology-cell-wall-related-modules

图1:在结核分枝杆菌细胞wall-related模块。

多因素logistic回归分析细胞壁相关的模块

用多因素logistic回归分析观察和几个因素之间的相关性由于多基因的摘要结核分枝杆菌细胞壁的功能(13]。每个因素是评估通过多因素线性回归方程(14]。之后,我们分析的意义GO-results使用多因素logistic回归分析(图2),并构建了一个预测模型在材料与方法(详细)。

microbiology-and-biotechnology-significant-items

图2:重大项目(基因)与细胞壁相关。

我们随机选择了126个基因的727个已知细胞wall-associated基因,和1703个已知基因的128个基因与细胞壁执行验证。我们预测模型确定了125 126细胞wall-associated基因的准确性99.2%,而122年的128 non-cell-wall-associated基因正确决定,是约95.3%的准确性。我们利用这个预测模型来识别基因在上述33细胞wall-associated模块;120年197年的带注释的基因被发现与细胞壁相关(表S2)。

主题分析的细胞wall-related模块

33模块与细胞壁受到使用BOBRO主题分析软件(15]。因此,25个模块被发现含有重要的主题,而基因10这25个模块共享一个共同的主题(图3)。此外,这些图案是位于几个网站,和主题在操纵子的数量是不同的,这是符合主题的分布的一般规律。

microbiology-and-biotechnology-landscape-of-motifs

图3:景观主题的十细胞wall-related模块。

根据主题的结果预测,15个基因没有注释10与细胞壁相关模块。特别是5模块包括三个细胞wall-associated基因(Rv2005c, Rv3132c Rv3133c)和一个未知的基因(Rv0082)。使用DOOR2 (http://csbl.bmb.uga.edu/DOOR/),我们发现模块5中的四种基因是由三个操纵子(NO.7810, NO.8253 NO.8521),有一个共同的主题CGGCGTCG序列。这揭示了Rc0082和细胞壁的功能之间的关系。此外,CAAT-box位于70 ~ 100个基点,表明上游主题预测的准确性。细胞wall-related基因,Rv1440和Rv0702模块13也确定为细胞wall-associated基因通过模型分析。这两个基因共同与其他细胞转录因子wallassociated基因模块13。因此,我们假设Rv1440和Rv0702细胞壁功能密切相关。是非凡的,Rv0702 Rv0702 ~ Rv0710基因集群的一部分,其表达与核糖体蛋白质我们显示通过使用KEGG通路分析工具(http://www.genome.jp/kegg/) (图4)。

microbiology-and-biotechnology-ribosome-subunit-proteins

图4:核糖体亚基蛋白的示意图。

先前的研究表明,基因参与核糖体合成的蛋白质也参与细胞壁的合成16),而函数的限制与细胞壁合成相关的基因可以改变核糖体的结构(17]。因此,与细胞壁合成相关的基因在核糖体合成也扮演着重要的角色。除了上述发现,基因,Rv0702, Rv0706, Rv0707, Rv0709,模块13不仅在接近完成,但也共享同一操纵子,7948号。其他基因受操纵子7948号包含33个模块,包括Rv0703 Rv0704, Rv0705 Rv0708, Rv0710。此外,它是Rv0706和Rv0707与验证结核分枝杆菌细胞壁。与原核基因表达的特点,我们认为,7948号模块由操纵子基因可能是相关的结核分枝杆菌细胞壁。

材料和方法

数据的收集和挖掘

为应变H37Rv的基因微阵列数据结核分枝杆菌从NCBI下载(www.ncbi.nlm.nih.gov / gds)。选择后,2710年H37Rv 43系列的微阵列被保留。由于不同的几个来自不同公司的微阵列探针数量,我们统一显示在不同的微阵列的基因结核分枝杆菌基因KEGG数据库;2013年发布的数量和名称丢失的物品被表示为NA。我们进一步标准化的微阵列数据通过min-max过程如下:5%的最大和最小的数据在每一个芯片有5%相同的最大值或最小值,分别去除极端值的影响。值范围从1(最低)到100 (max)。总共有727结核分枝杆菌基因选择通过去分析。

聚类分析

一个3994×2710矩阵建立了使用标准化的微阵列数据。矩阵的行代表每个基因的表达在2710的情况下,和列代表每个条件为每一个基因的表达。聚类分析是使用Matlab软件的生物信息学工具执行。在层次聚类,我们使用了斯皮尔曼函数来计算相关。完整的函数是最好的计算集群内联系。最后,相关函数是用来计算k - means聚类的相关性。

建设co-expression网络和predicitive模型

每一个基因在同一模块有一定的相关性。显示的相关性,我们计算皮尔逊相关系数为每一对基因在每个模块。积极co-expression是热阻大于0.90,而负面co-expression被一个热阻表示小于-0.90 (Usadel等)。co-expression网络建成使用Cytoscape软件3.0.2版本。

多因素logistic回归分析

非常重要的细胞wall-associated项(P < 0.01)被选中的数据库,以及多因素logistic回归分析模型构建使用这些物品作为因变量。验证多因素logistic回归模型的敏感性和特异性,126个基因中随机选择727细胞wall-associated基因和128个基因的1703个基因与细胞壁无关。我们标志着项目,因变量的注释,与1。然后,通过逻辑回归理论,基因并不相关结核分枝杆菌细胞壁如果所有的结果是0。这个模型被用来预测细胞wall-associated 33中的基因模块。

主题分析

总共33与细胞壁相关模块进行了分析使用BOBRO软件(18]。BOBRO是准确的主题预测软件专注于原核基因组的特点,使用主题关闭和图论的算法。它是基于假设内部基因可能是由相同的转录因子和原核监管区域(19]。上游300 - bp DNA序列被选为监管区域,与保守的网站搜索的监管区域,作为候选人管理主题。的重大主题选择利用转录调节图案序列的特点。

统计分析

使用超几何分布的意义进行分析,假定值小于0.01被认为是具有统计学意义。相关使用皮尔逊相关系数计算,和卡方检验被用于分析三个集群之间的差异。

确认

这项工作是由中国国家自然科学基金(61303084和61303084),专门研究基金会对中国高等教育的博士项目(20110061120093)、中国博士后科学基金会(20110491311和2012年t50285,吉林省省级卫生部门的基础(2011 z049),吉林省科学技术厅的基础(20130522013 jh和20140414048 gh)和吉林大学白求恩项目(2012219)。我们也感谢Medjaden生物科学有限公司编辑和校对这个手稿。

引用