所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

统计推断和重建观察表达谱的基因调控网络

尚Mahesh教授1,Kavya萨布2Neha Mangla博士3Jyothi G V4,亚斯Bhyratae5,Keerthana Muniraju6
  1. 伊势,心房理工学院,班加罗尔,印度卡纳塔克邦
  2. 伊势,心房理工学院,班加罗尔,印度卡纳塔克邦
  3. 伊势,心房理工学院,班加罗尔,印度卡纳塔克邦
  4. 伊势,心房理工学院,班加罗尔,印度卡纳塔克邦
  5. 伊势,心房理工学院,班加罗尔,印度卡纳塔克邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

在本文中,我们提出一个系统的和概念的概述的方法从观察基因表达数据推断基因调控网络。使用三种不同的推理方法即ARACNE CLR, MRNET。此外,我们生成包含基因基因的网络交互和推理方法通过计算精度进行比较

关键字

基因调控网络、统计推断、逆向工程,信息理论方法、微阵列数据,MIM

介绍

这项工作的目的是提供一个系统的概述的方法用来估计基因调控网络(入库单)大规模的表达谱。基因调控网络的推理,它有时也被称为逆向工程或重建基因调控网络是一个过程,估计直接物理即。、生化细胞的相互作用系统的概要文件。这意味着一个目标识别分子调控基因之间的交互都是出现在一个生物体建立并维护所有必需的生物功能描述某一细胞的生理状态。根据数据用于推断网络,主要是,可以来自DNA微阵列,RNA-seq,蛋白质组学或ChIP-chip实验,或组合,优势的生物学解释在这些网络依赖。对于表达数据,推断交互可能最好表明转录调节,但也可以对应于蛋白质-蛋白质之间的关系。由于这些网络的因果角色,确保有意义的生物解释,基因调控网络的全基因组推理中拥有更大的潜力提高对正常细胞生理的理解,以及复杂的病理表型。
因为这个领域目前大大扩大,这个观点是不可避免的不完整。而不是旨在覆盖尽可能多的方法,我们关注概念清晰观察表达数据和方法。这意味着,我们回顾文献统计方法从我们认为最重要的和显示他们可以分类根据假设他们对数据的动态行为,也对概念策略。除了推理方法的演示,我们也提供一个概览的全球和当地常用的性能指标来评估这些方法[8]的推理能力。
变量选择和网络推理是数据挖掘领域的子域。然而,这些领域的一些方法可以处理我)非线性和ii)大量出现在微阵列数据的变量。因此,我们需要采取更具体的技术。信息理论方法提供了一个有效的解决这两个问题。这些方法使用互信息,这是一个依赖的信息理论方法。首先,互信息是model-independent测量的信息被用于数据分析等概念定义变量相关性、冗余和交互。它被广泛用于重新定义机器学习理论的概念。其次,互信息捕捉非线性依赖,一个有趣的生物学特性,许多生物的相互作用被认为是非线性的。最后,计算互信息相当快。因此,它可以计算高次数在合理的时间内,根据数据集有大量的变量。

二世。LITRATURE调查

一个简短的文献调查已经由一些作者。在[1]中,作者提出了R / Bioconductor包minet,它提供了一组函数来推断互信息网络数据集。在[2]中,作者解释了互信息的概念,提出了推断基因调控网络的结构基因表达分析。在[3]中,作者提出了逆向工程的核心问题的遗传网络由决定的依赖关系和调节基因和本文地址之间的关系问题,从时序基因表达资料推断基因调控网络。在[4]中,作者解释了relevance-network-based方法提供了一个简单和容易解决基因之间的相互作用的理解。在[5]中,作者描述的转录调控网络是必不可少的理解和预测细胞反应在不同的发育和环境上下文。网络推理的信息理论方法已经被证明产生高质量的重建。在[6]中,作者描述了分子生物学的一个主要目的是获得知识分子组件与其他交互和如何理解基因功能的规定。开发了几个方法来推断基因从稳态数据网络。在[7],作者建议,监管网络的推理从大规模表达数据拥有更大的潜力,因为这些网络的潜在因果关系解释。

三世。数据集描述

我们使用了标准化的基因表达数据yeung分类数据集的数据集。数据集预处理去除任何缺失值和不必要的数据。它由一个共有384个基因和17个样本。基因分为5组。在本文中,我们已经在2类共107个基因和17个样本。

四、方法

R是一种广泛使用的开源语言和环境统计计算和图形。它是GNU版本的s +在统计分析已经成为一个参考[9]。R的特定力量在于写作能力包包含特定的方法,它可以与现有的通用工具,如绘图函数图形和曲线。Bioconductor是一个开源和开放开发软件项目的分析和理解基因组数据。后者主要是基于R编程语言。
在这项工作中,我们利用R工具计算推理算法和比较。中心法则是用来显示遗传信息的流动在一个生物系统。它指出,DNA复制到mRNA反过来用于生产蛋白质,网络推理问题的复杂性可以从图1中可视化。有两个主要因素导致。首先,几乎所有的组件图1所示为代表的盒子可以相互连接。这意味着,他们并不是相互排斥的,但可以组合多种多样。这个问题不同的高通量数据的集成,而且不同的数据类型,甚至方法的结合。第二,任何网络推理方法受到统计和计算技术修改的形式的变化。这可能与新开发的统计估计或优化方法或设计有效的算法。图2表示系统架构。 The preprocessed dataset is used to compute the MIM (Mutual Information Matrix). Mutual information network inference methods comprise a subcategory of network inference methods, which infer regulatory interactions between genes based on pair wise mutual information.
作为第一步,这些方法需要计算互信息矩阵(MIM),一个方阵的MIMij元素是由习之间的互信息和Xj:
MIMij =我(Xi;Xj)
习和Xj随机变量表示的基因表达水平i和j,分别。MIM然后喂三个推理算法ARACNE, CLR, MRNET。一旦我们算法计算确定其准确性通过计算每个用于比较的混淆矩阵的算法,以确定哪些基因相互作用产生最好的结果。
图1:推理方法的分类和他们依靠生物学和数据类型。
图2:数据流计算的算法

V。实验结果和讨论

我们比较上述三种推理方法的性能(ARACNE, CLR和MRNET)使用一个框架基于基因调控网络。地面真理是已知的和推断网络可以系统地评估。该框架由以下四个步骤:
1)计算MIM使用预处理数据集
2)使用MIM计算算法
3)推断网络从每个计算算法
4)评估的质量推断网络使用的准确性。
我们比较了三种算法和CLR被发现比MRNET产生更多的互动,ARACNE数据集。的准确性,CLR和MRNET显示相同值的准确性和ARACNE最少。这表明MRNET平价和CLR的性能。表1显示了不同的性能措施如准确性、卡帕、敏感性和特异性的算法进行比较。
表1:算法的性能的措施

六。结论

可用的R / Bioconductor让生物学家和生物信息学从业者一套工具来推断网络从微阵列数据集有大量(数千)的基因。三个网络推理的信息理论方法(例如CLR, ARACNE和MRNET) areimplemented。我们认为,这个工具是一个effectiveanswerto比较工具的需求增加的增长从表达谱域的转录网络推理。图3、4和5的推断网络三个算法。ARACNE 312 genegene产生交互,CLR产生了5474年和5046年MRNET生产使用的107个基因。因此,我们可以推断CLR产生交互的最多。得出监管网络的推理可能不仅有助于获得更好的理解细胞的normalphysiology,而且在阐明疾病的分子基础。
图3:ARACNE网络
图4:MRNET网络
图5:网络对于CLR

引用

  1. R / Bioconductor包推断大型转录网络使用互信息”,帕特里克·E Meyer,弗雷德里克·拉菲特和GianlucaBontempi 2008。
  2. 推断基因调控网络的连接使用信息理论标准”。赵W, Serpedin E,多尔蒂2008 ER。
  3. 推断基因调控网络不时seriesdata使用最小描述长度原则”。Wentao赵,Erchin Serpedin和爱德华·r·多尔蒂2006年。
  4. 互信息基因调控网络重建使用条件互信息“Kuo-Ching梁和王晓东。
  5. 信息理论推理的基因网络使用反向淘汰”帕特里克·e·迈耶丹尼尔•马尔巴赫Sushmita罗伊和ManolisKellis 2007。
  6. 信息理论的方法来调节基因网络的逆向工程从时间进程数据“Pietro Zoppoli SandroMorganella,米歇尔切2009。
  7. 揭示差异基因网络推理算法在网络层面的整体方法”Gokmen阿尔泰和弗兰克挥拳相向- Streib 2010。
  8. 统计推断和基因调控网络的逆向工程从观测数据”弗兰克Emmert-Streib, GalinaV表达式。Glazko GokmenAltay,
  9. 里卡多•马托斯摄影记者。
  10. 从微阵列数据信息理论变量选择和网络推理”帕特里克阿迈耶(2008)。