所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

蛋白质结构和功能预测使用机器学习的方法吗?回顾

Hemalatha N。1,Siddhant奈克2,Jeason Rinton沙尔丹哈3
  1. 助理教授、MCA、圣阿洛伊修斯学院(AIMIT),印度芒格洛尔
  2. 2 M Sc。(软件技术)、圣阿洛伊修斯学院(AIMIT),印度芒格洛尔
  3. 2 M Sc。(软件技术)、圣阿洛伊修斯学院(AIMIT),印度芒格洛尔
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

机器学习是一个分区ofcomputer科学,包括研究的系统,可以从数据中学习,而不是只追随明确编程指令。一些最常见的技术用于机器学习支持向量机、人工神经网络、K最近邻和决策树。机器学习技术广泛应用在生物信息学技术来解决不同类型的问题。蛋白质结构预测是使用机器学习问题,可以解决。分子是重要的在我们的细胞蛋白质。他们几乎涉及到所有的细胞功能。蛋白质进行分类的基础上发生的保守氨基酸模式的特征提取方法。后基因时代的蛋白质功能预测是一个重要的问题。实验生物学的进步使生产大量的蛋白质相互作用数据。因此,对蛋白质功能注释使用蛋白质相互作用数据一直得到广泛的研究。 When annotation and interaction information is inadequate in the networks most of the existing network based approaches do not work well. In this paper an attempt has been made to review different papers on proteins functions and structures that are predicted using the various machine learning methods.

我的介绍。

蛋白质是最重要的一类生物分子在生物。他们大多数的细胞过程和作为结构成分,催化剂、信号分子和分子机器的每一个生物系统。在几乎所有细胞功能蛋白质参与。每一个蛋白质体内具有特定的功能。一些为数不多的蛋白质参与身体的运动,而另一些则参与结构支撑。蛋白质在功能和结构不同。的一个重要目标生物信息学和理论化学是蛋白质结构预测。inbiotechnologyandmedicine非常重要。
根据结构和序列相似性蛋白质进行分类。四种不同水平的蛋白质结构是初级,二级、三级和四级结构。单个蛋白质分子可能含有一些蛋白质结构类型。蛋白质的结构决定了蛋白质的功能。蛋白质的一级结构是来自蛋白质的氨基酸序列,对蛋白质的教训形式的信息。扮演最重要的角色在determiningvarious等蛋白质亚细胞定位的特点,结构和功能。因为这个,氨基酸序列有着巨大的潜在广泛用于功能注释ofproteins。
机器学习关注预测,基于已知属性从训练数据。生物学领域的各种应用程序广泛使用的方法,是基于机器学习算法。这些方法已经被用于diversedomains基因组学、蛋白质组学和系统生物学。具体来说,supervisedmachine学习方法在很多生物信息学predictionmethods发现巨大的重要性。在本文中,我们把不同的部分我们已经解释了机器学习可以应用于蛋白质结构和功能预测。

二世。文献调查

2.1结构预测

回族et al。在他们paperhave讨论了计算预测使用支持向量机与PDZ训练领域的信息结构和肽序列[1][2][4]。他们已经提出了一个基于结构预测PDZ domain-peptide交互可以用来扫描c端蛋白质组预测PDZ域介导蛋白质-蛋白质之间的关系[3]。估计预测的普遍性,他们进行了多个交叉验证测试,并总结了性能。域结构特点是利用来自整个域的预测,其重点是核心peptide-binding站点定义的高度保守的氨基酸的位置。的一个重要技术工作的结果是使用计算生成的减少over-prediction底片和补充培训。他们表明,在当前的负交互实验数据集不足够覆盖-蛋白质组空间导致假阳性预测回报很多支安打。高交叉验证结果是通过相对应的预测和findsseveral交互PDZ介导蛋白质-蛋白质之间的关系没有以前发现的序列预测。的帮助下预测他们定义了一个功能性映射的PDZ域生物学和识别小说PDZ扶少团团员参与不同的生物过程。因此,预测将有助于分散覆盖当前的PDZ介导蛋白质相互作用网络和提供新的视角的分子机制。
Lenaet-al。在他们的论文中介绍了小说深刻接触预测机器学习架构由一个多维堆栈的学习模块[11][12]。雷竞技网页版堆栈架构组织预测,堆栈中的每个级别可以接收输入,通过时序特征向量,并改进预测由前一阶段的堆栈。他们调查DST-NN模型的学习和泛化能力,并与普通三层神经网络模型,以及二维递归神经网络模型,这是两个最广泛使用的机器学习方法联系预测[5][6][7][8]。雷竞技网页版这里,神经网络模型是完全相当于NNs DST-NN架构实现,除了时间特征向量(这是失踪的神经网络实现)。为了考虑内在不同DST-NN无与伦比的能力,神经网络,和RNN架构,他们已经完成了测试通过考虑一系列指数增加隐层大小(4、8、16、32、64、和128单位)为每个架构。拟议的架构是有点一般,它可以作为一个起点更多诡辩的方法联系预测或其他问题。雷竞技网页版例如,小学学习模块的架构是用神经网络实现的,很明显,这些也可以换成其它模型,如支持向量机。此外,他们认为是一个简单的编码广场附近的接触时间特征向量的预测更复杂的关系可以发现通过利用不同的拓扑特征向量。雷竞技网页版时使用真实的接触地图中的所有水平的目标架构,很明显,不同的目雷竞技网页版标可以在不同层次上[9]。 DST-NNs of the form NNl ijk, with three spatial and one temporal coordinate, could be applied, for instance, to problems in weather forecasting or trajectory prediction in robot movements[10].
Selbig et al。提出了一种方法,揭示了系统输出的差异不同预测方法的二次structurethat允许推导一致的共识预测[13]。他们从现有的数据建立了决策树使用机器学习技术。他们的方法对二级结构预测共识形成的共识决策树学习是基于机器学习和将被纳入工具箱对蛋白质定位系统。它依赖于各种二级结构预测方法应用到训练集与本机二级结构。交叉验证测试是通过使用CB396数据集和一组11 CASP3目标在大多数情况下,提高了预测精度。他们只有使用决策树学习系统的默认参数。通过校准这些参数学习设置学习可进一步提高预测的准确性。
周et al。Troyanskaya在他们的论文中提出了一个新的监督生成基于随机网络的方法来预测当地二级结构与深层次化表示[14]。生成随机网络是最近提出的深度学习技术在全球范围内培养深度生成模型。他们提出了监督内脏大神经的扩展,学习一个马尔可夫链样本条件分布,并应用到蛋白质结构预测。高维数据模型扩展到全尺寸,和数百个氨基酸蛋白质序列,他们引入了一个架构,它允许高效学习跨多个层的分层表示。这种架构独特关注预测结构低级标签通知表示学习的模型。它对应于每个氨基酸残基的标签二级结构状态。模型的训练和测试集独特的异源蛋白质。他们的实验确定监督生成随机网络结构预测的一种有效算法,扩展生成的随机网络的成功捕获数据中复杂的依赖关系。他们的模型是适用于低级结构化预测对本地信息敏感,同时通知高层和遥远的特性。 The limitation of their architecture is that the convolutional structure is hard-coded, thus in some cases it may not be peerless to capture the spatial organization of protein sequence, especially for structures formed by long-range interactions.
Titovet-al。在工作中提出了一种新的图形结构预测问题的模型,增量乙状结肠信念网络结构模型是一个函数的输出结构[15]。基于平均场方法派生出两个有效的模型,这在人工实验证明有效。他们证明了它们的有效性自然语言解析任务,实现先进的准确性。同时,模型是一个接近增量乙状结肠信念网络具有更好的解析精度,表明增量乙状结肠信念网络是一个适当的抽象模型的结构预测任务。精确推理和图形模型的提出类不容易处理,但是我们得到两个驯良的近似。首先,它表明,前馈神经网络可以被认为是一个简单的近似的isbn。第二,更准确,但仍易处理的近似提出了基于平均场理论。

2.2函数的预测

Qingyao et al。haveproposed一个有效的基于马尔可夫链的集体分类算法来解决缺标签问题集体分类相关蛋白质的蛋白质相互作用网络。算法主要关注如何使用标记和标记数据来加强蛋白质交互网络数据的分类性能。他们旨在建模问题利用两个不同的马尔可夫链分类器单独预测关于特征关系信息和属性关系的蛋白质数据[16]。算法结合了这两个分类器的结果计算的标签来表示一组标签的重要性的一个实例,使用ICA框架不断完善的学习模型改善蛋白质功能预测蛋白质相互作用网络的性能不足的标记数据。蛋白质相互作用数据表明ICAM所提出的方法比其他ICA-type方法给出标记的训练数据有限。这种方法可以帮助一个有价值的工具,用于研究蛋白质功能预测蛋白质相互作用网络。在未来,他们将一般半监督学习技术考虑集体在蛋白质相互作用网络数据分类。
Huanget-al。在他们的论文中提出了一个新的计分卡方法估计溶解度分数预测溶解度的二肽和氨基酸残基的蛋白质和分析物理化学性质的趋势[17]。该方法计分卡方法得分溶解度和二肽倾向可以很容易地应用到蛋白质功能预测问题,二肽成分特性起着重要的作用。计分卡方法预测溶解度溶解度得分矩阵表现良好,与现有方法相比使用互补特性thatassociate溶解度。批准的结果与文献报道显示,溶解度得分矩阵是有效的。自该计分卡生成溶解度的方法是有效的得分矩阵来预测蛋白质的溶解性,他们的未来的工作是计分卡方法适用于产生各种评分矩阵的二肽为研究蛋白质功能预测问题,氨基酸和二肽成分的特点发挥重要作用。
梁等。havefocused的问题上如何将不同的数据源集成提高预测准确性[18]。他们讨论和评估不同的集成计划在他们的论文中。pre-CAFA和中央美院结果强烈表明,集成来自不同数据源的信息可以提高蛋白质功能预测的准确性。序列相似性水平的预测,他们观察到,这是有利于考虑所有可用的带注释的蛋白质,不管他们是多么遥远进化从查询蛋白质。他们使用简单和高效的再算法,加上简单的集成预测分数从各种数据源。根据作者进一步增强,可以作为许多可用的来源包括蛋白质功能和结构信息。他们只用单一的微阵列数据,人类微阵列平台。微阵列数据和蛋白质相互作用数据信息,如染色体的一个基因,突变,各种疾病,或蛋白质结构,肯定是有价值的。
熊等。在他们的论文中提出了一种新的方法相结合蛋白质相互作用和蛋白质序列信息来提高预测性能基于集体分类[19]。他们的方法预测函数分为两个阶段:首先,原始的蛋白质相互作用网络丰富了通过添加边数推断从蛋白质序列信息。添加的边缘被称为隐式的边缘,和现有的被称为明确的边缘。第二,集体分类算法采用新的网络来预测蛋白质功能。他们的关键思想是丰富蛋白质interactioninformation PPI网络通过添加大量的计算边缘,后来提高了预测性能。他们进行了广泛的实验在两个真实的,公开的蛋白质相互作用数据集。四个现有的蛋白质功能预测方法相比,他们的方法在很多情况下表现更好,这表明添加隐式边缘确实可以提高预测的性能。实验结果证明他们的方法优于现有方法在一系列标签的情况下,尤其是在sparsely-labeled网络,现有的方法效果不佳由于蛋白质相互作用信息不足。实验结果验证该方法的鲁棒性也标记蛋白质在蛋白质相互作用网络的数量。

2.3结构和功能预测

Gultaset-al。在他们的工作报道一种新的方法,QCMF,量子信息理论的应用原则[20]。与前面的方法CMF专注于不同的氨基酸信号,同时QCMF模型相似和不同的氨基酸对信号检测的功能或结构上重要的网站。这项研究的结果是双重的。首先,使用两种人类蛋白的重要站点,即表皮生长因子受体(EGFR)和葡糖激酶(GCK),他们测试了QCMF-method。QCMF包括两个指标基于量子Jensen-Shannon散度测量序列的保护和补偿突变。他们发现QCMF达到改进性能识别必不可少的网站从多个序列比对的蛋白质明显高于马修斯的相关系数值相比以前的方法。第二,使用一个数据集153个蛋白质,他们之间的两两比较QCMF和三个传统的方法。QCMF确保可行的计算时间的算法,他们利用统一计算设备架构。这种比较研究强烈表明,QCMF补充相关突变的鉴定的常规方法多序列比对。

III.CONCLUSION

作为讨论在前面的部分中,机器学习方法被广泛用于蛋白质功能和结构预测,大大促进了巨量数据转换为有用的知识。尝试综述论文提供的巨大和everexpanding领域基于机器学习的方法在生物信息学和计算生物学领域。机器学习方法的区别在于,它们不需要显性知识的同源性为目的的功能和结构预测。

引用

  1. g . i诉诉波沙B”,训练算法最优分类器。在第五次年度计算学习理论研讨会”,匹兹堡:ACM出版社,1992年。
  2. S.-T。j . Cristianini N”,介绍支持向量机和其他基于学习的方法。纽约,”剑桥:剑桥大学出版社。
  3. a . b . a . s . b .比比k . b . e . b . s . c . y . c·p·c·l·e·a。哈伯德TJ,运用核酸Res, 2009年。
  4. 美国x x。g . d . b .回族“预测PDZ域介导蛋白质相互作用结构,“BMC生物信息学,2013。
  5. p·p·g . Baldi”的原则设计大规模递归神经网络Architectures-DAG-RNNs和蛋白质结构预测问题,“机器学习研究杂志》(2003)。
  6. o·o·a·c·r·Fariselli P。,"Progress in predicting inter-residue contacts of proteins with neural networks and correlated mutations. Proteins," 2001.
  7. m·r·b·蓬”PROFcon:小说的预测远程联系,“生物信息学,2005。雷竞技网页版
  8. g·k·k·沙克尔福德”,联系使用互信息预测和雷竞技网页版神经网络。蛋白质,2007。
  9. p . Baldi,”布尔汽车编码器和超立方体聚类复杂性,设计,编码,和加密。:“2012只。
  10. w·谢“机器学习方法在环境科学,神经网络和内核。剑桥大学出版社,纽约,美国。,2009年。
  11. n . t . Jetchev第26届年度国际会议”机器学习。,“轨迹预测:学习的情况下映射到机器人轨迹。,2009年。
  12. p·d·k . n, p·f·b·莉娜“深度时空架构和学习对于蛋白质结构预测,“先进的神经信息处理系统。,2012年。
  13. j·t·m·a。t . l . Selbig”决定基于树的蛋白质二级结构预测形成共识,“生物信息学,1999。
  14. j。o·g·t·周”,监督和卷积生成随机网络对蛋白质二级结构预测,“ArXiv预印本ArXiv, 2014。
  15. i。j . h .季托夫“增量贝叶斯网络结构预测,”24日机器学习国际会议的程序。ACM, 2007年。
  16. 问:e·a。吴“集体的蛋白质功能预测蛋白质相互作用网络。“BMC生物信息学,2014。
  17. H.-L。大肠。黄”,预测和分析蛋白质的溶解度与二肽成分使用新颖的计分卡方法。“BMC生物信息学,2012。
  18. 梁大肠。局域网,“MS-kNN:蛋白质功能预测通过集成多个数据源,“BMC生物信息学,2013。
  19. w·e·a。Xiong“集体分类与蛋白质功能预测隐式和显式边缘在蛋白质相互作用网络。“BMC生物信息学,2013。
  20. m·e·a . Gultas“量子耦合变异仪:预测蛋白质功能或结构上重要的网站使用量子詹森-香农散度和CUDA编程。“BMC生物信息学,2014。