在基因组学的先进特征选择的调查技术

矶法保罗·爱德华五世¹希尔达Hepzibah年代²

学生,计算机科学与工程系,安娜大学印度钦奈
大学Asst.教授,英语系,马杜赖,印度

文摘

直到今天,众多特征选择技术已经提出在生物信息学和提出了特定的应用程序,包括基因组学和蛋白质组学。例如,考虑基因的选择。它已经被证明是非常有用的生物标志物发现从微阵列和质谱数据。考虑的结果分析,存在许多监督特征选择算法在基因组学而只有几无监督特征选择算法。介绍了最近的一项调查功能学习技术可用于通用以及生物信息学(基因组)的特别。

关键字

基因组学、生物信息学、特征选择、蛋白质组学

介绍

一般来说,特征选择,这也是用变量等条件选择,选择属性或变量子集的选择。特征选择的过程只不过是选择相关特性的一个子集构造一个合适的模型。最关键的因素之一是特征选择过程中假设是,源数据可能包含冗余的或无关的特性。冗余特性提供完全相同的信息,已经遇到的特性。而提供没有任何有用的信息与上下文无关的特性。从特征提取特征选择是非常不同的。条款不应被混淆和使用的地方。特征提取是指从函数创建新功能的过程的原始特性。另一方面,特征选择的过程,当有大量的功能,主要功能的重要性选择并返回。就像从一组形成一个子集和返回的子集。 Feature selection techniques are often used in domains where there are many features and only few samples or data points exist. The best example of this is the use of feature selection in analysing DNA microarrays, where there are millions and millions of features, but only a few hundreds of data points or samples. Consider data analysis process. Feature selection also finds its use there. It shows which features are important for prediction and also tries to formulate which features are related with which other and also the nature of their relationship.

近年来,特征或基因选择方法在基因组学和蛋白质组学更广泛地利用为了处理大量的数据。这些数据是来自微阵列和质谱等技术。在微阵列研究,总额的一小部分基因显示相当大的数以百万计的其他基因的表达水平之间的差异同时也测量了连同一个考虑。以生物现象,有必要对这些基因的表达谱的特点。可以用于多个基因选择的情况。首先,它可以大大节省计算成本参与后续分析。,达到减少基因的数量,因此,提高了分类器的预测性能。它只利用基因歧视的信息识别的基因用于这些基因的生物学相关性的调查。

基因选择已经被证明是非常有用的在这个过程中生物标志物的发现在癌症研究。这包括寻找候选标记基因有助于癌症亚型的分类。这种方法更可靠的诊断的观点。它也为更好的治疗癌症的方法。到现在有很多技术,提出了特征选择。和一些已经成功申请多功能生物数据分析。考虑的结果分析,存在许多监督特征选择算法在基因组学而只有几无监督特征选择算法。非监督特征选择是极大地在课堂上特别有用的发现。例如,考虑集群。集群通常找到进行集群或一组相似,相似的属性芯片样品。 Clustering is performed on this micro-array samples on the on the basis of their expression profiles. But when the results are analysed, the clusters thus obtained are interfered by a huge number of irrelevant genes. Thus one can conclude that such kind of unsupervised feature selection is essential for the exploratory analysis of biological data. Now consider the scenario when class labels are available. When these are provided by external knowledge that might be be unreliable or mislabeled, overfitting can be a potential problem. This overfitting problem can be eradicated by performing feature selection in an unsupervised manner. Usually, it is considered more difficult to identify features that reveal similar sampled groups than that of finding similar patterns across all the samples.

基因组学

基因组学认为是遗传学的学科,应用DNA重组DNA测序方法,测序和生物信息学、组装、和分析基因的功能和结构。它还应该旨在描述效果和反应整个基因组的网络。现在在基因组学研究中,有机体被选中后,三个步骤。第一个是DNA的测序。这是紧随其后的是装配序列的获得,旨在创建一个表示原来的染色体。最后,DNA的注释和分析表示。

测序

在基因组测序是类似的过程像解码。一个基因组序列被认为是一个长序列的字母在一个未知的语言。考虑到自然语言的语义结构。这个句子的意思,标点、大小写,每个句子的其他组件都有自己的部分或作用导致整个句子的意义。但是基因组序列就像一个句子没有任何标点符号、大小写或格式化。它只是一个字符串或词位序列。测序揭示隐藏的有趣的数据,科学家的工作。虽然,它没有透露整个物种的数据。它就像一个拼图。科学家一般,分解序列和操作获得的片段。 Finally, they build up a new formulation of the sequence. The breaking up is called sequencing.

组装

基因组序列分解和操纵后,他们一起组装或建立形成新的序列以完全不同的形式。这个过程称为组装。有多个分散的序列读取必须重叠区域的基础上组装在一起。

注释

DNA序列组装过程仅仅是只有一个很小的值没有任何额外的分析。基因组注释是将生物信息附加到序列的过程,包括三个主要步骤:

一个¯·识别的部分基因组不编码蛋白质

一个¯·识别的元素与专门的过程被称为基因组基因预测

一个¯·将生物信息附加到这些元素。

一般特征选择方法

冗余和相关性分析方法

这篇文章[1]提出了一种新的特征选择和新技术。该方法试图避免隐式处理冗余的功能。它还包含了一个健壮的机制有效地消除冗余特征。这是通过使用一个显式地处理功能冗余机制。相关性的定义提出这些特性划分为强相关,弱相关,不相关的类。该方法在纸里的目标是有效地找到最优的子集。作者旨在实现这一目标通过一个新系列的趋于特征选择由两个步骤组成。首先,进行相关性分析,确定了相关特性通过移除不相关的子集。其次,冗余分析确定和消除冗余特性相关的,从而产生最终的子集。在其他技术方案的优势在于,它将相关性和冗余性分析。 Inability to process image data is its major disadvantage.

基于相关性的方法

功能被认为是好的如果是相关类考虑但不冗余的任何其他相关功能。如果采用两个变量之间的相关性作为测量的特性,特征选择更有效。换句话说,如果一个特性和类之间的关系是足够高的相关类。存在广泛的两种方法来衡量两个随机变量之间的相关性。一个是基于经典线性相关,另一是基于信息理论。

基因组特征选择方法

LLDA基础方法

显然,这显然是更具挑战性的识别特性,揭示潜在的集群结构样本的基因组数据,比找到那些在所有样品表现出类似的模式。为解决这一问题,提出了一个新奇的想法使用无监督特征选择技术。这种方法称为基于拉普拉斯算子的线性判别分析的递归特性消除(LLDARFE)。它通常是一个无监督特征选择过程的方法。LLDARFE利用衡量叫做拉普拉斯算子的分数也是基于图拉普拉斯算子。这种方法可以很容易地应用于一种无监督的方式。拉普拉斯算子的分数和LLDARFE之间的主要区别是,前者是单变量而后者是多元的。因此能够允许选择特性,结合其他特性导致歧视。

神经网络方法对蛋白质功能的选择

人工神经网络(ANN)是一个流行的工具分类、预测和集群。有许多网络现有的架构。人工神经网络被发现是有用的甚至在基因组分析应用程序。使用安体系结构被称为多层感知器(MLP)与反向传播。中的延时预测接近者是一个强大的功能和分类问题。

地形特征选择

救济是一种新颖的方法已被证明是非常有效的forestimating功能质量。Gilad-Bachrach等人根据formaulation救援。margin-based标准衡量是用来评估的质量特性集。算法维护数据结构称为权向量的所有特性和更新这个向量根据给定的采样点(数据点)。他们也解释了如何选择一个行列式阈值以这样一种方式,以确保低概率给定的选择无关的特性。返回的重量值允许我们确定哪些属性是相关的和它们之间设置一个订单。给定一个数据集,救援返回一个排名的功能根据体重的重要性。该算法的优势,它已经被用于蛋白质组学提供好的结果,而且它是简单和有效的。

结论

因此本文简介关于基因组学和特征选择在基因组学和蛋白质分析的需要。一些先进的方法在特征选择通用目的和基因组和生物信息特征选择的目的是把调查。

引用

Niijima, s和Okuno Y。,Laplacian Linear Discriminant Analysis Approach to Unsupervised Feature Selection, IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2009.
Rajdev女子和马努普拉塔普辛格Correlation-based属性选择使用遗传算法,计算机应用国际期刊,2010年8月。
Lei余欢刘,有效的特征选择通过相关性和冗余分析,机器学习研究学报,2004。
Lei余欢刘,高维数据的特征选择:快速Correlation-Based过滤解决方案,程序20国际会议上的机器学习(icml - 2003),华盛顿特区,2003年。
Jae-Hong加工,Byoung-Tak张,自适应神经网络聚类的酵母蛋白质交互,智能信息技术课堂讲稿在3356年计算机科学卷,2005年,页49-57。
桑蒂Phithakkitnukoon, Ram丹推断使用通话记录社会群体,互联网上有意义的系统:移动2008年计算机科学研讨会讲义5333卷,2008年,页200 - 210。
永进李和贾格迪什c .智利的选择从蛋白质相互作用网络的特性识别癌症基因,IEEE 2008。
剑,Zongjue钱Guochu寿、弘胡自动在线交通流分类方案,第五届国际会议上智能学报信息隐藏和多媒体信号处理,2009。