所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

一个有效的验证方法为聚类基因表达微阵列数据接近措施

玛希玛公里1Govindaraj米2
  1. P.G.学者,CSE、旅游房车工程与技术学院,印度哥印拜陀
  2. 助理教授,CSE、旅游房车工程与技术学院,印度哥印拜陀
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

支持水平测量允许成千上万的基因微阵列技术并行的方式。聚类是一种接受第一阶段从基因表达数据披露信息。选择一个适当的距离测量(相似度或距离)有着重要意义除了选择聚类算法实现合理的聚类结果。直到今天,没有包容准则关于如何选择邻近聚类微阵列数据的措施。接近措施的选择研究的微阵列数据的聚类估计12接近的性能措施在一些数据集的时间进程和癌症实验。鉴于不同措施吊出时间进程和癌症数据评估,他们的选择应该是特定于每个场景。估计措施时间进程数据,预处理和收集从微阵列数据集文学在基准测试使用新方法,称为内在生物分离能力(IBSA)。既可以用于未来的研究来评估基因时间进程数据的新措施的有效性。

关键字

基因表达微阵列数据,间接措施,内在生物分离能力

介绍

DNA微阵列技术已成为可能同时监测成千上万个基因的表达水平在重要的生物过程和相关样本的集合。在阐明模式看不见的基因表达数据,它提供了一个很好的机会对于一个改进的功能基因组学的理解。然而,大量的基因和生物系统的复杂性大大增加理解和推断的挑战产生的大量数据,通常由数以百万计的测量。第一阶段向解决这个挑战是集群技术的使用。集群有两个主要的应用程序,这取决于类型的微阵列实验分析。首先是发现当表达的基因在时间监控感兴趣的生物过程。所谓的时间课程实验中,聚类可以帮助,例如,确定基因共享相同的监管机制或功能。第二个应用程序涉及到生物样品的分析,通常从不同类型的癌症
从距离测量的选择(相似度或距离)中利用对象对commonlythought是聚类分析中的一个基本问题。尽管大各种距离的措施delineatewithin thecluster文学,一个specificmeasureis sometimesmost接受给定物质的特点。许多作者提出了间接措施专门针对timecourse基因表达数据的聚类。事实上,regardingeighty %的基因表达时间序列有少于八个时间点和不同的实验不同的采样频率和时间分辨率;因此,考虑时间产生的时间点之间的依赖关系是至关重要的。考虑到这些方面,许多作者提出了间接措施专门针对基因表达时间进程数据的集群。四次课程具体措施摘要杰克刀相关性,利用短时间序列距离,基于局部形状相似性和YR1 YS1不同。
分离的方法称为ISA(内在能力)一直在利用之前的申请文件来判断距离的措施既包含类标签的数据集。然而ISA(内在分离能力)提供informationconcerning辨别力的距离,它是仅适用于类标签。因此,利用ISA仅限于癌症数据集,对thatclass areoffered标签。ISA willsolely计算与黄金正常分区数据集。好转质量结果,一种内在的生物分离能力(IBSA)提出了本文聚类基因表达微阵列数据。IBSA支付外部的证据从基因本体论(去)克服缺乏类标签的数据集。

相关工作

使用clusterstrategies癌症亚型的发明了一个优秀的交易在科学界的关注。虽然生物信息专家计划新clusterstrategies基因表达数据的特点,对健康professioncontains偏爱剥削clusterstrategies“经典”。没有研究到nowactivity大规模实验室variousclusterstrategiesduring这个上下文。这里giftthe主要大规模分析七完全differentclusterstrategiesand 4接近措施三十五癌症基因表达数据集的分析,披露固定混合高斯模型的结果,表现出最有效的性能而言,convalescenttruth数据集的结构。这些strategiesconjointly展出,平均tiniestdistinction particularvariety之间classeswithin thedatasets也是最好的各种集群的验证标准。class-consciousstrategies也广泛使用的卫生行业表现出一个贫穷的检索性能比oppositestrategies评估。
应对这一挑战的第一步是使用clusteringtechniques,这是至关重要的数据挖掘过程中揭示的自然结构和基础数据确定有趣的模式。聚类分析寻求给定数据集分割成团体基于指定的功能,因此数据点在一组相似多于分在不同的组。在论文[3],我们首先简要介绍微阵列技术的概念,并讨论对基因表达数据聚类的基本元素。特别是,我们将为基因表达数据聚类分析划分为三类。然后,我们提出具体挑战与每个聚类类别和相关介绍几个具有代表性的方法。我们还讨论集群验证三个方面的问题和检查各种方法来评估聚类结果的质量和可靠性。最后,我们希望的趋势本文的结论和建议。

算法

生物分离新方法称为固有能力(IBSA)提出了判断距离聚类的基因。我们正在进行评审和比较的十二个邻近基因表达数据的集群措施。六个相关系数,2“古典”的距离,和4接近措施具体计划时间进程的数据被认为是集群的因素。鉴于其变化,我们倾向于评估间接措施单独对癌症和时间进程实验。除了距离措施的比较,旁边一群时间进程基准数据替代方法(IBSA)介绍了判断距离的集群基因。两个数据集和方法可能在未来利用分析判断最近距离的措施的有效性在此明确的情况。IBSA可以用来判断距离措施集群应用程序有关的任何因素,即。时间进程,它不是局限于基因数据。
这里的主要贡献可以总结如下:比较接近集群办法基因单独时间进程数据和癌症样本,因为每个情况下具有不同的特点。接近措施评估,对癌症信息考虑八个措施。癌症样本,接近ISA措施评估关系,作为类标签是可以实现的。IBSA雇佣外部数据提取头部克服缺乏这些数据集的类标签。有关能抗噪声措施评估,考虑信息完全不同的噪音水平。
答:(设计注意事项:
吗?相关系数的措施。
吗?古典的措施。
吗?课程的具体措施。
吗?内在分离(ISA)的能力。
吗?IBSA内在生物分离能力()。
吗?绩效评估。
b算法的描述:
该方法的目的是评估数据集没有class-labels。癌症样品和样品时间进程应该单独评估。步骤1:相关系数的措施
考虑基因表达数据,2对象(基因或样品)通常被认为是类似的,如果他们表现出相似的形式(风格),而不是从他们的绝对变化值。因此,相关系数是广泛使用,等他们捕捉一种相似。
皮尔森
皮尔森相关系数(PE)允许识别分类之间的线性关系。皮尔森也敏感异常值的存在,因此制造假阳性,即。序列对,不一样的,但是收到高度相关的价值。
Goodman-kruskal
Goodman-Kruskal(门将)只需要考虑的a和b的概述与整合(S +)的数量一致,不整合(S -)和中性双序列内的部分。在一个非常和谐的结合,类似的相对顺序也适用于每一个序列,即,ai < aj和Bi < bj或ai > aj和Bi > bj。不和谐的对,逆相对顺序适用,即。,ai < aj和Bi > bj或ai > aj和Bi < bj。
肯德尔
肯德尔相关(KE)是基于利用Goodman-Kruskal类似的构建块。与古德曼Kruskal,极端的相关性值中获得完全中性的缺失。
斯皮尔曼
斯皮尔曼相关(SP)被视为一个选定的皮尔森的情况下,提供每个a和b的值替换为他们的队伍在不同序列。作为单独的序列被认为,SP比皮尔逊很多坚固的离群值。SP另外已经被用于有机知识虽然通常比皮尔逊的现象。
等级级
Rank-Magnitude相关(RM)计划作为一个平衡生活,在每一个在哪些情况下的排名也由不同的序列由实数。
加权goodman-kruskal
加权Goodman-Kruskal相关性(WGK),认为每个序列的排名和震级。
步骤2:经典的措施
我们复习序列中的四个“古典”接近arethought-about在我们分析的措施。我们倾向于预计,这些措施有O (n)时间复杂度。
余弦距离
Thetrigonometric功能相似,可能被认为是a和b之间的归一化积。余弦相似性对皮尔森说,usuallycited uncenteredtargeted相关性或角分离。三角函数措施2数据点之间的角度,参照原点。
闵可夫斯基距离
foremostfashionable距离指标之一措施2数据点之间的区别是闵可夫斯基距离度量
步骤3:时间进程的具体措施
我们审查接近措施具体预期基因聚类的时间进程实验。这些措施,我们倾向于轮廓t = (t1;。;tn)作为时间瞬间,每一个基因的功能是测量。
重叠
背后的基本计划中间呈v形弯(JK)相关性是减少单一的结果离群值的终极价值相关性通过消除一个单一组件从每个序列。如果订单不包含异常值,他们的协会价值保持稳定,否则,他们消除导致减少相关,代表序列的相关部分原因是异常值的存在。
短时间序列不同
短时间序列不同(STS)计划和措施之间的空间n -一个斜坡,化合物2基因的时间序列。2基因a和b, STS执行。更大的维度之间的插曲,它对不同的影响较小。
当地shape-based相似
基于生物基因之间的关系也可以认为技能内原生的风格和可能改变相似模式,引入了本地Shape-based相似性的概念(LSS)。LSS寻求最相似的子序列序列a和b的大小k。最小的子序列的大小是由kmin,通常设置为n -两个,让2时间即时转变。注意,尽管子序列应该有相同的大小,他们做不需要对齐,所以允许区域转移类似模式
Yr1和ys1不同
基于相关性的假设可能不包含在基因捕获所有数据时间序列,以前的工作介绍2不同混合不同类型的信息的相关值。
步骤4:内在分离能力
内在分离能力可能aanimate无论距离在准备一个位置(本身)分离对象ainformation集。远处的ISA表明无论它将单独的癌症样本虽然不是一个聚类算法的影响。给定一个数据集与o对象x1(癌症样本);。;xo,我们倾向于形成一个距离矩阵D,无论D(我;习(j) =距离;xj), 1≤我;j≤o . presumptuousthat大家一般把D的值(0;1]区间(如果他们不是,他们需要归一化),我们有一种倾向,并构建一个二元分类器分配一个对象尝试(癌症样本)对于一个给定的类按照下面的方程,无论? 5月1日是一个给定的阈值在[0;1]区间。 By Relating below equation to any or all pairs of objects from a data set with a hard and fast threshold, we have a tendency toget a foreseenresolution, primarily basedonly on object distances.
图像
提供我们addressingtaggedinformationwithin癌症样本的情况下,我们能够继续和建立一个分类器ancestorrepresented所需的分辨率。everyinformation specifiedresolutionis在金色的分区的设置,所有xi和xj由以下方程。
图像
通过设置一个阈值? 1和高than2方程应用到任何或所有对象对我们预见和所需的分辨率,各自。然而,expectedresolutionisn 'tdistinctive,完全不同的阈值是可以实现的。我们有一个倾向采取较之考虑所有的值的? 1[0,1]区间内,生成所有attainableforeseen解的集合对于一个给定的距离,即。,一个用于everycompletely differentprice ? 1
顾不上内在生物分离能力
ISA是计算数据集的一个黄金标准分区,即。、知识集分类标签是可以实现的。许多因素集群问题,时间序列数据集,没有分类标签是可以实现的。因此,我们倾向于现金提供的信息去克服标记数据的不足,设计一种替代程序来判断距离的ISA有关基因的集群。这种新生物分离过程称为内在能力(IBSA)而不是受害类别标签,我们的方法采用外部生物信息提取。IBSA自雇佣信息去评估一个特定的接近生活,它倾向于支持邻近措施与外部信息。如果用户是着迷于发现一种特殊的内部结构知识(不与),另一个方法应该选择和利用。
给定一个数据集与o对象(基因),我们倾向于建立一个距离矩阵D .专横的,每个人都D的值在[0,1]区间内,对所有对象的特点是一个等价的二元分类器。总之,对象对指派给一个类别的,如果它们之间的空间小于给定阈值φ1或能力[0,1]区间内,否则为0。这个方程应用到全部或任何对象对从一个给定的数据集硬性门槛,我们倾向于获得一个预见答案主要仅基于对象之间的距离对。为这个分类器来创建所需的答案,我们的方法的主要步骤包括在所有成对的论述生物基因信息的设置,使生物差异矩阵(B)。
考虑,许多邻近措施是用来量化组条款之间的一致性程度任何2基因注释。通过结合集之间的操作条件的异同,是潜在的住任何2基因之间的一致性程度。方法授予是不管生物相似性之间使用相同的基因。因此,我们倾向于精心选择的生物生活在整个实验装置的讨论。提供一次生物差异矩阵,它被认为是外部信息和填补留下的空隙,缺乏成熟的标签。
图像
对于一个给定的生物差异矩阵(B)值在[0,1]区间内,我们倾向于继续并形成所需的生物答案,无论φ一双可能是一个阈值在[0,1]区间内。通过应用从一个给定对象的所有或任何对知识(硬性门槛),我们倾向于获得所需的生物答案,支持外部信息提取
第六步:绩效评估
措施评估有关他们的强度噪声,考虑数据与完全不同的噪音水平。IBSA的距离度量accustomedvaluate集群的基因。ISA willsolely计算知识集的分区,即。、类标签。作为genecluster aretypicallyunavailable类标签(例如,时间序列数据),提供的信息是基因本体论(去)打标签数据的缺失。对于给定的阈值,现状阳性(TP),假阳性(FP),真正的底片(TN),假阴性(FN)面积单位由后续给出
图像
然后假阳性率由玻璃钢= FP / (FP + TN)和真阳性率由TPR = TP / (TP + FN)计算和绘制AUC(曲线下的面积)。AUC值为- 1指示距离完全分离癌症样本根据所需的解决方案。AUC值接近或小于0.5标签距离测量,无法根据分离对象所需的解决方案。

结果与讨论

癌症数据和时间课程实验的结果。总共12接近措施评估4数据集(有或没有噪音)包括一个时间进程的数据集。无花果。
下面的图1。的曲线图显示了性能曲线下的面积值与相关距离的措施。AUC值在0和1之间。自从AUC值接近最好的测量表明分离癌症样本根据期望的解决方案,结果表明,闵可夫斯基距离测量是最好的
图2显示时间进程的性能课程具体措施具体措施和四次使用中间呈v形弯,短时系列不同,当地的基于形状的相似性,Yr1and ys1相似。和图显示yr1 ys1不同的最佳措施。
上面的图5和6显示的AUC图表时间进程的具体措施及其他措施结果表明闵可夫斯基距离测量的最佳措施之间的相关性和距离。YR1和YS1不同测量发现是最好的时间进程的具体措施。

结论和未来的工作

考虑到他们的变化,间接措施为癌症和时间进程实验评估一个接一个。除了距离措施的比较,时间进程的集合基准informationat方品牌新方法(IBSA)介绍了判断距离的集群基因。IBSA beutilizedto法官接近措施关于任何geneclustering应用程序,即。,它不是局限于基因时间进程信息。癌症和时间进程实验具有相当完全differentcharacteristics thatought成considerationoncechoosing距离测量。这两个应用程序的情况,两个完全不同的邻近措施突出有前途的替代方案,即。闵可夫斯基对癌症信息和时间进程YS1实验。
的内涵,提高系统的性能和精度,我们倾向于提出一个完全独特的测量方法称为“共识函数”作为未来的工作。基于这种共识functionwe能够提高准确性和真阳性基因表达微阵列数据的集群。我们往往用混合两偶图配方(HBGF)作为共识函数。

数据乍一看

图1 图2 图3 图4
图1 图2 图3 图4

引用