所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

基于规则的分类器和核苷酸序列分析在正常肝细胞和癌症肝细胞的影响

Mayilvaganan米1Rajamani R2
  1. 副教授、计算机科学部门,巴黎圣日耳曼学院的艺术与科学,哥印拜陀,TamilNadu、印度
  2. 助理教授、计算机科学部门,巴黎圣日耳曼学院的艺术与科学,哥印拜陀,TamilNadu、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

数据挖掘就是发现相关性或模式的过程在很多领域在大型关系数据库中。聚类算法用于查找组对象,对象的组相似(或相关),不同于(或无关)的对象在其他组。本文包括两个数据库,如正常肝细胞和癌症细胞的影响。每个字符变量被分配数字号码和对应的序列图中表示的一对组合。本文已经尝试分析肝癌基因数据集和正常肝细胞DNA数据参照协会和分类规则基于FSA红算法和先验的算法。给您这个算法应用于发现没有出现的基因数据集。之后,T是被美国取代比较是基于执行时间和内存效率发现频繁模式。生动地说明了提取的规则和分析结果。性能分析是基于不同的实例和没有信心DNA序列数据集。

关键字

关联规则和分类,零规则,fsa红色和先验的算法。

介绍

本文分析了两种技术搜索和我非常大的基因数据库。分类是一个机器学习的学科,是受模式认识,这是科学的一个分支。数据分类过程包括学习和分类。关联规则挖掘中关联关系或相关性的发现一组项目。

先验的算法

关联规则挖掘是一种经典的数据挖掘过程,发现相关的项集从大量的交易。先验的发现模式频率高于最小支持度阈值。因此,为了找到关联涉及罕见的事件,非常低的算法必须运行最小值的支持。先验的算法计算规则表达概率之间的关系项目频繁项集[2]。

FSA红色算法

算法用于数据简化或预处理最小化属性来进行分析。目标是让强关联规则数据挖掘技术减少了相关数据。FSA-Red几个执行的数据预处理减少技术,如属性选择,行选择和特征选择。行选择通过删除所有记录签署相关的属性需要分析。特征选择将删除所有不需要的属性,以消除非价值属性选择属性不需要被包括。

研究数据

这个数据集包含的描述定义智人occludin (OCLN),成绩单变体1,信使rna。加入NM_002538 XM_003118543 XM_936894
版本NM_002538.3 GI: 327478412
关键词。源智人(人类)
生物智人真核生物;后生动物;脊索动物;脊椎动物门;脊椎动物门;Euteleostomi;哺乳动物;真兽亚纲;Euarchontoglires;灵长类动物; Haplorrhini;
狭鼻类;人科;人类。参考1(基地1 - 6451)作者Al-Sadi, R。哈提卜,K。郭,S。,你们,D。,Youssef,M. and Ma,T. TITLE Occludin regulates macromolecule flux across the intestinal epithelial tight junction barrier JOURNAL Am. J. Physiol. Gastrointest. Liver Physiol. 300 (6), G1054-G1064 (2011)
PUBMED 21415414备注GeneRIF:建议occludin的维护中扮演着关键角色紧密连接障碍通过大通道TJ通路,负责高分子的途径。
正常肝细胞原始数据
1 gcctctctcc atcagacacc ccaaggttcc atccgaagca ggcggagcac cgaacgcaccccggggtggt cagggacccc catccgtgct gccccctagg agcccgcgcc tctcctctgcgccccgcctc tcgggccgca acgtcgcgcg gttcctttaacagcgcgctg gcagggtgtgggaagcagga ccgcgtcctc ccgccccctc ccatccgagt ttcaggtgaa ttggtcaccg gggaggagg ccgacacacc acacctacac tcccgcgtcc acctctccct ccctgcttcc ctggcggag gcggcaggaa ccgagagcca ggtccagagc gccgaggagc cggtctagga gcagcagat tggtttatct tggaagctaa agggcattgc tcatcctgaa gatcagctga
attaacttttg ccccctttca agtcaccctt cactgagttt cttcactatc tttccaaaaa g tgtaaatctt agcacaacag gctgcagctt aaagtccttt agtgactccc cgtagctcag taggatgaggt tctcatttcg gagtatttac agttcttgtc tatctctgtg gcctcgactc cgtccccactct cctccaagcc ccatttcctt gactgggcag cactccttgt tcttcctatt ccttatgctg tttcctgcct ctagccccgt gcgtttgtac ttcccactgc tggaacattc agttctctcctt tccctttccc cgctcctgat ccttcagagt ctaataccca cctctctggg aggccacatg agctcactgg acaggtgctc ctctgtgtgc aaacatcact gtgcatggct gctgttagagt acttcatgcc atgtaatttt tgccccttta ttcatctctc ccctcatttg tctggaaatcc tgtgagggca gcatctgtgt cttgtctaac ttggtatccc tgacacctaa

方法

提出的方法是使用基因数据集进行挖掘。通过挖掘频繁模式,在每个节点很容易识别的缺陷发生;并且可以纠正它。摘要先天和FSA红色算法应用在数据库中使用weka比较内存效率和执行时间。搜索也是这个工具的帮助下完成的。该系统可以解决实现现有算法挖掘的效果。频繁项集非常大的DNA数据集和验证集的新方案。实际的知识提取的形式提出了易于理解的规则,而过程的细节,如时间,文件大小和记忆水平考虑,并方便地总结。该工具还允许通过各种图形表征结果显示,如条形图和线形图。这样的图形可以经常帮助总结的知识被分析通过提供一个简洁的概念化的数据审查。

实现

实现是一个舞台,这是至关重要的在设计新系统的生命周期。这是改变的过程从旧系统。提出了研究工作的关联规则挖掘在基因数据库中执行。最有效的先验的和fsa红色算法的算法是使用Matlab实现的工具。预处理只不过是数据清洗。删除不必要的信息或重新配置数据,以确保一致的格式。数据可以被修改或改变成不同的格式。基因数据索引将更容易生成候选项集。先验的算法使用索引数据生成序列集和频繁项集是确定从基因数据库。根据FSA-Red算法的灵活性选择属性,没有限制排除属性,通过意味着任何类型的属性可以被选择为基础的还原过程,即使会有属性并不是最好的比较。 This is the benefit from the reduction procedure which might result rich association patterns of the data..The Count and position of gene sequences are retrieved using Apriori algorithm. The following table shows the RBC cancer data set with count of each occurence and T replaced by U and its occurence.

结果与讨论

基因序列的数量和位置使用先验的检索算法。单、双和三字符搜索先天算法使用Matlab的帮助下完成的。下面的图1显示了双重性格基因数据库中搜索。
以下Figure2显示肝癌细胞的单一charcater搜索相比,FSA红色算法和aprioir算法在这个图,x轴代表数据的范围和y轴表示的值。两种算法的性能显示,FSA红色算法acheives更少的内存,速度和准确度与先天算法相比. .
下面的图3显示了FSA癌症影响肝细胞相比红色算法和先验的算法在这个图,x轴代表数据的范围和y轴表示的值。
第二位的4显示了基于规则的分类器对肝癌细胞与原来每个氨基酸的核苷酸位置。使用基于规则的分类器,每个nucleotode位置之间的距离估计。
sp精度,性能和存储位置使用先验的检索算法是图6所示。单、双和三字符搜索先天算法使用Matlab的帮助下完成的。
核苷酸每个节点之间的距离和每一对节点发生的比率估计使用FSA红algoithm和图7所示。

结论

该工具,提取从基因数据文件使用各种可选择的算法和标准。程序集成了多种采矿方法,允许有效提取规则,同时允许我的彻底性指定用户的自由裁量权。这个程序还允许通过各种图形表示结果显示。这样的表现常常可以帮助总结的知识被分析通过提供一个简洁的概念化的数据受到了密切关注。本文使用先验的算法和fsa红色算法和使用其他算法来改进这种方法。这是应用于生物应用程序即DNA数据集,可以在其他行业未来的工作。

数据乍一看

图1 图2 图3
图1 图2 图3
图4 图5 图6
图4 图5 图6

引用
















全球技术峰会