关键字 |
关联规则和分类,零规则,fsa红色和先验的算法。 |
介绍 |
本文分析了两种技术搜索和我非常大的基因数据库。分类是一个机器学习的学科,是受模式认识,这是科学的一个分支。数据分类过程包括学习和分类。关联规则挖掘中关联关系或相关性的发现一组项目。 |
先验的算法 |
关联规则挖掘是一种经典的数据挖掘过程,发现相关的项集从大量的交易。先验的发现模式频率高于最小支持度阈值。因此,为了找到关联涉及罕见的事件,非常低的算法必须运行最小值的支持。先验的算法计算规则表达概率之间的关系项目频繁项集[2]。 |
FSA红色算法 |
算法用于数据简化或预处理最小化属性来进行分析。目标是让强关联规则数据挖掘技术减少了相关数据。FSA-Red几个执行的数据预处理减少技术,如属性选择,行选择和特征选择。行选择通过删除所有记录签署相关的属性需要分析。特征选择将删除所有不需要的属性,以消除非价值属性选择属性不需要被包括。 |
研究数据 |
这个数据集包含的描述定义智人occludin (OCLN),成绩单变体1,信使rna。加入NM_002538 XM_003118543 XM_936894 |
版本NM_002538.3 GI: 327478412 |
关键词。源智人(人类) |
生物智人真核生物;后生动物;脊索动物;脊椎动物门;脊椎动物门;Euteleostomi;哺乳动物;真兽亚纲;Euarchontoglires;灵长类动物; Haplorrhini; |
狭鼻类;人科;人类。参考1(基地1 - 6451)作者Al-Sadi, R。哈提卜,K。郭,S。,你们,D。,Youssef,M. and Ma,T. TITLE Occludin regulates macromolecule flux across the intestinal epithelial tight junction barrier JOURNAL Am. J. Physiol. Gastrointest. Liver Physiol. 300 (6), G1054-G1064 (2011) |
PUBMED 21415414备注GeneRIF:建议occludin的维护中扮演着关键角色紧密连接障碍通过大通道TJ通路,负责高分子的途径。 |
正常肝细胞原始数据 |
1 gcctctctcc atcagacacc ccaaggttcc atccgaagca ggcggagcac cgaacgcaccccggggtggt cagggacccc catccgtgct gccccctagg agcccgcgcc tctcctctgcgccccgcctc tcgggccgca acgtcgcgcg gttcctttaacagcgcgctg gcagggtgtgggaagcagga ccgcgtcctc ccgccccctc ccatccgagt ttcaggtgaa ttggtcaccg gggaggagg ccgacacacc acacctacac tcccgcgtcc acctctccct ccctgcttcc ctggcggag gcggcaggaa ccgagagcca ggtccagagc gccgaggagc cggtctagga gcagcagat tggtttatct tggaagctaa agggcattgc tcatcctgaa gatcagctga |
attaacttttg ccccctttca agtcaccctt cactgagttt cttcactatc tttccaaaaa g tgtaaatctt agcacaacag gctgcagctt aaagtccttt agtgactccc cgtagctcag taggatgaggt tctcatttcg gagtatttac agttcttgtc tatctctgtg gcctcgactc cgtccccactct cctccaagcc ccatttcctt gactgggcag cactccttgt tcttcctatt ccttatgctg tttcctgcct ctagccccgt gcgtttgtac ttcccactgc tggaacattc agttctctcctt tccctttccc cgctcctgat ccttcagagt ctaataccca cctctctggg aggccacatg agctcactgg acaggtgctc ctctgtgtgc aaacatcact gtgcatggct gctgttagagt acttcatgcc atgtaatttt tgccccttta ttcatctctc ccctcatttg tctggaaatcc tgtgagggca gcatctgtgt cttgtctaac ttggtatccc tgacacctaa |
方法 |
提出的方法是使用基因数据集进行挖掘。通过挖掘频繁模式,在每个节点很容易识别的缺陷发生;并且可以纠正它。摘要先天和FSA红色算法应用在数据库中使用weka比较内存效率和执行时间。搜索也是这个工具的帮助下完成的。该系统可以解决实现现有算法挖掘的效果。频繁项集非常大的DNA数据集和验证集的新方案。实际的知识提取的形式提出了易于理解的规则,而过程的细节,如时间,文件大小和记忆水平考虑,并方便地总结。该工具还允许通过各种图形表征结果显示,如条形图和线形图。这样的图形可以经常帮助总结的知识被分析通过提供一个简洁的概念化的数据审查。 |
实现 |
实现是一个舞台,这是至关重要的在设计新系统的生命周期。这是改变的过程从旧系统。提出了研究工作的关联规则挖掘在基因数据库中执行。最有效的先验的和fsa红色算法的算法是使用Matlab实现的工具。预处理只不过是数据清洗。删除不必要的信息或重新配置数据,以确保一致的格式。数据可以被修改或改变成不同的格式。基因数据索引将更容易生成候选项集。先验的算法使用索引数据生成序列集和频繁项集是确定从基因数据库。根据FSA-Red算法的灵活性选择属性,没有限制排除属性,通过意味着任何类型的属性可以被选择为基础的还原过程,即使会有属性并不是最好的比较。 This is the benefit from the reduction procedure which might result rich association patterns of the data..The Count and position of gene sequences are retrieved using Apriori algorithm. The following table shows the RBC cancer data set with count of each occurence and T replaced by U and its occurence. |
结果与讨论 |
基因序列的数量和位置使用先验的检索算法。单、双和三字符搜索先天算法使用Matlab的帮助下完成的。下面的图1显示了双重性格基因数据库中搜索。 |
以下Figure2显示肝癌细胞的单一charcater搜索相比,FSA红色算法和aprioir算法在这个图,x轴代表数据的范围和y轴表示的值。两种算法的性能显示,FSA红色算法acheives更少的内存,速度和准确度与先天算法相比. . |
下面的图3显示了FSA癌症影响肝细胞相比红色算法和先验的算法在这个图,x轴代表数据的范围和y轴表示的值。 |
第二位的4显示了基于规则的分类器对肝癌细胞与原来每个氨基酸的核苷酸位置。使用基于规则的分类器,每个nucleotode位置之间的距离估计。 |
sp精度,性能和存储位置使用先验的检索算法是图6所示。单、双和三字符搜索先天算法使用Matlab的帮助下完成的。 |
核苷酸每个节点之间的距离和每一对节点发生的比率估计使用FSA红algoithm和图7所示。 |
结论 |
该工具,提取从基因数据文件使用各种可选择的算法和标准。程序集成了多种采矿方法,允许有效提取规则,同时允许我的彻底性指定用户的自由裁量权。这个程序还允许通过各种图形表示结果显示。这样的表现常常可以帮助总结的知识被分析通过提供一个简洁的概念化的数据受到了密切关注。本文使用先验的算法和fsa红色算法和使用其他算法来改进这种方法。这是应用于生物应用程序即DNA数据集,可以在其他行业未来的工作。 |
|
数据乍一看 |
|
|
引用 |
- 关联规则挖掘在数值数据分析苏希尔•Jagtap Kodge b, G。Shinde g . N。,Devshette P. M
- M。Anandavalli,抗议;Ghose用,K。Gauthaman,¢关联规则挖掘在GeonomicsA¢,国际计算机理论与工程》杂志,没有。2010年4月2日。
- Piatetsky-Shapiro, g(1991),发现、分析和表示强烈的规则,在g . Piatetsky-Shapiro & w . j . Frawley eds,一个¢知识发现在DatabasesA¢,AAAI /麻省理工学院出版社,Cambridge, MA。
- 关联规则挖掘在数值数据分析,sudhir苏希尔•Jagtap Kodge b, G。Shinde g . N。,Devshette P. M
- 时任尼加拉瓜,罗伯托·J。,Jr .);Agrawal Rakesh;Gunopulos,迪米特里(2000)。“基于规则挖掘很大,密集的数据库”。数据挖掘和知识发现(2):217 A¢240。doi: 10.1023 /: 1009895914772。
- 韦伯,杰弗里。(2000);高效搜索关联规则,Ramakrishnan拉;和斯多夫,萨尔;eds。学报第六届ACM SIGKDD国际会议上知识发现和数据挖掘(kdd - 2000),波士顿,MA,纽约。
- http://www.b3intelligence.com/NumericalDataMinig.html
- http://en.wikipedia.org/wiki/Numerical_analysis
- http://www.saedsayad.com/zeror.html
- http://www.cogsys.wiai.unibamberg.de/teaching/ss05/ml/slides/cogsysii - 6. - pdf
- http://www.slideshare.net/totoyou/covering-rulesbased-algorithm
- M。Anandavalli,抗议;Ghose用,K。Gouthaman,¢关联规则挖掘在GenomicsA¢,国际计算机理论与工程学报,第二部,没有。4月2日,2010年。
- Arun.K。PujariA¢数据挖掘技术一个¢,私人limited.2001大学出版社(印度)。
- F。布拉兹,¢审查的关联规则的数据挖掘技术分析的基因expressionsA¢
- 道格拉斯Trewartha,¢调查数据挖掘在MATLAB¢,罗兹大学2006。
|