所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

大数据分析使用元机器学习

一代诗人Suvalka1,家门口kandelwal,2辛格Sidharth西索迪亚3
  1. M。科技部门的CSE,拉贾斯坦邦纺织技术大学,哥打,拉贾斯坦邦,印度
  2. 副教授,拉贾斯坦邦纺织技术大学、哥打印度拉贾斯坦邦
  3. 太平洋大学助理教授,CSE的部门,坑,拉贾斯坦邦,印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术

文摘

随着“大数据”更大的速度快速,机器学习(机器学习)技术来自动数据处理和分析中发挥至关重要的作用在广泛的应用领域。然而,缺乏明确的值在选择机器学习算法适用于一个给定的问题仍然是一个重大的挑战。今天这个选择主要取决于经验规则,如训练数据的大小,数量的不同的标签,需要可判断的决策边界和实时内存约束。通常也遵循现实的因素,如现成的代码和舒适度的程序员,和经验坚定的参数精细调谐通过反复实验。我们建议奠定基础的领域无关的机器学习技术的下一代能够总结“先验”机器学习成功跨领域的知识,在分析框架。我们的目标是改变困难的炼金术参与使用机器学习技术需要花费数年才能掌握到一个简单的技巧,很容易适应跨领域的从业者。我们希望把这种科学作为“Meta -机器学习(1)学习。

I.INTRODUCTION

考虑到巨大的数据爆炸,很大程度上是由于互联网的广泛性,有迫切需要自动化大规模数据分析。大数据分析涉及处理异构数据从各种分布式数据源产生完整的数据集[1]。大数据技术描述的新一代技术和架构,设计经济组织可以提取值非常大量的各种各样的数据通过启用高速捕捉、发现、和/或分析。[2]机器学习的发展到目前为止,解决这个需要通过开发高效的统计技术,从数据中学习。这些技术包括监督学习和无监督学习的设计来解决任务数据分类和聚类等,在不同的领域。鉴于其广泛的应用程序,这些机器学习技术在计算吸引广泛的观众。计算机安全研究人员使用它们来检测异常行为在流数据。
在绿色计算和智能能源、机器学习技术用于能源使用模式和匹配他们学习的实时响应的需求。计算生物学家正在使用时间序列数据的机器学习模型来解开人类基因组的奥秘。复杂的图形模型正被语言学家发现语法模式以书面语言和文字。甚至在计算机科学,内核进程和贝叶斯预测辅助财务分析师盈利自营交易策略,和天文学家集群星星。大多数这些应用程序的信任在多年的手工发展之间的知识转移,和一些实证模型细化,使机器学习技术在任何特定领域工作。
缺乏可伸缩性的学科,需要手工知识和技能转移,繁重的微调“魔法”参数代表了机器学习的主要问题从实现其全部即将到来。我们假设形式化和解决这些问题将导致前所未有的部署的机器学习技术在更多样的领域比之前。车间计划的目标是形式化的发展Meta-Machine学习框架,它可以是一个“即插即用”的工具的从业者在范围广泛的学科和应用程序。
图像

二世。实现大数据的机器学习

“机器学习”一般遵循同样的原则作为人类学习,但通常和显式地在一个特定的问题领域和基本数学严密性很少出现在人类学习的画面我们[3]。今天机器学习社区重点是找到最好的模型的数据分析任务分类和聚类等。应用约束是理解和采用基于试错的方法找到合适的数据模型的任务。细化或调整现有的机器学习技术基于域的需求。机器学习领域非常丰富多样,但从大量的文献,我们发现了两类技术,特别适合大规模机器学习。第一个是随机梯度下降法,代表在线学习者,可以很容易地扩展到大型数据集。第二个是整体的方法,它允许我们在一个近高度平行并行化训练方式,然而保持高水平的有效性。在机器学习文学,都是众所周知的,他们联合起来,组成一个强大的组合。这些技术占领我们的实现努力的焦点。[4]
“机器学习”一般遵循同样的原则作为人类学习,但通常和显式地在一个特定的问题领域和基本数学严密性很少出现在我们人类学习的画面。[5]例如,让我们考虑智能能源领域。这份工作是找出能源使用的模式和模型有效地提供实时响应系统的需求。从业者控任务将会了解工作的一个隐藏的马尔可夫模型(HMM)和执行几个实验来优化它的特定需求。有许多问题“特别的”机器学习应用程序:(i)并不能保证最好的结果,因为嗯的选择(或其他技术,如神经网络)取决于医生的理解任务;(2)它需要她熟悉机器学习技术和执行几个实验;和(3)从实验中获得的见解不能有效地转移到其他社区受益。我们想象一个自动化的数据处理框架,以域数据和最终目标作为输入和抽象的模型选择和适应任务执行者。这将取代直到那时主观和手动流程和原则方法,概括了大尺度,不同的数据集。这个框架的设计是一个在机器学习区,可以利用新的不同的学习技术的进步,活跃,结构和计算学习理论。
我们打算邀请机器学习研究者和实践者头脑风暴在各种想法,可以实现预想元机器学习框架。一个想法可以探索是主要的大规模数据流之间的映射和学习算法。不同的学习方法,良好的行为的条件是预期成果对于一个给定的输入。歧视的分类器支持向量机等分类准确、时序序列线性可分的数据集可以被一个马尔可夫链嗯准确建模。这些拇指规则模型混合泳依赖偏差数据的属性。我们认为偏见之间的关系的数据和模型相对未知的,尽管一些功能结果在计算学习理论。另一个可能的方法,可以在车间讨论研究的跨学科实践探索数据模型的关系。同样的问题一直在研究生命科学,疾病模式建模的形式通过一组观测传感器读数。协会之间存在什么疾病和注释和如何自动推断出这种关系给大量的数据?经济学家也有各自的模型指标形式的通货膨胀率和股票价格作为变量来定义经济的健康。 The bond between thousands of variables and the practice of choosing a subset of these for consideration is an art. It needs to be reduced to a scalable scientific technique thereby benefitting many other disciplines as well.

三世。目标大数据的机器学习算法

¯‚·数据分类:如何一个地方不同类别的数据适合一个特定的学习算法?
一个¯‚·数据表示:如何结合特定领域数据表示与特定于域的表示(即功能),提供高效的学习结果?
¯‚·模型细化:如何恢复学习模型为每个数据类别?
¯‚·模型形式主义:我们要学习如何在一个框架,可以迅速部署各学科处理大规模的数据?我们可以将模型作为对象吗?
一个¯‚·为机器学习脚本语言:它有助于设计计算的简单脚本语言学习机器学习模型框架。

IV.APPLICATIONS经济学、能源和医疗保健

近年来电子商务网络分析已经成熟但仍限制在个人电子商务站点。技术扩展到多个网站的困难一直是一个挑战由于不均匀的特性形成的基础学习网站访问者的行为。拟议的机器学习技术能干地学习用户行为将使跨多个网站的可伸缩性。
机器学习在医疗应用中变得越来越常见,但尚未解决的挑战。例如,找到合适的分类器是关键的欺诈预防和制定统计模型准确诊断疾病的预言是一个障碍。机器学习技术将使编码先验知识,以便给出特定医疗数据;系统将召唤最优学习常规。
经济学领域的预测分析的复数域,因为:
(1)有一个稀缺的经济信号,可以捕获特性可以训练学习算法。
(2)统计模型太窄捕捉宏观经济数据集。机器学习将使克服这些挑战,配合正确的模型对于一个给定的应用程序。
获得技术智能能源面临着优化问题,如信号应该捕获的能源使用数据来设计最好的需求反应系统。该机器学习框架原则的方式将解决这些问题。

V.CONCLUSION

企业系统的复杂性增加,需要监测和分析这种系统也在增长。使用元数据的机器学习算法对于大数据复杂的监视工具。例如,基于仪表和特定的api,现在可以监控单个方法调用和跟踪个人事务跨地域分布式系统。大数据可以实现更精确的形式的分析和预测。的利益最大化数据监测数据必须存储在较长时间内的时间不可告人的分析。这新一波的大数据分析应用程序的性能监测系统带来新的挑战。监测数据必须存储在一个系统,可以支持高数据速率,同时使一个最新的观点。

引用

  1. b .公园和h . Kargupta分布式数据挖掘:分布式数据挖掘算法,系统和应用程序,手册。
  2. 理查德·l·维拉斯卡尔·w·Olofson马修伊斯特伍德,2011年6月的纸是大数据:它是什么和你为什么应该关心。史蒂夫·欧柏林的纸是机器学习、认知和大数据。
  3. Alek kolcz、标题纸在twitter大规模机器学习。
  4. 克里斯汀·班尼特埃米利奥Parrado-Hernandez标题纸是优化和机器学习的相互作用研究。
  5. Rabl岁穆罕默德sadogi,汉斯·阿诺标题纸是企业应用程序性能管理的挑战。舒乐问,B。,Villar, R.J., Rigoll, G. and Lang, M., title of paper Meta-Classifiers in Acoustic and Linguistic Feature Fusion-Based Affect Recognition, In Proceedings of Acoustics, Speech, and Signal Processing, 2005. (ICASSP '05)
  6. 林祖嘉Chibelushi, J.S.D.梅森,f . Deravi级数据融合为双峰人认可,在学报第六图像处理及其应用国际会议,1997
  7. 布卢姆,。,Mitchell, T. combining labeled and unlabeled data with co-training. In Proceedings of the Workshop on Computational Learning Theory, 1998
  8. Leo Breiman装袋预测在机器学习程序,1996年
  9. Yoav弗洛伊德和罗伯特·e·Schapire决策理论泛化的在线学习和提高应用程序,程序的第二个欧洲会议上计算学习理论,EuroCOLT”95 polikar, R。,基于整体的系统决策、电路与系统学报》杂志,2006年
  10. 罗伯特·e·Schapire弱易学性的力量,在机器学习程序,1990年
  11. 盖茨。编程的猪。O ' reilly, 2011年。
  12. 盖茨,o . Natkovich Chopra, Kamath p s Narayanamurthy c . Olston b·里德s Srinivasan,斯利瓦斯塔瓦。建立一个高级数据流系统的地图上减少:猪经验。,2009年。