关键字 |
数据挖掘DM、知识发现在数据库知识发现(KDD),数据仓库,支持系统。 |
介绍 |
有集中这么多关注数据的积累问题是如何处理这个宝贵的资源吗?认识到信息是业务的核心,决策者可以利用存储的数据来获取有价值的见解。数据库管理系统提供的数据存储,但这只是一小部分的可以获得的数据。传统的联机事务处理系统,oltp,擅长快速将数据放入数据库,安全、有效但不擅长提供有意义的分析。分析数据可以提供进一步的了解业务通过超越数据显式存储派生业务知识。这就是数据挖掘[1]或在数据库知识发现(KDD)为任何企业有明显的好处。 |
数据挖掘这个词已经超出限度的适用于任何形式的数据分析。的众多数据挖掘的定义,或在数据库知识发现是:数据挖掘,或者在数据库知识发现(KDD)也称,是重要的提取隐含的、未知的、潜在有用的信息从数据。这包含了许多不同的技术方法,如聚类、数据总结、学习分类规则,找到依赖网络作品,分析变化,检测异常数据挖掘”是指使用各种技术来识别掘金信息或决策知识的身体数据,并提取这些以这样一种方式,他们可以使用决策支持等领域,预测,预测和评估。数据通常是大量的,但目前的低价值不能直接使用;它是有用的数据中隐藏的信息“克莱门泰用户指南,数据挖掘[2]工具包基本上数据挖掘涉及的数据分析和软件的使用技术组数据中寻找模式和规律。它是计算机负责寻找模式通过识别潜在的规则和特点的数据。 |
相关工作 |
一)数据挖掘背景: |
归纳推理的信息从数据和归纳学习是环境即数据库的建模过程进行了分析,发现模式。类似的对象分组在类和规则制定,可以预测看不见的对象的类。这个过程的分类标识类,每个类都有一个唯一的模式的价值观形成的类描述。环境是动态的,因此模型的性质必须适应即可以学习。 |
归纳学习系统从观察环境推断知识本身有两个主要策略: |
•监督学习,这是学习的例子,一个老师帮助系统构建一个模型通过定义类和提供每个类的例子。系统必须找到每个类的描述即公共属性的例子。一旦制定了描述描述和类形成分类规则可以用来预测以前看不见的对象的类。这是类似于统计判别分析。 |
•无监督学习,这是学习观察和发现。提供的数据我系统对象但没有类定义它观察例子和识别模式本身(即类描述)。这个系统类描述的结果是一组,一个为每个类中发现的环境问题。这类似于聚类分析统计数据。 |
b)数据挖掘是如何工作的呢? |
而大规模的信息技术一直在发展独立的事务和分析系统,数据挖掘提供了两者之间的联系。数据挖掘软件分析关系和模式存储事务数据根据用户的查询。有几种类型的分析软件统计、机器学习、神经网络。一般来说,任何寻求四种类型的关系: |
•类:数据是用于定位数据存储在预先确定的组。例如,一个连锁餐厅可能我客户购买数据确定当客户访问,他们通常秩序。这个信息可以用来增加交通通过每日特色菜。 |
•集群:数据项分组根据逻辑关系或消费者偏好。例如,数据挖掘确定细分市场或消费者的亲和力。 |
•联想:数据挖掘识别关联。beer-diaper的例子是关联挖掘的一个例子。 |
•顺序模式:数据挖掘预测行为模式和趋势。例如,室外设备零售商可以预测一个背包的可能性是基于消费者的购买购买睡袋和登山鞋。 |
不同级别的分析 |
•人工神经网络:非线性预测模型[4],通过培训学习和模仿生物神经网络的结构。 |
•遗传算法:优化技术,使用过程,如基因组合,突变和自然选择在设计基于自然进化的概念。 |
•决策树:树状结构表示的决策。这些决策生成数据集的分类规则。特定的决策树方法[3]包括分类和回归[13]树(CART)和x平方分布自动交互检测(CHAID)。车和CHAID决策树技术用于分类的数据集。他们提供的一组规则可以适用于一个新的记录(非保密)数据集来预测它将给定的结果。车部分数据集通过创建双向分裂而CHAID部分使用卡方测试创建多路分裂。车通常要比CHAID需要较少的数据准备。 |
•最近邻方法:一种技术,它将每条记录在一个数据集的基于组合类的k (s)记录最相似的历史数据集(k 1)。再有时被称为技术。 |
•归纳法:提取有用的if - then规则从数据基于统计学意义 |
•数据可视化:目视判读多维数据的复杂关系。图形工具是用来说明数据的关系。 |
c)数据仓库 |
巨大进步在数据采集、处理能力、数据传输和存储能力是使组织将他们的各种数据库集成到数据仓库。数据仓库的定义是一个集中式数据管理和检索的过程。数据仓库,数据挖掘[8]是一个相对较新的术语虽然概念本身已经存在好多年了。数据仓库是一个理想的愿景维护一个中央存储库的所有组织数据。集中的数据需要最大化用户访问和分析。巨大的技术进步使得许多公司这一愿景变为现实。数据分析,同样巨大进步[7]自由软件允许用户访问这些数据。数据分析软件是支持数据挖掘 |
d)在数据仓库流程 |
第一阶段在数据仓库是“隔离”你当前的操作信息,即保护关键任务OLTP应用程序的安全性和完整性,同时给你访问尽可能广泛的基础数据。因此数据仓库从各种异构的操作数据库中检索数据。数据转换和传递给数据仓库/存储基于选定的模型(或映射定义)。每当执行数据转换和移动流程更新仓库数据是必需的,所以应该有某种形式的自动化管理和执行这些功能。 |
存在系统,提出了数据挖掘系统: |
数据挖掘模型 |
IBM已经确定了三种类型的模型或模式的操作可以用来挖掘出用户感兴趣的信息 |
|
1。验证模型 |
从用户验证模型以一个假设和测试它对数据的有效性。重点是与用户负责制定假说和发行上的查询数据肯定或否定的假设。 |
例如在一个营销部门与预算有限的邮件活动推出一个新产品是非常重要的识别部分的人最有可能购买新产品。用户制定一个假设来识别潜在客户和他们分享的特点。历史数据对客户购买和人口统计信息可以查询显示类似的购买和共享这些购买者特征进而可用于目标邮件活动。整个操作可以通过“深入”,假设减少了每次返回“设置”,直到达到要求的限制。 |
这个模型[12]的问题是,任何新的信息检索过程中创建的,而是将始终返回的查询记录,来证实或否定的假设。这里的搜索过程是迭代的输出了,一系列新的问题或假设制定细化搜索和重复整个过程。用户发现事实的数据使用各种技术,如查询、多维分析和可视化指导勘探数据被检查。 |
2。发现模型 |
发现模型的重点不同,它是系统自动发现重要信息隐藏在数据。常出现的数据筛选在搜索模式,趋势和概括的数据不需要用户的干预或指导。发现或数据挖掘工具旨在揭示大量的事实数据在尽可能短的时间内。 |
3所示。数据仓库 |
数据挖掘潜力可以增强如果适当的数据被收集并存储在数据仓库中。数据仓库是一个关系数据库管理系统(RDMS)专门满足事务处理系统的需要。它可以松散定义为任何集中式数据存储库,可以查询商业利益但这以后会更加明确。数据仓库是一个新的强大的技术使得人们可以提取归档操作数据,克服不同遗留数据格式之间的矛盾。以及集成数据在一个企业,不管位置、格式或通信需求可能将额外的或专家信息。 |
提出的数据挖掘系统 |
提出系统中我们必须检查存在系统的性能,我们必须使用一些新技术克服缺点的存在系统。数据挖掘是一个过程,从数据中提取隐藏的和有用的模式和信息。数据挖掘软件的数据分析工具来分析数据。它允许用户从许多不同的维度或角度分析数据,分类,总结识别的关系。从技术上讲,数据挖掘就是发现的过程之间的相关性或模式\数十名字段在大型关系数据库。换句话说,数据仓库[9]提供的数据已经改变了和总结,因此使它一个适当的环境更高效的DSS和EIS应用程序。公司利用强大的计算机筛选大量的超市扫描器的数据和分析市场研究报告多年仓储是一个新的强大的技术使得人们可以提取归档操作数据,克服不同遗留数据格式之间的矛盾。以及集成数据在一个企业,不管位置、格式,或通信需求可能将额外的或专家信息数据挖掘和机器学习之间的差异在数据库知识发现(KDD)或数据挖掘和机器学习的一部分(ML)处理学习的例子重叠算法[6]使用和解决的问题。 |
主要的差异是: |
•知识发现(KDD)关心的是寻找可以理解的知识,而毫升涉及的是提高性能的一个代理。所以训练一个神经网络来平衡一个极是毫升的一部分,但不是知识发现(KDD)。然而,有努力,从神经网络提取知识非常相关的知识发现(KDD)。 |
•知识发现(KDD)关心的是非常大的,真实的数据库,而毫升通常(但不总是)看着较小的数据集。所以效率问题对知识发现(KDD)更重要。 |
•毫升是一个更广泛的领域不仅包括学习的例子,但也强化学习,与老师学习,等等。 |
知识发现(KDD)毫升的一部分,这是关心的是大套实际的例子中找到可以理解的知识。当将机器学习技术集成到数据库系统实现知识发现(KDD)的一些数据库要求: |
吗?更有效的学习算法[5]因为现实的数据库通常非常大,吵了。通常是数据库通常是[10]为目的设计不同于数据挖掘和所以的属性或属性简化的学习任务也不能被要求不存在的现实世界。数据库通常被错误的数据挖掘算法来应对噪音而毫升实验室类型即尽可能接近完美的例子。 |
吗?更富有表现力的表示为数据,例如在关系数据库中元组、代表实例的问题域,和知识,例如规则在基于规则的系统中,可以用来解决用户的问题域和语义关系模式中包含的信息。 |
实用知识发现(KDD)系统将包括三个相互联系的阶段 |
吗?翻译标准的数据库信息成适合通过学习使用设施; |
吗?使用机器学习技术从数据库生成知识库;和 |
吗?解释产生的知识来解决用户的问题和/或减少数据空间。数据空间的例子。 |
数据仓库的特征: |
根据Bill Inmon,构建数据仓库的作者和专家被广泛认为是发起人的数据仓库的概念,描述数据仓库通常有四个特点: |
吗?主题:数据被组织根据主题而不是应用程序如保险公司使用数据仓库组织数据的客户,保险费,和索赔,而不是由不同的产品(汽车、生活等)。学科组织的数据只包含必要的信息对决策[11]支持处理。 |
吗?综合:当数据驻留在许多单独的应用程序在操作环境中,编码的数据往往是不一致的。例如,在一个应用程序中,性别可能编码为“m”和“f”在另一个由0和1。当数据从数据仓库的操作环境,他们认为一个一致的编码约定如性别数据转换到“m”和“f”。 |
吗?时变:数据仓库包含一个存储数据的地方,5至10岁以上,用于比较,趋势和预测。这些数据没有更新。 |
吗?非易失性:数据不更新或以任何方式改变,一旦他们进入数据仓库,但是只加载和访问。 |
结论 |
本文显示了DW的阶段和DM形成解决方案。基于演示我们可以得出结论,DW提供了一个灵活的解决方案给用户,谁能使用工具,喜欢和用户定义的查询Excel,探索更有效的数据库相比,所有其他工具从OLTP环境。显著受益于这种解决方案信息和知识检索的数据库是用户不需要拥有知识关系模型和复杂的查询语言。 |
引用 |
- 浆果,M.J.A.,和Linoff, G., "Mastering Data mining", The Art and Science of Customer Relationship Management,1999.
- Bhavani T数据挖掘:技术、技术、工具和趋势,1999年。
- 比尔克,D。,和Dodge, Y., Alternative methods of regression. John Wiley & Sons,1993.
- Breiman, L。,和Meisel, W.S., “General estimates of the intrinsic variability of data in nonlinear regression models”, Journal of the AmericanStatistical Association, 71(1976)301-307. M. Suknovic, M. Cupic, M. Martic, D. Krulj / Data Warehousing and Data Mining 145
- 罗莎,J.C.Viega,。,和Medeiros,M.C., Tree-Structured Smooth Transition Regression Models Based on CART Algorithm, Department ofEconomics, Janeiro,2003.
- 丹尼森,T。,Mallick, B.K., and Smith, A.F.M., “A Bayesian CART algorithm”, Biometrika 85 (1998) 363-377.
- Gunderloy, M。,和Sneath, T., SQL SERVER Developer’s Guide to OLAP with Analysis services, Sybex, 2001.
- 楼继伟,H。,和Micheline, K., Data Mining:Concepts and Techniques, Simon Fraser University,2001.
- Krulj D。,"Design and implementation of Data warehouse systems", M Sc. Thesis, Faculty of Organizational Sciences,Belgrade,2003.
- Krulj D。,Suknovic, M., Cupic, M., Martic, M., and Vujnovic, T., "Design and Development of OLAP system FOS Student service",
- INFOFEST Budva 2002。
- Krulj D。,Vujnovic, T., Suknovic, M., Cupic, M., and Martic, M., "Algorithm of Data Mining, good base for decision Making", SYM-OP-IS,Tara, 2002.
- 刘易斯,P.A.W.,和Stevens, J.G., “Nonlinear modeling of time series using Multivariate adaptive regression splines (MARS)”, Journal of theAmerican Statistical Association, 86(1991) 864-877.
- 美国南卡罗来纳州Narula,和Wellington, J.F., “The Minimum sum of absolute errors regression: Astate of the art survey”, Internet Statist Rev., 50 (1982)317-326.
|
传记 |
SHIVAPPA M METAGAR收到B.E.学位(计算机科学与工程)2010年从KBNCE,古巴和M。技术(数字通信和网络)在2012年从BTLIT,班加罗尔。他目前从事CSE学系助理教授W.I.T Solapur,马哈拉施特拉。他的研究兴趣是在网络、网络安全、数据挖掘、网络技术和图像 |
PRAVEENKUMAR D HASALKAR收到B.E.学位(计算机科学与工程)从2007年的SLN工程学院Raichur和M。技术(计算机科学与工程)在2012年从BVB Hubli。他目前从事CSE学系助理教授W.I.T Solapur,马哈拉施特拉。他的研究兴趣是在网络、网络安全、数据挖掘、网络技术和图像处理 |
ANIL NAIK年代收到B.E.学位(电子和通信工程)2009年从BEC, Bagalkot和M。技术(信息技术)在2011年从AMCEC,班加罗尔。他目前从事部门助理教授,W.I.T Solapur,马哈拉施特拉。他的研究兴趣是在软件工程领域,网络、网络安全、数据挖掘、网络技术和图像处理。 |
|