一个简化的数据清洗框架和信息检索在多个数据源的问题

Agusthiyar.R,¹k . Narashiman博士²

助理教授(Sr.G)、计算机应用、Easwari工程学院,印度钦奈
教授和主任,AUTVS中心质量管理印度钦奈,安娜大学

文摘

如今,数据清洗解决方案非常重要的大量数据处理用户的行业等。通常,数据清洗、处理检测和消除错误和不一致的数据,以提高数据的质量。有数量的框架来处理噪声数据和在市场上的不一致。而传统的数据集成问题可以在实例级处理单一的数据源。但是数据清洗时尤其需要集成异构数据源和应该一起解决schema-related数据转换。本文提出了一个框架来处理错误在异构数据源模式水平和这个框架简化的方式检测和消除错误和不一致,提高数据的质量在多个数据源的公司有不同的来源不同的地方。

关键字

数据清洗、数据质量、属性选择,数据仓库

我的介绍。

数据清洗过程处理检测和消除错误和不一致的数据,以提高数据的质量。数据质量问题存在于单一的数据收集,如文件和数据库,例如,由于拼写错误在数据录入,信息缺失或其他无效的数据[1]。数据清理的单一数据源可以处理属性选择或显著特征选择方法来检测和消除错误。该方法给出了质量数据的最终用户或商界均匀的数据源。当需要集成多个数据源,例如,在数据仓库中,联邦数据库系统或全球网络信息系统数据清洗过程非常重要。数据仓库需要和提供广泛的支持数据清洗。他们连续加载和更新大量数据从各种各样的来源的概率的一些来源包含“脏数据”很高。此外,数据仓库用于决策,所以他们的数据的正确性是至关重要的,以避免错误的结论。例如,重复或丢失将产生错误或误导性的信息统计(“垃圾,垃圾”)。由于广泛的可能的数据不一致性和庞大的数据量,数据清理被认为是数据仓库中最大的一个问题。

二世。相关工作

在数据清理,多个记录代表相同的现实生活对象标识,指定数据库只有一个唯一的标识,只保留一份确切的重复记录。口令算法清洗数据仓库是“令牌记录”的概念被引入备案比较和聪明的令牌更有可能适用于特定领域数据清理,和可以作为仓库的标识符来提高增量的过程集成数据的清洗和刷新。[4]数据清洗是一个识别的过程或确定预期问题集成来自不同数据源的数据或从单一来源。有很多问题可以发生在加载或集成数据在数据仓库中。数据仓库的主要问题是噪声数据。属性选择算法用于属性选择令牌之前形成。一个属性选择算法和令牌生成算法用于数据清洗减少复杂的数据清洗过程和清洁数据灵活、轻松没有任何混乱。[5]每个属性值形式特殊令牌比如出生日期或一个普通的令牌,可以字母,数字或字母数字。这些令牌和用于记录排序匹配。令牌也形成很好的仓库标识符为未来快速增量仓库清洁。 The idea of smart tokens is to define from two most important fields by applying simple rules for defining numeric, alphabetic, and alphanumeric tokens. Database records now consist of smart token records, composed from field tokens of the records. These smart token records are sorted using two separate most important field tokens. The result of this process is two sorted token tables, which are used to compare neighbouring records for a match. Duplicates are easily detected from these tables, and warehouse identifiers are generated for each set of duplicates using the concatenation of its first record’s tokens. These warehouse identifiers are later used for quick incremental record identification and refreshing. [6]

三世。多个数据来源问题

每个源可能包含脏数据和数据的来源,可能有不同的表示重叠或矛盾。这是因为来源通常是开发、部署和维护独立服务的具体需求。这导致了很大程度上的异质性对数据管理系统、数据模型、模式设计和实际数据。对模式设计的主要问题是命名和结构冲突。命名冲突时出现相同的名称用于不同的对象(同音异义词)或不同的名称用于同一个对象(同义词)。结构性冲突发生在许多变体和指同一对象的不同表征在不同来源,例如,属性和表表示,不同的组件结构,不同的数据类型,不同的完整性约束,等等。

清洁来自多个数据源的数据的主要问题是确定重叠的数据,特别是匹配记录指的是相同的现实世界实体(如客户)。这个问题也称为对象身份问题[3],消除重复或合并/清洗问题[2]。频繁,只是部分的信息冗余和提供额外的来源可能是相辅相成的一个实体的信息。因此重复信息应该被净化和补充信息应该合并,合并为了实现现实世界实体的一个一致的视图。

答:在多个数据源数据清理与社会方面

提出的数据质量问题是在人口普查数据等政府部门数据库,选民证件信息、驾驶证数据基地和个人身份识别信息。这些数据库有错误,如遗漏信息,无效数据,数据录入错误,重复记录和拼写错误。当政府决定实施或分发任何对人民福利计划的好处,重复的记录或数据都会导致错误的决定或福利计划将无法联系到每一个人。这个框架是用来检测和消除噪声数据单和多源数据库,它是用来清洁数据和得到良好的质量数据决策在政府部门和其他商业组织。

b .多个数据源的问题的一个例子

上述表1:显示多个数据来源问题发生在不同的情况下。最频繁、错误数据录入时,但这只会出现人类的无意识,它将在这个框架容易纠正。客户名称的名称冲突将导致数据质量错误决策的时候在商业组织。因此,这种类型的错误可以通过这个框架有效地检测和删除。与不同的值相同的名称,日期格式和短期将取而代之的是通用格式和适当的缩写。地址冲突可以分割为街,面积,城市和邮政编码格式。表的最后一行显示的标题列或属性问题空间和下划线。这可以更好的避免,给有意义的属性表标题。这个表显示,一些数据源的问题,当两个表或数据源集成。

四、提出的框架

图1:显示该框架的实现提出了研究工作。这一步一步的流程的数据清洗方法解释了用户检测错误和不一致,然后有效地清洁吵闹的数据。

1。来自多个数据源的选择表

2。选择表中的每个属性和格式的属性。

3所示。匹配每个表列最后一个表列。

4所示。加入所有的表。

5。通过令牌创建令牌和找到副本

6。排名:找到副本后,我们排名列值的唯一性

7所示。删除重复的根据

8。最后得到清理数据储存在数据库中

1。来自多个数据源的选择表

在这一步中,从各种来源的数据表已经选择单一域。数据来自不同的起源和可能已经创建了不同时期不同民族和使用不同的约定。在这种背景下,决定哪些数据指的是同一问题的实际对象变得至关重要。公司可能有其客户信息存储在不同的表,因为每个客户购买不同的服务由不同的部门。表从多个数据源的选择是核心研究过程。

2。选择表中的每个属性和格式的属性

选择多个数据源的表之后,每个属性表被选中的数据清洗。在这一步中,属性选择是属性的形成。例如,联系人姓名属性可能分成两列(雷竞技网页版firstname和lastname)和性别属性将改变米男性,女性。形成这样的属性是用于进一步的研究步骤。

3所示。匹配每个表列最后一个表列

当选择多个表中的每个表有不同的属性不同的名称。公司可能有其客户信息存储在不同的表,因为每个客户购买不同的服务由不同的部门。一旦公司决定建立一个统一的存储库的所有客户,相同的客户可以在不同的表,略有不同但正确的名字。这种错配称为对象身份的问题。这个问题会得到解决的公共表,每个表属性应该匹配公共表属性和它将维持一个统一的存储库的所有的表已经选中。

4所示。加入所有的表

成立后每个表属性共同表属性,所有表将结合然后是常见的表格格式应保存为最终的数据库。创建统一的存储库的所有表后,将创建令牌。

5。通过令牌创建令牌和找到副本

创建和形成标记数据清洗过程是非常重要的。形成的令牌时,键值属性扮演了至关重要的作用。这一步利用选定的属性字段值形成一个令牌。标记可以创建一个属性字段值或属性相结合。例如,选择联系人姓名属性创雷竞技网页版建一个令牌进行进一步的清洗过程。联系人姓雷竞技网页版名属性分割的名字,中间的名字和姓。第一名和姓相结合作为联系人姓名组成一个令牌。雷竞技网页版令牌使用数值,形成字母数字值和字母的值。字段值是分裂。不重要的元素删除(博士先生这样的标题标记,等[6]。 This step is eliminates the need to use the entire string records with multiple passes, for duplicate identification.

6。排名:等级列值的唯一性

选择和等级两个或三个字段,可以结合最唯一地标识记录。条件”字段选择和排名”是用户非常熟悉的问题域,可以选择和排序字段根据其独特的识别能力。我们假设用户在银行领域诞生,“”的名字,”和“地址”,排名的顺序给[6]。后检测重复我们排名列值的唯一性。例如,电话不,强加于人,等等,

7所示。删除重复的根据

数据挖掘主要适用于大型数据库。消除排序大型数据集和数据复制过程与大型数据库面临的可伸缩性问题。这个框架解决了这个问题通过排名根据属性的依赖项属性。

8。获得清洁的数据储存在数据库中

上面一步一步的过程这个框架给出了清洗数据质量的进一步使用。这个质量数据将存储的数据基础和用于决策。

诉的结论

这个框架简化了数据清洗过程比其他方法比较之前使用。这些顺序步骤很容易处理数据清洗和信息检索。这个新框架包括八个步骤:选择表,选择属性,匹配列,加入所有的表,形成标记,检测重复,排名和删除重复的排名算法,和合并到数据库。这个框架将有助于发展一个强大的数据清理工具通过使用现有的按顺序数据清洗技术。

确认

我们要感谢那些评论家的评论和建议进一步发展框架,数据清洗工具。

引用

·拉姆香港海做的,数据清洗:问题和当前方法,页:1 - 10
埃尔南德斯,硕士;斯多夫,中华民国:现实世界的数据是脏:数据清理和合并/清洗问题。数据挖掘和知识发现2(1):9-37,1998年。
海伦娜Galhardas埃里克•西蒙- Daniela Florescu丹尼斯沙沙村-一个可扩展的框架,数据清洗。
蒂莫西·e·Ohanekwu C.I. Ezeife,数据仓库系统的基于符号的数据清洗技术,页:1 - 6
j . Jebamalar Tamilselvi诉萨拉瓦南博士,使用属性选择和智能处理噪声数据令牌,学报》国际会议在2008年计算机科学和信息技术,页:771 - 774。
克里斯蒂Ezeife,蒂莫西·e·Ohanekwu在清洁中使用智能标记集成的数据仓库,数据仓库和矿业国际期刊(IJDW),第二卷,页:22页,创意集团出版商,2005年4 - 6月。
j . Jebamalar Tamilselvi诉萨拉瓦南博士,j .一个统一的框架和顺序数据仓库的数据清洗方法,IJCSNS国际计算机科学杂志和网络安全,VOL.8 5号,2008年5月页:117 - 121。