关键字 |
数据质量,内在DQ,表征DQ, Web门户。 |
介绍 |
由于信息和通信技术的进步和增长,每一个普遍活动的所有信息,如新闻,健康,娱乐,教育等,都可以通过互联网在网站上获得。万维网是各种数据的存储库。但网站上发布的数据质量存在问题。数据质量是一个新的研究领域,也是数据挖掘面临的最大挑战之一。数据质量是指数据的准确性和完整性,也可以通过结构和一致性来衡量,即数据在web门户中的表现方式。web门户或公共门户是一个网站,它拥有来自网络上多个来源的大量信息。它以简单用户友好的方式组织信息。在世界范围内,许多用户使用门户网站获取工作信息,并帮助决策。用户和数据使用者需要确保所获得的数据适合他们的需要。因此,提供Web门户的组织需要提供满足用户需求的数据。 Data quality represents a common interest between data consumers and portal providers. Data quality plays an important role in the efficiency and effectiveness of organizations and businesses. |
数据质量分类 |
数据质量分为四类:内在DQ、可访问DQ、上下文DQ和表征DQ。每个类别都有很多维度,如准确性,完整性,一致性,及时性等,来自表1的文献调查[2]。数据的准确性是指数据正确反映真实世界对象或被描述事件的程度。数据准确性的一个例子是,客户账户上的银行余额是客户从银行获得的真正价值。数据的完整性是指提供预期数据属性的程度。例如,如果所有客户地址、详细联系方式和其他信息都可用,并且所有客户的数据都可用,则认为客户数据是完整的。雷竞技网页版数据的一致性意味着整个企业的数据应该彼此同步,或者没有数据冲突。数据不一致的一个例子是信用卡被取消了,并且是不活动的,但是卡的计费状态显示到期。数据的及时性非常重要,这取决于用户的期望。门户网站中的数据质量可以使用调查方法进行分析。 The survey has been made with the web users who are regular to use the online “The Hindu” web portal. |
本文的研究范围仅包括《印度教徒报》(The Hindu?门户网站。表2显示了数据质量、它的维度及其定义。 |
质量分析 |
数据质量(Data Quality, DQ)通常被定义为“适合使用”,即一组数据满足用户需求的能力[3,14]。 |
这个定义和目前评估DQ的观点涉及到从用户的角度[15]理解DQ。报纸可以提供在线版本,而不是印刷版的镜像,而是提供一些额外的东西,如互动功能或印刷版无法提供的信息。在互联网上有许多报纸,有些是一般信息,有些是完整的档案。《印度教徒报》是通过门户网站http://www.thehindu.com/.The在互联网上获得的完整报纸之一,该报纸的在线门户网站包括许多专栏,每天涵盖各种信息。但本文的案例研究分析了“科学技术?(科技)专栏。 |
门户网站的“科技”栏目包括农业、能源与环境、小工具、互联网、科学与技术等几个子栏目。本调查采用反馈分析的方法,运用统计工具进行调查。我们制定了一份调查问卷,并收集了来自本科生和研究生、研究学者、各学科院士以及定期访问该门户网站的网络用户的反馈。 |
问卷每个维度有5到6个问题。web用户必须在指定的列中输入他们的评分百分比值。 |
同样,收集了80多个反馈表格,并计算出每个维度的平均值。表3为属性问卷的部分内容。 |
内在质量 |
内在DQ指定了数据的基本质量,如准确性和及时性。准确性确保数据是正确有效的值,时效性是指信息是最新的,文章对我们的工作或生活有用。图1为Intrinsic DQ,其中准确率为80%,及时性为90%。平均而言,数据的内在质量?S的准确性和及时性从收集的反馈中测量为85%。 |
代表性数据质量 |
Representational DQ指定了在web门户中显示或提供数据的方式。 |
代表性DQ包括内容覆盖、写作风格、交互性、布局、多媒体表示、导航、组织和存档。这些因素有助于在线门户网站以最有效的方式向广大用户展示其信息。图2为表征性DQ,其中数据的表征性质量通过各种因素进行观察。 |
从图表2中可以观察到,数据的导航非常高,达到86%,数据展示的布局、组织和归档也很高,分别为85%、84%和85%,与收集到的反馈差异非常小,只有1%。 |
内容覆盖率和交互性分别为65%和70%。多媒体呈现被发现是45%的中间值。 |
结论 |
了解内容和消费者偏好是独一无二的,这项研究测量了在线报纸的内容和消费者的反应,而不是要求消费者描述他们想要什么样的新闻和信息,以及他们应该如何被报道。对“印度教徒”门户网站“科学”栏目的研究显示了内在和表征数据质量的存在量,这些质量是由数据质量维度量化的,如前所述,在数据分类部分。通过对数据质量维度的量化,研究了内在数据质量和表征数据质量的确切存在。本文进行了一个样本研究,通过数据的维度来量化数据质量,从而可以对量化措施表现不佳的领域给予重视。未来的研究可以导致论文的所有栏目,识别门户网站数据质量的不足,也可以包括提高数据质量的建议。 |
表格一览 |
|
|
数字一览 |
|
|
图1 |
图2 |
|
|
参考文献 |
- Chyi, H.I., Lasorsa D,在线报纸的访问,使用和偏好。报纸研究,1999,20(4),2-13。
- M. Angelica Caro,Coral Calero, Ismael Caballero, Mario Piattini。,Data Quality In Web Applications: A State Of The Art ,IADIS International Conference on WWW/Internet 2005, pp 364-368.
- C.卡皮耶罗,C.弗兰兰奇,B.佩尼奇。,Data quality assessment from the user´s perspective in International Workshop on Information Quality in Information Systems, (IQIS2004). 2004. Paris, Francia: ACM. p. 68-73.
- Caro, C. Calero, H. Sahraoui,和M. Piattini,表示数据质量模型的贝叶斯网络。国际信息质量杂志,2007。接受在2007年创刊号发表。
- InduShobha N. Chengalur-Smith, Donald P. Ballou, Harold L. Pazer,数据质量信息对决策的影响:探索性分析。电子工程学报,2011,(6):853-864。
- Monica Bobrowski, Martina Marr, Daniel Yankelevich:衡量数据质量的同质框架。在MIT信息质量会议(IQ), 115-124, 1999。
- 卡皮耶罗,C.等人,2004年。从用户角度评估数据质量。iis2004, pp: 68-73。
- 艾普勒,M.和Muenzenmayer, P. 2002。在网络环境中测量信息质量:最先进的工具和应用方法的调查。ICIQ2002, pp: 187-196。
- 佩尼奇,B.和斯坎纳皮科,M.,2002。Web信息系统中的数据质量。第21届概念建模国际会议论文集,第397-413页。
- 陈,K和Yen, DC 2004,“通过交互性提高在线存在的质量”,信息与管理,第42卷,第1期,第217页。
- 格茨,T. Ozsu, G. Saake和K.-U。达格斯图尔研讨会“网络上的数据质量”报告。SIGMOD记录,2004。第33卷,第1期:第127-132页。
- P. Katerattanakul和K. Siau。衡量网站信息质量:一种工具的开发。《第二十届信息系统国际会议论文集》,1999年。p . 279 - 285。
- 卡罗,C.卡莱罗,I.卡巴列罗,M.皮亚蒂尼。为Web门户定义数据质量模型。第七届网络信息系统工程国际会议。2006。中国武汉:施普林格LNCS 4255。p . 363 - 374。
- 斯特朗,李旸,王锐,数据质量在上下文中的应用。美国计算机学会通讯,1997年。卷40,Nº5:p. 103 -110。
- s.a Knight和J.M. Burn,开发一个评估万维网信息质量的框架。通知科学杂志,2005。第8页159-172。
- Mohamed Haneefa K和Shyma Nellikka,《印度在线英文报纸内容分析》,《DESIDOC图书馆与信息技术杂志》第30卷第4期,2010年7月
|