关键字 |
数据质量、内在DQ表征DQ,门户网站。 |
介绍 |
由于信息和通信技术的进步和成长,所有每一个通用的信息活动像新闻,健康,娱乐,教育,等等,通过互联网可以在网站。万维网是一个存储库的各种数据。但有一个网站的公布的数据质量问题。数据质量是一个新的研究领域,代表了数据挖掘面临的最大挑战之一。数据质量指的是数据的准确性和完整性,还测量了结构和一致性,数据如何被代表的门户网站。门户网站或公共门户网站,有很多来自多个来源的信息在网络上。它在一个简单的用户友好的方式组织信息。在全球众多用户使用门户网站获取信息对他们的工作和决策提供帮助。用户和数据消费者需要确保获得的数据适合他们的需求。因此,组织提供门户网站需要提供满足用户需求的数据。 Data quality represents a common interest between data consumers and portal providers. Data quality plays an important role in the efficiency and effectiveness of organizations and businesses. |
分类数据质量 |
数据质量分为四类,内在DQ,可访问性DQ,上下文DQ和表征DQ。每个类别有很多维度如准确性、完整性、一致性、时效性等从文献调查[2]在表1。数据精度的数据正确地反映了现实世界所描述对象或一个事件。数据准确性的一个例子是在客户的帐户是银行资产的真实价值客户值得从银行。数据完整性的程度预计提供的数据属性。例如,一个客户数据被认为是完整的,如果所有客户地址、联系信息和其他信息是可用的,所有客户的数据是可用的。雷竞技网页版一致性的数据意味着数据在整个企业应该在相互同步或缺乏数据冲突。数据一致性的一个例子是一个信用卡取消了,和不活跃,但信用卡账单状态显示。数据的及时性是极其重要的,取决于用户的期望。门户网站中的数据质量可以通过调查分析的方法。 The survey has been made with the web users who are regular to use the online “The Hindu” web portal. |
本文研究的范围只包括内在和表征数据质量类别的“科技”专栏„印度教?门户网站。表2显示了数据质量,其维度和定义。 |
质量分析 |
数据质量(DQ)是通常定义为“适合使用”,即。,the ability of a collection of data to meet user requirements [3, 14]. |
这个定义当前视图的评估DQ,涉及到从用户的角度理解DQ [15]。报纸可以提供在线版本,不打印版本的镜像,而不是提供额外的东西,比如交互式功能或信息可能不适合打印版本[1]。网上报纸的数量有一些一般信息和一些文件与档案完整。印度报纸中是一个完整的报纸在网上通过门户网站http://www.thehindu.com/.The的在线门户网站本文包括许多列包含各种信息的每一天。但是本文的案例研究分析了数据质量内在DQ,和表征DQ„科技吗?(科技)单独列。 |
门户的“科技”列包含几个子列如农业、能源与环境、设备、互联网、科学和技术。已经完成的调查反馈分析使用统计工具。问卷调查已经框定和反馈收集的本科生和研究生,各种学科的研究学者、院士和web用户在定期通过这个门户。 |
调查问卷被陷害为每个维度5到6的问题。网络用户输入他们的评级在指定的百分比值列。 |
同样80多反馈形式收集并计算每个维度的平均值。表3显示了属性问卷调查的一部分。 |
内在质量 |
内在DQ指定的基本品质数据的准确性和及时性。确保数据是正确的和有效值准确性,及时性是指信息是最新的文章是有用的对我们的工作和生活。Chart1代表的内在DQ准确性为80%和及时性是90%。平均来说,数据的内在质量,?年代测量准确性和及时性85%的反馈收集。 |
表征数据质量 |
表征DQ指定的方式提出了数据或可用的web门户。 |
表征DQ包括内容、写作风格、交互性、布局、多媒体演示、导航、组织和存档。这些因素帮助在线门户网站来展示他们的信息以最有效的方式广泛的用户。Chart2代表的具象DQ数据表征质量已经观察到通过各种因素。 |
从chart2观察到数据的导航是非常高的86%,和布局、组织和表示的档案数据,发现高85%,84%和85%,其中一个很小的差异1%反馈收集。 |
内容和交互性发现65%和70%。多媒体演示发现的中值为45%。 |
结论 |
理解内容和消费者偏好是独一无二的,而不是让消费者描述他们想要什么样的新闻和信息,以及他们如何应该覆盖,本研究测量在线报纸内容和测量消费者的反应。研究的“科技”专栏“印度教”门户网站显示存在内在的数量和表征数据量化的品质数据质量维如前所述在数据分类部分。通过量化数据质量维度,研究由内在的确切存在和表征数据质量。本文进行了示例研究量化数据品质通过他们的尺寸,这样可以给领域重要性量化测量显示。未来研究可能导致论文的所有列,识别门户中缺乏数据质量,改善数据质量的建议也可以包括在内。 |
表乍一看 |
|
|
数据乍一看 |
|
|
图1 |
图2 |
|
|
引用 |
- Chyi做艾滋病病毒&拉索尔萨D。,Access, Use and Preferences for Online Newspapers. Newspaper Research Journal, 1999, 20(4), 2-13.
- m .当归卡罗珊瑚Calero,马里奥Piattini Ismael骑手。,Data Quality In Web Applications: A State Of The Art ,IADIS International Conference on WWW/Internet 2005, pp 364-368.
- c . Cappiello c Francalanci, b . Pernici。,Data quality assessment from the user´s perspective in International Workshop on Information Quality in Information Systems, (IQIS2004). 2004. Paris, Francia: ACM. p. 68-73.
- 卡罗,c . Calero h . Sahraoui, m . Piattini贝叶斯网络来表示一个数据质量模型。国际期刊的信息质量,2007年。在2007年的第一期发表。
- InduShobha n . Chengalur-Smith率,唐纳德·p·哈罗德·l·巴斯的影响数据质量信息决策:一个探索性分析。IEEE知识和数据工程11(6):853 - 864年,1999年。
- 莫妮卡Bobrowski玛蒂娜·马尔,丹尼尔Yankelevich:均匀的框架来衡量数据质量。在麻省理工学院会议信息质量(智商),115 - 124年,1999年。
- Cappiello C。,et al., 2004. Data quality assessment from the user´s perspective. Proc. IQIS2004, pp: 68-73.
- 普尔酒馆、m和Muenzenmayer P。2002。衡量信息质量在Web上下文:国家- - -艺术的调查工具和应用方法。Proc. ICIQ2002,页:187 - 196。
- Pernici、b、史坎纳皮科,M, 2002。数据质量在Web信息系统。21国际会议上进行概念建模,页:397 - 413。
- 陈,K &日圆,直流2004”,提高在线业务的质量通过交互性、信息与管理,42卷,1号,第217页。
- m·格茨t . Ozsu g . Saake K.-U。解决,报告Dagstuhl研讨会“网络数据质量”。SIGMOD记录,2004年。33卷,1号:127 - 132页。
- p . Katerattanakul和k . Siau。测量网站信息质量:乐器的发展。在20国际会议上进行信息系统》1999。p . 279 - 285。
- 卡罗,c . Calero绅士,和m . Piattini。定义一个数据质量模型对门户网站。在WISE2006,第七届国际会议上Web信息系统工程》2006。4255年中国武汉:施普林格信号。p . 363 - 374。
- d .强劲、y . Lee和r . Wang在上下文数据质量。ACM通讯,1997。40卷,Nº5:p。103 -110。
- S.A.骑士和J.M.燃烧,开发一个框架,用于评估信息质量在万维网上。通知科学杂志》,2005年版。8:p。159 - 172。
- 穆罕默德Haneefa K和Shyma Nellikka,内容分析的在线英文报纸在印度,DESIDOC《图书馆与信息技术、30卷,4号,July2010
|