所有提交的EM系统将被重定向到网上投稿系统。作者被要求将文章直接提交给网上投稿系统各自的日志。

web门户中的数据表示

Dr.A.Muthu Kumaravel
巴拉特大学巴拉特科学技术学院MCA系,金奈- 73
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

数据挖掘是从海量数据中推断出知识的过程。数据挖掘可以对以定量、文本或多媒体形式表示的数据进行。在线信息系统的特点是向广泛的受众展示大量的数据,这些数据的质量可能是非常不同的。web上的信息系统需要在从信息源获得信息后,在尽可能短的时间内发布高质量的信息。质量数据必须完美、准确、完整、一致、及时、灵活,以满足用户需求。数据质量是web服务中一个非常重要的方面。为了提高数据质量,有必要时不时地清理数据,这可能涉及删除重复记录、规范化用于表示数据库中信息的值、计算丢失的数据点、删除不必要的数据字段、识别异常数据以及标准化数据格式。必须分析门户网站提供的数据的质量。数据质量的内在和代表性类别在web门户中非常重要,可以以最有效的方式提供数据。本文以《印度教徒报》日报门户网站的“科技”栏目为例,对数据质量表示的属性进行了研究,并对数据质量表示的有效性进行了案例研究。

关键字

数据质量,内在DQ,表征DQ, Web门户。

介绍

由于信息和通信技术的进步和增长,每一个普遍活动的所有信息,如新闻,健康,娱乐,教育等,都可以通过互联网在网站上获得。万维网是各种数据的存储库。但网站上发布的数据质量存在问题。数据质量是一个新的研究领域,也是数据挖掘面临的最大挑战之一。数据质量是指数据的准确性和完整性,也可以通过结构和一致性来衡量,即数据在web门户中的表现方式。web门户或公共门户是一个网站,它拥有来自网络上多个来源的大量信息。它以简单用户友好的方式组织信息。在世界范围内,许多用户使用门户网站获取工作信息,并帮助决策。用户和数据使用者需要确保所获得的数据适合他们的需要。因此,提供Web门户的组织需要提供满足用户需求的数据。 Data quality represents a common interest between data consumers and portal providers. Data quality plays an important role in the efficiency and effectiveness of organizations and businesses.

数据质量分类

数据质量分为四类:内在DQ、可访问DQ、上下文DQ和表征DQ。每个类别都有很多维度,如准确性,完整性,一致性,及时性等,来自表1的文献调查[2]。数据的准确性是指数据正确反映真实世界对象或被描述事件的程度。数据准确性的一个例子是,客户账户上的银行余额是客户从银行获得的真正价值。数据的完整性是指提供预期数据属性的程度。例如,如果所有客户地址、详细联系方式和其他信息都可用,并且所有客户的数据都可用,则认为客户数据是完整的。雷竞技网页版数据的一致性意味着整个企业的数据应该彼此同步,或者没有数据冲突。数据不一致的一个例子是信用卡被取消了,并且是不活动的,但是卡的计费状态显示到期。数据的及时性非常重要,这取决于用户的期望。门户网站中的数据质量可以使用调查方法进行分析。 The survey has been made with the web users who are regular to use the online “The Hindu” web portal.
本文的研究范围仅包括《印度教徒报》(The Hindu?门户网站。表2显示了数据质量、它的维度及其定义。

质量分析

数据质量(Data Quality, DQ)通常被定义为“适合使用”,即一组数据满足用户需求的能力[3,14]。
这个定义和目前评估DQ的观点涉及到从用户的角度[15]理解DQ。报纸可以提供在线版本,而不是印刷版的镜像,而是提供一些额外的东西,如互动功能或印刷版无法提供的信息。在互联网上有许多报纸,有些是一般信息,有些是完整的档案。《印度教徒报》是通过门户网站http://www.thehindu.com/.The在互联网上获得的完整报纸之一,该报纸的在线门户网站包括许多专栏,每天涵盖各种信息。但本文的案例研究分析了“科学技术?(科技)专栏。
门户网站的“科技”栏目包括农业、能源与环境、小工具、互联网、科学与技术等几个子栏目。本调查采用反馈分析的方法,运用统计工具进行调查。我们制定了一份调查问卷,并收集了来自本科生和研究生、研究学者、各学科院士以及定期访问该门户网站的网络用户的反馈。
问卷每个维度有5到6个问题。web用户必须在指定的列中输入他们的评分百分比值。
同样,收集了80多个反馈表格,并计算出每个维度的平均值。表3为属性问卷的部分内容。

内在质量

内在DQ指定了数据的基本质量,如准确性和及时性。准确性确保数据是正确有效的值,时效性是指信息是最新的,文章对我们的工作或生活有用。图1为Intrinsic DQ,其中准确率为80%,及时性为90%。平均而言,数据的内在质量?S的准确性和及时性从收集的反馈中测量为85%。

代表性数据质量

Representational DQ指定了在web门户中显示或提供数据的方式。
代表性DQ包括内容覆盖、写作风格、交互性、布局、多媒体表示、导航、组织和存档。这些因素有助于在线门户网站以最有效的方式向广大用户展示其信息。图2为表征性DQ,其中数据的表征性质量通过各种因素进行观察。
从图表2中可以观察到,数据的导航非常高,达到86%,数据展示的布局、组织和归档也很高,分别为85%、84%和85%,与收集到的反馈差异非常小,只有1%。
内容覆盖率和交互性分别为65%和70%。多媒体呈现被发现是45%的中间值。

结论

了解内容和消费者偏好是独一无二的,这项研究测量了在线报纸的内容和消费者的反应,而不是要求消费者描述他们想要什么样的新闻和信息,以及他们应该如何被报道。对“印度教徒”门户网站“科学”栏目的研究显示了内在和表征数据质量的存在量,这些质量是由数据质量维度量化的,如前所述,在数据分类部分。通过对数据质量维度的量化,研究了内在数据质量和表征数据质量的确切存在。本文进行了一个样本研究,通过数据的维度来量化数据质量,从而可以对量化措施表现不佳的领域给予重视。未来的研究可以导致论文的所有栏目,识别门户网站数据质量的不足,也可以包括提高数据质量的建议。

表格一览

表的图标 表的图标 表的图标 表的图标 表的图标
表1 表2 表3 表4 表5

数字一览

图1 图2
图1 图2

参考文献

















全球科技峰会