所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

集群基于用户的兴趣本体建设选择种子聚焦爬虫的url

j·尼莎1,k Sundareswari2
  1. 主机,Dept of CSE, Karpagam University, Coimbatore , India
  2. Karpagam大学助理教授,部门CSE印度哥印拜陀
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

与越来越多的访问网页在互联网上,它已成为用户逐渐难以找到他们的网页相关的特定需求。了解计算机用户非常有利于帮助他们,预测他们未来的行为。种子网址选择集中网络爬虫打算指导相关的和有价值的信息,满足用户的需求和个人信息提供更有效的信息检索。摘要种子网址选择方法提出了基于用户的兴趣本体。为了丰富语义查询,首先打算应用形式概念分析构建了用户的兴趣概念格与用户日志配置文件。通过使用概念格合并,构建用户兴趣本体可以描述隐含的概念和它们之间的关系更多的语义表示和查询匹配适当。另一方面,充分利用了用户的兴趣本体中提取用户感兴趣的主题区域和扩展用户查询获得最相关的页面作为种子url,这是一个聚焦爬虫的入口。尤其专注于如何完善用户主题区域使用由两部分构成的有向图。

关键字

URL、数据挖掘、爬虫,本体

介绍

数据挖掘(有时称为数据或知识发现)是一个过程,从不同的角度分析数据,总结成有用的信息,信息可以用来增加收入,降低成本,或两者兼而有之。数据挖掘软件分析数据的分析工具之一。它允许用户从许多不同的维度或角度分析数据,分类,总结识别的关系。从技术上讲,数据挖掘就是发现相关性或模式的过程在很多领域在大型关系数据库中。
数据挖掘(分析步骤的“数据库知识发现”过程,或知识发现(KDD)),计算机科学中的一个跨学科的领域,是发现模式在大型数据集的计算过程涉及交叉的方法人工智能,机器学习,数据和数据库系统。数据挖掘过程的总体目标就是从一组数据中提取信息并将其转换成一个可以理解的结构进行进一步的使用。除了原始的分析步骤,它包括数据库和数据管理方面,数据预处理、模型和推理方面的考虑,兴趣度指标、复杂性考虑,发现结构的后期处理,可视化,和在线更新。
数据挖掘使用信息从过去的数据来分析的结果,一个特定的问题或可能出现的情况。数据挖掘作品分析数据仓库中存储的数据,用于存储数据分析。这个数据可能来自所有地区的业务,从生产到管理。经理还使用数据挖掘来决定营销策略为他们的产品。他们可以利用数据之间的比较和对比竞争对手。数据挖掘解释其数据实时分析,可以用来增加销售,推广新产品,或删除产品,不是对公司增值。

相关工作

[1]特定主题网络爬虫程序用于搜索信息从互联网上相关的一些感兴趣的话题。特定主题爬行的主要属性是履带不需要收集所有网页,但只选择和检索相关的页面。由于履带只是一个计算机程序,它不能确定相关web页面。互联网的快速发展使得我们陷入麻烦时,我们需要找到在这样一个大型的网络数据库信息。作者提出一种算法,包括第一个细节和连续爬行。从先前的爬行我们添加一个学习能力提高连续爬行的效率的过程。在[2]中提出一个方法来构建一个动态表示正在进行的语义上下文检索任务,用于在运行时激活用户利益的不同子集,脱离环境的偏好的方式丢弃。这种方法是基于本体的驱动表示话语领域,提供丰富的描述所涉及的语义检索行为和偏好,并使有效途径与偏好的定义和上下文。[3]因为简洁和用户查询词的语义歧义,大多数搜索引擎面临的问题理解查询词的意义。主题搜索引擎不仅准确地理解用户提交信息的需求,而且还拥有相关的语义知识的查询信息来源,以及如何自动和特殊地返回准确的相关信息时,每个用户的“不同的用户输入相同的查询关键字”和“相同的用户输入不同的查询关键字”主题搜索引擎,这是我们的主要研究问题。 Author proposes an approach to construct user query ontology based on WordNet and the query clustering results. User query ontology can specific an interest area for a given query terms, which form the basis of personalized intelligent information retrieval. In [4] authors provide a mechanism for temporally tracking down changes to an ontology throughout it’s life span. In particular the objective is to work on ontology change management, recovery, and visualization of changes and their effects on ontology to understand the ontology’s evolution behavior. To achieve this, all these changes are maintained and managed in a coherent manner. A Semantically enriched Change History Ontology (CHO) is developed and used to record the ontology changes in a Change History Log (CHL). For proof of the concept, here developed the system as a plug-in for the ontology editor Protege that listens and logs all of the ontology changes in CHL. Afterwards, these logged changes are used for ontology recovery (Roll Back and Roll Forward) purposes. Here designed and implemented the Roll Back and Roll Forward algorithms. The logged changes are also used for visualization of changes and their effects at different stages of the evolving ontology. A play back feature is provided to navigate the ontology history for a better understanding of its evolution behavior. In [7] authors updated CCG based on incremental learning to get more topic relevant web pages. Author extracted some Incremental Concept (IC) from new visited pages and inserted these IC into CCG by the semantic similarity between core concept and incremental concept. In addition, authors deleted some concepts from CCG according to a given threshold . lastly, the experiment proved that there was a better result in focused web crawling by our method.

提出了系统

提出系统的描述:

一个新颖的方法来选择种子url web聚焦爬虫的本体,提出了基于用户兴趣。的搜索引擎,它收集的历史行为的用户访问搜索结果和形式用户日志配置文件。每个记录用户日志配置文件包含用户查询主题和相应的点击url。这段历史信息记录隐藏的丰富知识反映一个词到一个词,在用户兴趣域观念和观念。用户使用用户兴趣本体构建知识。
当用户提交的查询主题我们个性化的智能搜索引擎(砌墙泥)、捣实粘土扩展用户查询主题的用户的兴趣本体和调用其他通用搜索引擎,如谷歌、雅虎和AltaVista等。一些网页和url返回。这些web页面可以定向。充分考虑词的语义关系(或概念)在用户兴趣本体优化这些向量。所有web页面被认为是构建用户兴趣向量在用户日志配置文件。选择常用单词。

用户配置文件创建

如果有任何新用户进入系统,他/她应该先登录注册他们的细节。这个模块是对用户查询。如果用户提供的查询搜索,每个查询指出特定的搜索时间,存储在数据库中。当前用户标识使用会话属性。

创建用户兴趣本体

在这个模块用户兴趣本体是由使用用户历史查询日志。用户输入查询通常是发现在一个搜索引擎的查询日志。如果两个查询连续发布的许多用户足够频繁发生,他们可能是彼此的。衡量一个用户发布的两个查询之间的相关性,利用时间戳之间的间隔内的查询用户的搜索历史。

网页排名

捕获在这个模块中,相关查询要考虑从搜索日志的查询可能会促使用户经常点击相同的url。url的排名是根据用户点击最多的。通过提供排名,我们可以提高网页根据用户的需要。

预测用户行为

每个查询组包含和相关的查询和点击密切相关。通过使用这种方法利用搜索日志以确定更有效地查询组之间的相关性。事实上,大量用户的搜索历史记录包含有关查询信号相关性,如查询往往发布紧密合作,并会导致点击查询类似的url(点击查询)。

实现

一粒种子网址选择方法提出了基于用户的兴趣本体。我们可以充分利用了用户的兴趣本体中提取用户感兴趣的主题区域和扩展用户查询获得最相关的页面作为种子url。
输出截图分别如图1和2所示。

结论和未来的工作

集中的种子网址选择网络爬虫在搜索引擎是一个重要的研究。的搜索引擎,它收集的历史行为的用户访问搜索结果和形式用户日志配置文件。每个记录用户日志配置文件包含用户查询主题和相应的点击url。用户的兴趣本体建设提出了通过用户日志配置文件。基于用户的兴趣本体,我们提出了种子网址选择方法。在未来可能在其他领域发展。

数据乍一看

图1 图2
图1 图2

引用

全球技术峰会