关键字 |
深层网络、信息管理、信息采集、信息工作模型、web挖掘。 |
介绍 |
是不可能测量或估计到深层网络的大小的多数信息是隐藏或锁在数据库。早期的估计数字显示,深层网络表层网的5000倍左右。然而,由于更多的信息和网站总是被补充说,它可以假定深层网络是呈指数增长的速度,不能量化。深层网络,也被称为黑暗的Web,暗网和无形的网络,包括网页和搜索引擎的数据。深层网络综合结构将分类Web数据库的数据域,为用户提供集成查询接口,称为集成接口。网络数据库查询界面本身,称为本地接口。通过查询接口,用户可以提交查询多个本地结构化接口的Web数据库在同一时间。查询用户统一接口映射到本地接口,关键的问题是模式匹配。模式匹配的目的是找到attribute-pairs与逻辑协会在不同查询结构化接口。由于本地接口的多样性,深层网络模式匹配成为一个非常具有挑战性的工作。[7] |
文献综述 |
有几个研究小组专注于问题的大规模应用智能深层网络集成和信息检索。大部分的研究是在一个数据库系统,重点是包装,翻译网络数据库查询请求和解析生成的HTML页面。深层网络爬行的目的是获取尽可能多的数据记录在一个负担得起的成本巴博萨,2004)[1],其关键问题是如何生成适当的查询。目前,一系列的研究进行了深层网络查询,和两种类型的查询方法,即信息化方法和nonprior信息之前,已经提出。之前的信息查询方法需要预先构建的信息基础,并生成查询的指导下之前的信息。(Raghavan, 2001)提出了一个特定于任务的深层网络爬虫和相应的查询方法根据标签值设置表;标签的值设置表作为先验信息用于传递值查询形式。(Alvarez, 2007)[4]提出了基于域定义一个查询方法增加填写查询的准确率形式。这些方法自动化深爬行在很大程度上(巴博萨,2005),non-prior信息方法能够克服上述缺陷。通过分析这些方法生成新的候选查询关键字从先前的查询,返回数据记录和查询过程不依赖于先验信息. . However, queries with the most frequent keywords in hand do not ensure that more new records are returned from the Deep Web database. (Ntoulas, 2005) proposed a greedy query selection method based on the expected harvest rate. In the method, candidate query keywords are generated from the obtained records, and then their harvest rates are calculated; the one with the maximum expected harvest rate will be selected for the next query. (Wu P, 2006) modeled each web database as a distinct attribute-value graph, and under this theoretical framework, the problem of finding an optimal query selection was transferred into finding a Weighted Minimum Dominating Set in the corresponding attributed-value graph; according to the idea, a greedy link-based query selection method was proposed to approximate the optimal solution.[2] |
与之前的信息化方法相比,non-prior信息方法提高深层网络爬行信息采集的查询功能,查询处理模块,信息工作模式,工作模式的信息,从网络结构化信息采集接口和网络数据库表示,信息表示、信息存储和推理。 |
信息的查询处理系统——一个研究 |
处理用户的查询集成界面,填写并提交查询每个Web数据库。在这个模块有三个组件。他们的功能描述如下:第一个Web数据库选择选择适当的Web数据库用户的查询,以较低的成本获得令人满意的结果。提交查询时Web数据库选择,它将分析查询的特点,选择顶部Web数据库根据抽样统计数据基础,填写查询结构化这些Web数据库的接口,并提交查询Web数据库。每个web数据库管理捕捉它的分布和特征。第二个查询翻译试图翻译查询集成接口上等价为一组本地查询Web数据库的查询结构化接口提取和映射属性之后,我们得到了有效的属性查询翻译。这一步是生成有效的查询谓词有效属性。在源查询表单,用户可以使用四个属性来描述一本书,这意味着我们有更多的属性查询谓词我们能受到更多的限制。当涉及到目标查询表单,用户可以使用一个所有的属性来描述这本书的一个方面。不同的查询形式的翻译,我们必须得到更多有效的谓词。 If we have some domain information about book, we will find the ‘price’ is the least important attribute when describing a type of book. In the other domain, there are the same situations. When translating queries, it is better to make numeric attributes useless, because we have found the numeric attributes are not more important than the other text attributes. Third part Query submission whereby analyzing the submission approaches of local query structured interfaces, and submit automatically each local query.[5] |
答:信息的工作模式 |
其组成部分之间的逻辑约束关系和元素和表示通常涉及到深层网络信息处理。所以信息的数据关系模型和表示的概念结构是有用的。另外,大多数深层网络信息文本文档。词汇和语法逻辑分析是必要的和相对的信息是必要的。除此之外,还有hetero-generation的问题在不同的web数据库和缺乏普遍性的逻辑概念不同黑暗web。 |
在上述分析的基础上,一个域信息工作提出了特殊领域深层网络模型。模型描述实体的结构表征及其相关信息检索除了领域概念的属性和关系如图1所示。 |
b .信息检索 |
信息检索,从网络结构接口和网络数据库表示在这一过程中我们收集和分析网络数据库表示和深层网络查询结构化的接口信息。我们获得表征结构特性通过统计和分析样品预处理表示。 |
信息表示我们的信息库组成一系列的帧数水平。每个结构都可以被视为一个信息块或信息单位。有不同层次的信息单位。域表示框架基于关系数据模型和结构字段的基础上构造基于数据库表示字段和逻辑概念词典。 |
发现出现——输入属性深层网络数据源,样本输出只能获得当我们可以通过寻找有效的查询输入接口输入属性的出现。此外,出现的输入和输出属性可以有效地显示它们之间的合理匹配。我们结合两种不同的思想寻找有效的出现。[7] |
1)从输入结构的接口出现:我们已经开发出一种新方法来自动发现出现输入属性的使用通常可以从web页面相关的信息与输入接口提供的数据源。观察的关键是,输入界面的网页和网页相关的输入界面总是包含丰富的例子,帮助用户了解如何查询数据源。 |
2)从输出获得出现网页:除了帮助网页界面,另一种信息来源,提供了一个输入事件属性输出Web页面从其他数据源相同的域。输出属性的出现可以查询其他数据源的输入属性相似,导致更多的输出出现的网页和输出属性,可以进一步提供事件输入属性。 |
结论 |
这项研究提供了一个基本资源建设体系有助于深层网络智能集成和信息检索。我们展示如何使用系统的深层网络接口匹配系统。现实世界广泛的实验在三域显示我们的方法的效用。结果表明,域信息可以帮助提高匹配精度。它可能是有价值的realworld深层网络的大规模应用。信息库建设是不可或缺的网络信息处理与信息工程的观点。因此信息检索与深层网络不再是一个挑战陷害域。 |
数据乍一看 |
|
图1 |
|
|
引用 |
- 曼努埃尔•阿尔瓦雷斯Alberto锅+,胡安Raposo天使维纳:客户端深层网络数据提取,学报IEEE国际会议动态电子商务电子商务技术(04),IEEE CEC-East”
- Dheerendranath Mundluru、Jayasimha Reddy Katukuri Saygin Celebi:从搜索引擎响应页面自动挖掘结果记录,《第五IEEE国际会议数据挖掘(ICDM ' 05), IEEE
- 罗伯特•费利克斯米甲Ceresna杰拉尔德Ledermuller:深层网络导航网页数据提取,学报2005年国际会议上计算智能的建模、控制和自动化,智能代理国际会议上,网络技术和网络商务(CIMCAIAWTIC ' 05), IEEE
- Yoo中安詹姆斯·盖勒Yi-Ta吴,很快Ae春:从深层网络自动生成本体,进行18国际研讨会于2007年数据库和专家系统应用程序,IEEE
- 伊莎贝尔·盖恩,阿米尔Saffari,吉迪恩Dror和加文·考利:不可知论者学习和先验知识的挑战,学报》国际神经网络联合会议,奥兰多,佛罗里达,美国,2007年8月12 - 17
- 我公司杨Guangshun石艳郑Qingren王:从深网页数据提取,2007年国际会议上计算情报和安全,IEEE
- 阿南德•辛格Rajawat Gopalkrushna Patel博士Prashant r . Makwana: Web挖掘通过先进的知识管理技术:智能计算系统国际会议(ICICS”2012年1月7 - 8日2012)迪拜
|