关键字 |
深层网络,信息管理,信息收集,信息工作模式,网络挖掘。 |
介绍 |
由于大部分信息都隐藏或锁定在数据库中,因此不可能测量或估计深网的规模。早期的估计表明,深网比表层网大5000倍左右。然而,由于越来越多的信息和网站总是被添加进来,我们可以假设深层网络正以一种无法量化的速度呈指数级增长。深网也被称为暗网、暗网和隐形网,由搜索引擎无法触及的网页和数据组成。深度Web数据集成结构将Web数据库按领域分类,为用户提供集成的查询接口,称为集成接口。Web数据库本身的查询接口,叫做本地接口。通过查询接口,用户可以同时向Web数据库的多个本地结构化接口提交查询。将用户统一接口查询映射到本地接口,关键问题是模式匹配。模式匹配的目的是在不同的查询结构化接口中找到具有逻辑关联的属性对。由于本地接口的多样性,Deep Web模式匹配成为一项非常具有挑战性的工作 |
文献综述 |
几个研究小组已经集中研究了智能深度web集成和信息检索的大规模应用问题。大部分研究都是在数据库系统上下文中进行的,重点是将数据库查询转换为Web请求并解析生成的HTML页面的包装器。深度网络爬行的目的是以可承受的成本获取尽可能多的数据记录Barbosa, 2004)[1],其关键问题是如何生成适当的查询。目前,人们对Deep Web查询进行了一系列的研究,提出了基于先验信息的查询方法和基于非先验信息的查询方法。基于先验信息的查询方法需要预先构建信息库,在先验信息的指导下生成查询。在(Raghavan, 2001)中提出了一种任务特定的Deep Web爬虫和基于标签值集表的查询方法;标签值设置表作为先验信息用于向查询表单传递值。(Alvarez, 2007)[4]提出了一种基于域定义的查询方法,提高了填写查询表单的准确率。这种方法在很大程度上实现了深度爬行的自动化(Barbosa, 2005),非先验信息方法能够克服上述不足。这些方法通过分析前一个查询返回的数据记录来生成新的候选查询关键字,查询过程不依赖于先前的信息。 However, queries with the most frequent keywords in hand do not ensure that more new records are returned from the Deep Web database. (Ntoulas, 2005) proposed a greedy query selection method based on the expected harvest rate. In the method, candidate query keywords are generated from the obtained records, and then their harvest rates are calculated; the one with the maximum expected harvest rate will be selected for the next query. (Wu P, 2006) modeled each web database as a distinct attribute-value graph, and under this theoretical framework, the problem of finding an optimal query selection was transferred into finding a Weighted Minimum Dominating Set in the corresponding attributed-value graph; according to the idea, a greedy link-based query selection method was proposed to approximate the optimal solution.[2] |
与现有的基于信息的方法相比,非先验信息方法提高了深度Web爬行信息获取、查询处理模块、信息工作模型、信息工作模型、Web结构化接口信息获取和Web数据库表示、信息表示、信息存储和推理等方面的查询能力。 |
信息生成查询处理系统研究 |
在集成接口中处理用户的查询,并将查询提交给各个Web数据库。这个模块有三个组件。它们的功能如下:第一个Web数据库选择为用户的查询选择合适的Web数据库,以便以最小的代价获得满意的结果。当向Web数据库选择提交查询时,它会分析查询的特征,根据抽样库中的统计数据,选择排名前几的Web数据库,填写这些Web数据库的查询结构化接口,向Web数据库提交查询。每个web数据库都设法捕捉它的分布和特征。其次,查询转换尝试将集成接口上的查询等价地转换为Web数据库查询结构化接口上的一组本地查询,提取并映射属性后,得到查询转换所需的有效属性。这一步是从有效的属性生成有效的查询谓词。在源查询表单中,用户可以使用四个属性来描述一本书,这意味着我们拥有的属性越多,我们可以得到的查询谓词就越严格。当涉及到目标查询表单时,用户每次可以使用所有属性中的一个来描述图书的一个方面。为了获得不同查询表单的转换,我们必须尽可能获得更多有效谓词。 If we have some domain information about book, we will find the ‘price’ is the least important attribute when describing a type of book. In the other domain, there are the same situations. When translating queries, it is better to make numeric attributes useless, because we have found the numeric attributes are not more important than the other text attributes. Third part Query submission whereby analyzing the submission approaches of local query structured interfaces, and submit automatically each local query.[5] |
A.信息工作模式 |
在深度web信息处理中,通常涉及到它的逻辑约束、关系、元素以及表示构件之间的关系。因此,数据关系模型和表示概念结构的信息是有用的。此外,大多数深网信息是文本文档。需要进行词汇和逻辑分析,并提供相关的语法信息。此外,还存在不同web数据库之间的异构生成问题,以及针对不同暗网缺乏统一的逻辑概念集。 |
在此基础上,提出了一种面向特殊领域Deep Web的领域信息工作模型。该模型除了描述领域概念的属性和关系外,还描述了结构化表示的实体及其相关信息检索,如图1所示。 |
B.信息检索 |
信息检索从web结构化接口和web数据库表示通过这个过程,我们收集和分析web数据库表示和深度web查询结构化接口信息。通过统计和分析预处理后的表征样本,得到表征结构特征。 |
信息表示我们的信息库将由几个层次的一系列框架组成。每个结构都可以被视为一个信息块或信息单元。有不同层次的信息单位。基于关系数据模型构造域表示框架,基于数据库表示字段和概念逻辑字典构造域结构。 |
发现输入属性的出现-对于深度web数据源,只有当我们可以通过查找输入属性的有效出现来查询输入接口时,才能获得示例输出。此外,输入属性和输出属性的出现可以有效地提示它们之间的逻辑匹配。我们结合了两种不同的方法来寻找这种有效的事件。[7] |
1)来自输入结构化接口的出现:我们已经开发了一种新方法,用于使用通常可从与数据源提供的输入接口相关的网页中获得的信息,自动查找输入属性的出现。重点观察到的是,输入界面的网页和输入界面链接的网页总是包含有信息的示例,帮助用户学习如何查询数据源。 |
2)从输出网页中获取事件:除了界面的帮助网页外,另一种为输入属性提供事件的信息源是同一域中其他数据源的输出网页。如果其他数据源的输入属性相似,那么输出属性的出现可以查询到其他数据源的输入属性,从而产生更多的输出网页和输出属性的出现,从而进一步提供输入属性的出现。 |
结论 |
该研究为深度Web智能集成和信息检索提供了基础的资源建设体系。我们展示了如何在深度Web接口匹配系统中使用该系统。在三个真实世界领域的大量实验表明了我们方法的实用性。结果表明,域信息有助于提高匹配精度。它可能对现实世界深度网络的大规模应用有价值。从信息工程的角度看,web信息处理离不开数据库的建设。因此,在框架域的深度网络中,信息检索不再是一个挑战。 |
数字一览 |
|
图1 |
|
|
参考文献 |
- Manuel Álvarez, Alberto Pan+, Juan Raposo, Angel Viña:客户端深度Web数据提取,IEEE动态电子商务电子商务技术国际会议论集(CEC-East ' 04), IEEE
- Dheerendranath Mundluru, Jayasimha Reddy Katukuri, Saygin Celebi:从搜索引擎响应页面自动挖掘结果记录,第五届IEEE数据挖掘国际会议论文集(ICDM ' 05), IEEE
- Robert Baumgartner, Michal Ceresna, Gerald Ledermuller: Web数据提取中的深度Web导航,2005年建模、控制和自动化计算智能国际会议论文集,以及智能代理、Web技术和互联网商务国际会议论文集,IEEE
- Yoo Jung An, James Geller, Yi-Ta Wu, Soon Ae Chun:基于深度Web的本体自动生成,第18届数据库与专家系统应用国际研讨会论文集,2007,IEEE
- Isabelle Guyon, Amir Saffari, Gideon Dror和Gavin Cawley:不可知论学习vs.先验知识挑战,神经网络国际联合会议论文集,美国佛罗里达州奥兰多,2007年8月12-17日
- 杨巨峰,石光顺,郑庆仁:基于深度Web页面的数据提取,2007计算智能与安全国际学术会议,IEEE
- Anand Singh Rajawat, Gopalkrushna Patel和Prashant R. Makwana博士:通过高级知识管理技术进行Web挖掘:智能计算系统国际会议(ICICS'2012) 2012年1月7-8日,迪拜
|