关键字 |
语义爬虫,本体学习,服务广告,服务信息发现。 |
介绍 |
互联网已经成为通过文件访问信息的最大的非结构化数据库。互联网已成为世界上最大的市场,网络广告受到众多行业的青睐,而矿业服务广告是矿业服务信息的有效载体。顾客可以通过各种各样的服务广告浏览更多不同种类的产品,获得服务。用户可以通过在线交易系统购买带有服务广告的产品。在服务广告过程中会出现三个问题:(a)异构性,(b)普遍性,(c)模糊性。 |
非均质性 |
为了有效地检索网站上的服务信息,提出了异构的方法。服务按照不同的角度进行分类,包括服务工具的所有权、服务的效果、服务行为的性质、交付、需求和供应,等等。 |
无处不在 |
服务广告可以由服务提供者通过各种服务注册中心进行注册。所有在一个服务提供商下注册的服务都将通过互联网在地理上分布。 |
模棱两可 |
网络爬虫是一种Internet机器人,它系统地浏览万维网,通常用于Web索引。通常,对于索引,基于爬虫的引擎考虑的因素比他们在网页上能找到的要多得多。爬虫将每个网页放入一个索引,并在索引中寻找链接到当前网页的其他页面,用户请求的查询将在相关类别下的一些其他目录中,这些“页面外”部分在网页由基于爬虫的引擎评估时具有更大的权重。网页开发者可以通过调整HTML代码的相应区域来增加网页关键字的相关性,用户仍然对互联网上链接到用户的其他相关页面有更少的控制。网络爬虫的主要挑战是(a)协作式网络爬行,(b)深层网络爬行,(c)多媒体内容爬行,(d)未来发展方向。 |
协作式网络爬行 |
爬行节点负责网络的特定部分。目标是通过考虑页面的URL地址、页面的内容、链接的扩展锚文本等特征,收集关于指定地理位置的网页。后来,人们提出了各种评价标准来评价这种爬行策略的性能。更准确地说,页面的URL地址和链接的扩展锚文本等特征显示了为地理重点爬行提供最佳的整体性能。 |
在深层网络中爬行 |
已经提出了几种表单查询语言(例如DEQUEL),除了发出查询外,还允许从结果页面提取结构化数据。Sitemap协议(由谷歌在2005年首次开发并引入)和mod oai是允许搜索引擎和其他感兴趣的各方在特定的web服务器上发现深层网络资源的机制。这两种机制都允许Web服务器发布可在其上访问的url,从而允许自动发现未直接链接到表面Web的资源。 |
抓取多媒体内容 |
网络现在是多媒体平台,如果有图像,音频,视频,这些都是网页的组成部分。将会有明显的版权问题,从爬虫需要更多的资源(例如:带宽,存储空间),更复杂的副本解析和重访策略是多媒体爬行环境中最重要的挑战。 |
未来的发展方向 |
协同爬行、混合推送模型、理解网站结构、深网爬行、媒体内容爬行、社交网络爬行是网络爬虫未来发展方向的挑战。 |
相关工作 |
在本节中,我们介绍了使用SASF爬虫的挖掘服务信息。最后对XML、HTML、RDF、本体学习进行了简要分析。 |
XML |
XML被用于web开发的许多方面,通常是为了简化数据存储和共享。使用XML,数据可以存储在单独的XML文件中。这是一种集中使用HTML/CSS进行显示和布局的方法,并确保底层数据的更改不需要对HTML进行任何更改。XML数据以纯文本格式存储。这提供了一种独立于软件和硬件的数据存储方式。这使得创建可由不同应用程序共享的数据变得更加容易。对于开发人员来说,最耗时的挑战之一是在Internet上不兼容的系统之间交换数据。以XML格式交换数据大大降低了这种复杂性,因为不同的不兼容应用程序可以读取数据。从一开始就有一些缺点阻碍了它的广泛使用。目前市场上还没有XML浏览器。 Thus, XML documents must either be converted into HTML before distribution or converting it to HTML on-the-fly by middleware. Barring translation, developers must code their own processing applications. XML isn't about display -- it's about structure. This has implications that make the browser question secondary. So the whole issue of what is to be displayed and by what means is intentionally left to other applications |
超文本标记语言 |
HTML,或超文本标记语言,用于创建网页。网站作者使用HTML来格式化文本作为标题和标题,在网页上排列图形,链接到网站内的不同页面,以及链接到不同的网站。HTML是一组代码,网站作者插入到纯文本文件中以格式化内容。创建者在单词或短语的前后插入HTML标记或命令,以指示它们的格式和在页面上的位置。它只能创建静态和普通的页面,所以如果我们需要动态页面,那么HTML就没有用处了。为了制作简单的网页,需要编写大量的代码。HTML中的安全特性并不好。如果我们需要写很长的代码来制作一个网页,那么它就会产生一些复杂性。 |
RDF |
资源描述框架(RDF)是万维网联盟(W3C)规范的一个家族,最初是作为元数据模型设计的。它已经被用作在web资源中实现的概念描述或信息建模的通用方法,使用各种语法符号和数据序列化格式。它还用于知识管理应用程序。RDF模型基于一个简单的思想,但是它存在一些问题,使它变得不必要的复杂,从而降低了它的价值。这些问题可以分为三类: |
•存在没有名称的节点。 |
•与文字相关的问题。 |
•缺乏节点的独特概念。 |
由于上述版本存在种种缺陷,本文采用了本体学习和关注语义的爬虫。 |
本体 |
本体学习(本体提取、本体生成或本体获取)是一种自动或半自动的本体创建,包括从自然语言文本语料库中提取相应领域的术语以及这些概念之间的关系,并用本体语言进行编码,以便于检索。由于手动构建本体是非常劳动密集型和耗时的,因此有很大的动力将该过程自动化。通常,该过程首先使用词性标记和短语分块等语言处理器从纯文本中提取术语和概念或名词短语。然后使用统计或符号技术提取关系签名,通常基于基于模式或基于定义的下标词提取技术。 |
(语义Web)词汇表可以被认为是一种特殊形式的(通常是轻量级的)本体,或者有时仅仅是具有(通常是非正式的)描述含义的url的集合。 |
为了使用本体解决问题,将本体定义为概念C和关系R的集合。R中的关系可以是分类学的,也可以是非分类学的。例如,由一组概念组成的简单的大学本体 |
Ccollege ={个人,教师,员工,学生,部门,项目,课程},以及一组关系。Runiv={Department_Of(Person, Department), Member_Of(Person, Project), Instructor_Of(Course, Person), Superclass_Of(Faculty, Person), Superclass_Of(Staff, Person), Superclass_Of(Student, Person)}。 |
superclass_of表示分类关系,而其余的则不是。在这个定义中,本体的实例是指本体的概念和关系的实例。如果每个概念实例都以Web页面的形式存在,那么关系实例将以Web页面的形式存在。另一方面,如果每个概念实例以HTML元素的形式存在,那么关系实例将以HTML元素对的形式存在。在Web提取研究中通常采用这种替代观点。值得注意的是,对于一些网站,概念实例的其他形式或混合形式也可能存在。 |
基于本体的web挖掘 |
Web挖掘概述 |
Web挖掘是指从Web数据中发现知识,这些数据包括Web页面、Web上的媒体对象、Web链接、Web日志数据以及使用Web数据产生的其他数据。Web挖掘分为:(a) Web内容挖掘,(b) Web结构挖掘,(c) Web使用挖掘。Web内容挖掘是指从Web页面和其他Web对象中挖掘知识。Web结构挖掘是指挖掘连接Web页面和其他Web对象的链接结构知识。Web使用挖掘是指在访问网站的用户中挖掘Web页面的使用模式。在这三种方法中,由于之前在文本挖掘方面的工作,Web内容挖掘可能得到了最广泛的研究。Web内容挖掘涉及的传统主题包括: |
网页分类 |
这涉及到在一些预定义的类别下对Web页面进行分类,这些类别可以组织在树或其他结构中。 |
网络聚类 |
这涉及到基于网页之间的相似性对网页进行分组。每个结果组应该具有相似的Web页面,而来自不同结果组的Web页面应该不相同。 |
网络提取 |
这涉及到从Web页面中提取HTML元素、术语短语或元组,这些元素表示一些必需的概念实例,例如人名、地点名称、图书记录等。 |
Web挖掘和本体 |
在所有上述类型的Web挖掘中,本体可以通过以下两种一般方法应用:如果本体和本体实体的实例都是已知的,那么它通常适用于在输入Web数据中已经识别出本体实例的情况。通过这种额外的数据语义,Web挖掘技术可以发现对用户更有意义的知识。例如,基于本体的Web聚类可以使用与概念实例对应的HTML元素作为特性来派生更准确的聚类。如果网页是概念实例,基于本体的Web结构挖掘可以从网页中推导出概念之间的链接模式,用于网站设计。下面给出的例子展示了本体的概念。 |
文本中出现的单词或短语(如“欧盟”、“企业搜索引擎”等)将与InfoCodex的语言数据库进行匹配,该数据库包含超过300万个单词/短语,这些单词/短语被组织成跨语言同义词组。这些同义词组指向通用分类法(本体)中的一个节点,该节点描述了匹配的同义词的含义。然后,使用这些与语言无关的信息提取文档的内容。 |
中央多语言知识库(语言数据库)是结合和协调来自WordNet、国际标准分类(ICS)、金融分类法和许多其他来源等现有工作的知识库的结果。 |
如果只有本体可以作为输入语义结构,那么本体也可以作为Web挖掘的后台语义结构。例如,基于本体的Web页面分类不是将Web页面分类为类别,而是将Web页面分类为概念实例,将Web页面对分类为关系实例。这允许使用更有表现力的搜索查询(涉及关于概念和/或关系的搜索条件)来搜索Web页面。在基于本体的web提取中,可以解决提取HTML元素作为概念实例和查找相关HTML元素对的问题。 |
文献调查 |
针对工业数字生态系统中存在的服务信息问题,海东提出了一种面向服务自动发现、标注和分类的集中爬行方法。这个问题可以通过为关注语义的爬虫提供一个概念框架来解决,其目的是使用语义Web技术自动发现、注释和分类服务信息。 |
FarookhKhadeerHussain提出了一个用于发现和分类数字健康生态系统中无处不在的服务的框架,以发现服务消费者针对给定的健康服务请求精确快速地检索服务提供者的困难,以解决该框架结合了以语义为中心的爬虫和社会分类技术。 |
法瑞斯佩雷拉已经提出了一个模型基于消费者需求的服务分类找到客户所面临的困难等在线购物大多数服务分类不考虑客户的需要作为一个至关重要的参数的质量服务或成功的策略,可以帮助解决这个问题通过使用服务分类分类可以方便的了解客户的需求和产生发展的支持策略。应努力验证模型的有用性,并根据与不同服务的客户进行的研究,检查所提议的维度之间的关系。 |
Swati Ringe提出了一种名为基于本体的网络爬虫的技术,并发现了用户必须要么浏览概念的层次结构来找到他们需要的信息,要么向搜索引擎提交查询,然后在数百个结果中涉水,其中大多数是不相关的,并通过使用语义来消除那些不相关的项目,这有助于只下载相关页面。语义可以由本体提供。 |
Robert D. Winsora在《使用形式和占有效用区分商品和服务零售》中描述,“商品-服务连续体”对零售分类或战略发展问题澄清得很少,它将通过使用形式和占有效用区分商品和服务零售所提供给消费者的效用来解决。 |
结论 |
从调查结果来看,基于本体学习的语义聚焦爬虫的概念可以在互联网上解决异构性、普遍性和模糊性的问题。预处理有助于在匹配元数据之前处理神学本体中每个概念的内容。自适应抓取和提取是从Internet上一次性下载Web页面,并根据挖掘服务元数据模式从下载的Web页面中提取所需的信息。基于半监督的本体字符串匹配算法自动从Web页面中获取统计数据,以计算概念的服务描述和概念描述之间的语义相关性。性能指标评价了基于SASF爬虫的半监督本体方法与现有方法的性能。 |
|
数字一览 |
|
|
图1 |
图2 |
|
|
参考文献 |
- H. Dong和F. K. Hussain,“工业数字生态系统中自动服务发现、注释和分类的集中爬行”,IEEE反式。印第安纳州。电子。,第58卷,no。6, pp. 2106-2116, 2011年6月,
- 海东,FarookhKhadeerHussain, Elizabeth Chang,数字健康生态系统中无处不在的服务发现和分类框架,科廷理工大学数字生态系统和商业智能研究所,澳大利亚珀斯,WA 6845
- Swati Ringe#, Nevin Francis, PalanawalaAltaf H.S.A,基于本体的网络爬虫,Swati Ringe, Fr.Conceicao Rodrigues工程学院,Fr.Agnel道场,Bandra-w,孟买-400050
- fariaspereira, Suzana Carla,基于消费者需求的服务分类模型,2001年3月30日- 4月2日,佛罗里达州奥兰多
- *,李志强,王晓明,《基于商品形态和所有权效用的商品和服务零售差异分析》,《中国经济研究》(2004)第1期
- J. Rennie和A. McCallum,“使用强化学习有效地检索Web”,在第十六章。相依马赫。学习(ICML ' 99),布莱德,斯洛文尼亚,1999,第335-343页。
- M. Ruta, F. Scioscia, E. Di Sciascio,和G. Loseto,“基于语义的建筑自动化ISO/IEC 14543-3 EIB/KNX标准的增强”,IEEE反式。印第安纳州,备用。,第7卷,no。4,第731-739页,2011年11月。
- S. Runde和A. Fay,“楼宇自动化需求工程的软件支持——语义网技术在自动化中的应用”,IEEE反式。印第安纳州,备用。,第7卷,no。4,第723-730页,2011年11月。
- I. M. Delamer和J. L. M. Lastra,“电子产品中分布式发布/订阅中间件的面向服务架构”,IEEETrans。印第安纳州,备用。,第2卷,no。4,页281-294,2006年11月。
- H. L. Goh, K. K. Tan, S. Huang和C. W. d. Silva,“Bluewave的开发:用于工业自动化的无线协议”,IEEE Trans.Ind.Informat。,第2卷,no。4,页221-230,2006年11月。
- P. Plebani和B. Pernici,“URBE:基于相似度评估的Web服务检索”,IEEE反式。"。数据中。,第21卷,no。9, pp 1629-1642, 2009年11月。
- P. Resnik,“分类学中的语义相似性:一种基于信息的测量方法及其在自然语言歧义问题中的应用”,j . Artif。Intell.Res。,卷11,页95-130,1999。
- 郑海涛,郑炳勇。康和h - g。Kim,“基于本体的可学习聚焦爬行方法”正科学。, vol. 178, pp. 4512-4522,2008。
- T. R. Gruber,“可移植本体规范的转换方法”,知识获取第5卷,第199-220页,1993年。
|