关键字 |
语义聚焦爬虫,本体学习,服务广告、服务信息发现。 |
介绍 |
互联网已经成为最最大的非结构化数据库访问信息的文档。互联网也成为了世界上最大的市场,在线广告是非常受欢迎的许多行业,矿业服务广告在哪里矿业服务信息的有效载体。客户可以浏览更多的产品数量differranges服务通过各种服务的广告。用户可以购买一个产品与服务广告通过网上交易系统。有三个问题发生在服务广告(a)异构性、普遍性(b)和(c)歧义。 |
非均质性 |
异构性提出了有效地检索服务信息的网站。服务分类在不同的角度,包括所有权的服务工具,服务的影响,服务行为的本质,交付,供给和需求等等。 |
无处不在 |
服务广告可以由服务提供者通过各种服务注册中心注册。所有的服务被注册在一个服务提供者通过互联网将地理上分布的。 |
模棱两可 |
网络爬虫是一个网络机器人系统浏览万维网,通常为目的的网络索引。基于爬虫的引擎是通常为索引,考虑更多的因素比他们能找到的网页。爬虫将每个web页面索引和索引中寻找其他页面链接到当前的web页面中,用户的查询要求存在的链接将会在其他目录下相关的类别,这些”页面中有更多的一部分重量当页面被基于爬虫的引擎是一个评估。网页开发人员可以增加关键词的网页相关性通过调整相应的HTML代码,用户仍有少得多的控制其他相关链接到的页面在互联网用户。网络爬虫的主要挑战是(a)协作web爬行,(b)爬行深层网络,(c)爬行的多媒体内容,(d)未来的发展方向。 |
协作网络爬行 |
爬行节点负责网络的一个特定部分。目标是收集网页指定的地理位置,通过考虑功能,如URL地址的页面,页面的内容,扩展的锚文本链接,和其他人。之后,各种评估标准资格提出了这样的爬行策略的性能。更准确地说,等功能页面和扩展的锚文本链接的URL地址显示为地理上产生最佳的总体性能集中爬行。 |
深层网络爬行 |
几个表单查询语言(例如,DEQUEL)已经提议,除了发出查询,也允许从结果中提取结构化数据页。站点地图协议(第一次开发,引入了谷歌在2005年)和国防部的oai机制,允许搜索引擎和其他利害关系方发现深层网络资源在特定的web服务器上。两种机制都允许Web服务器将广告的url访问,从而允许自动发现表面不直接相关的资源网络。 |
爬行的多媒体内容 |
网络现在多媒体平台如果有图片,音频,视频这是Web页面的一部分。将会有明显的版权问题,需要更多的资源从履带(例:带宽、存储位置),更复杂的重复的解决和重新考虑政策的最重要的挑战是在多媒体环境中爬行。 |
未来的发展方向 |
协作爬行,混合推模型,了解网站结构,深层网络爬行,社交网络媒体内容爬行,爬行的挑战未来的发展方向是网络爬虫。 |
相关工作 |
在本节中,我们介绍了与SASF爬虫矿业服务信息。最后我们给出一个快速的分析XML、HTML、RDF,本体学习。 |
XML |
XML是用于web开发的许多方面,经常来简化数据存储和共享。通过使用XML,数据可以存储在单独的XML文件。就是这样专注于使用HTML / CSS显示和布局,并确保底层数据的变化将不需要任何更改HTML。XML数据存储在纯文本格式。这提供了一个软件和硬件独立存储数据的方法。这使它更容易创建不同应用程序可以共享的数据。开发人员最耗时的挑战之一是在互联网上不兼容的系统之间交换数据。交换数据作为XML极大地降低这种复杂性,因为不同的不兼容的应用程序可以读取的数据。有一些缺点阻碍了它成立以来获得广泛使用。市场上没有XML的浏览器。 Thus, XML documents must either be converted into HTML before distribution or converting it to HTML on-the-fly by middleware. Barring translation, developers must code their own processing applications. XML isn't about display -- it's about structure. This has implications that make the browser question secondary. So the whole issue of what is to be displayed and by what means is intentionally left to other applications |
HTML |
HTML或超文本标记语言,用于创建web页面。网站作者使用HTML格式文本标题和标题,安排图形在一个网页上,一个网站内部链接到不同的页面,链接到不同的网站。HTML是一组代码,一个网站作者插入到一个纯文本文件格式的内容。造物主插入HTML标记,或者命令,之前和之后的词或短语来表示他们的格式和位置在页面上。它只可以创建静态和普通页面如果我们需要动态页面那么HTML并不是有用的。需要编写大量代码制作简单的网页。安全特性在HTML中。如果我们需要编写代码做一个网页然后它产生一些复杂性。 |
RDF |
资源描述框架(RDF)是一个家庭的World Wide Web Consortium (W3C)规范最初设计为元数据的数据模型。它被用作一个一般的概念描述或建模方法实现信息在网络资源,使用各种语法符号和数据序列化格式。它也被运用于知识管理应用程序。RDF模型是基于一个简单的想法,但它却使它不必要的复杂问题,从而减少它的价值。这些问题可分为三类: |
•没有名称的节点的存在。 |
•与文字相关的问题。 |
•缺乏节点的一个独特的概念。 |
由于种种缺点在上面的版本,在这里学习和语义本体聚焦爬虫已经使用。 |
本体 |
本体学习(提取本体、本体生成或本体收购)的自动或半自动创建本体,包括提取相应的域的术语和这些概念之间的关系从一个自然语言文本的语料库,用本体语言和编码,以方便检索。作为构建本体手工非常劳动密集型和费时,有伟大的动机过程自动化。通常情况下,这个过程首先从文本中提取术语和概念或名词短语使用词性标注和短语等语言处理器组块。然后统计或象征性的签名技术用于提取关系,通常基于基于模式或definition-based下义词提取技术。 |
(语义Web)词汇表可以看作一种特殊形式的(通常是轻量级)本体,或者有时也仅仅是作为一个集合的url(通常非正式)描述的意思。 |
使用本体来解决一个问题,本体定义为一组概念C和关系R R的关系可以是分类或non-taxonomic。例如,一个简单的大学本体组成的一组概念 |
c大学={人,教师,职员,学生,部门,项目,课程},和一组关系。Runiv = {Department_Of(人、部门),Member_Of(人、项目),Instructor_Of(人),Superclass_Of(教员、人),Superclass_Of(员工、人),Superclass_Of(学生、人)}。 |
Superclass_Ofrepresents分类关系,其余的则不。用这个定义,本体的实例引用实例的概念和关系。如果每个概念实例的形式存在于一个网页,将关系实例Web页面的形式存在。另一方面,如果每个概念实例存在于形成一个HTML元素,将关系实例的形式存在于一个HTML元素。这种观点通常是采用网络提取研究。有人指出其他形式或混合形式的概念实例也可能存在一些网站。 |
基于本体的网络挖掘 |
概述网络挖掘 |
网络从Web数据挖掘是指知识的发现,包括网页、媒体对象在网络上,网络链接、Web日志数据和其他数据生成的Web数据的使用。Web挖掘分为:(a) Web内容挖掘,(b)网络结构挖掘和(c) Web使用挖掘。Web内容挖掘是指矿业知识从网页和其他Web对象。网络结构挖掘是指矿业知识链接结构连接网页和其他Web对象。Web使用挖掘是指使用模式的挖掘Web页面中用户访问一个网站。三,Web内容挖掘可能是研究最广泛由于之前在文本挖掘工作。传统的Web内容挖掘主题包括: |
网页分类 |
这涉及到Web页面的分类在某些预定义的类别可能是组织为树形或其他结构。 |
网络聚类 |
这涉及到Web页面的分组根据它们之间的相似之处。每个合成组应该有类似的网页,而Web页面从不同合成组应该是不同的。 |
网络提取 |
这涉及到提取HTML元素、词汇短语或者网页上的元组表示一些必需的概念实例,如人名、地点名称,书记录,等等。 |
Web挖掘和本体 |
在上述所有类型的Web挖掘,本体可以应用于以下两种普通的方法:如果本体和本体论实体的实例都是已知的,那么它通常适用于本体已确定的情况下,实例中输入Web数据。这个额外的数据语义Web挖掘技术可以发现用户更有意义的知识。例如,基于本体的网络聚类可以使用HTML元素对应于概念实例特性来获得更准确的集群。如果Web页面概念实例,基于本体的网络结构挖掘可以推出连锁模式在从网页网站设计概念。下面的例子显示了本体的概念。 |
单词或表达式(组词,如“欧洲联盟”,“企业搜索引擎”等等)的文本匹配InfoCodex的语言数据库,其中包括300万多名单词/词组结构分为跨语言同义词组。这些同义词组指向一个节点在一个通用分类法(本体)特征匹配的同义词的意义。然后使用这个语言信息来提取文档的内容。 |
中央多语言知识库(语言数据库)是结合和协调知识存储库的结果从作品,如WordNet建立国际分类标准(ICS),金融分类法和许多其他来源。 |
如果本体语义结构可以作为输入,然后还可以使用本体asbackground Web挖掘语义结构。例如,而不是分类网页分类,基于本体的网页分类可能网页分类概念实例和网页对实例的关系。这允许网页搜索使用更多的表达涉及搜索条件的搜索查询的概念和/或关系。在基于本体的Webextraction,可能地址提取两个HTML元素的概念实例的问题和找到相关对HTML元素。 |
文献调查 |
海东提出了集中爬行自动服务发现、注释和分类在工业数字处理已存在的生态系统服务的信息在数字生态系统成为一个至关重要的问题。这可以通过提供一个概念性的框架来解决语义聚焦爬虫,自动发现的目的、注释和分类服务信息与语义Web技术。 |
FarookhKhadeerHussain提出了一个框架,用于发现和无处不在的数字健康生态系统服务分类准确地找到服务使用者的困难和快速检索服务提供者对于一个给定的卫生服务请求解决框架,结合语义聚焦爬虫的技术和社会分类。 |
法瑞斯佩雷拉已经提出了一个模型基于消费者需求的服务分类找到客户所面临的困难等在线购物大多数服务分类不考虑客户的需要作为一个至关重要的参数的质量服务或成功的策略,可以帮助解决这个问题通过使用服务分类分类可以方便的了解客户的需要并生成支持发展的策略。应该努力为了验证模型的有效性和检查之间的关系提出与客户维度的基础上,研究开发不同的服务。 |
斯瓦特吊环,提出了基于本体的网络爬虫技术和发现的问题,用户必须浏览层次结构的概念,找到他们需要的信息或向搜索引擎提交查询和韦德通过数以百计的结果大部分无关紧要和消除那些无关紧要的物品,利用语义有助于只下载相关页面。可以提供语义本体。 |
罗伯特d . Winsora描述区分商品和服务零售业使用形式和占有“goods-services连续”提供公用事业小澄清问题的零售分类或战略发展,解决了基于公用事业所提供给消费者的差异化产品和服务零售业使用形式和公用事业。 |
结论 |
从调查中,基于本体的概念学习的语义聚焦爬虫可以通过互联网解决异构性的问题,普遍性和模棱两可。预处理过程有助于每个概念的内容在theontology匹配的元数据。自适应抓取和提取就是从互联网下载网页,并提取所需的信息从网页下载,根据矿业服务元数据模式。基于半监督的本体字符串匹配算法自动获取网页的统计数据,为了计算服务描述和概念之间的语义相关性的描述一个概念。衡量工作表现的评估建议的方法的性能基于SASF履带与半监督本体方法与以前的方法。 |
|
数据乍一看 |
|
|
图1 |
图2 |
|
|
引用 |
- h .董和f·k·侯赛因”,聚焦爬行自动服务发现、注释和分类在工业数字生态系统”IEEE反式。印第安纳州。电子。,卷。58岁的没有。6日,页。2106 - 2116年,2011年6月,
- 海东,FarookhKhadeerHussain,伊丽莎白,一个框架,用于发现和分类数字healthecosystems无处不在的服务,数字生态系统和商业情报研究所,科廷科技大学、珀斯、佤邦6845年,澳大利亚
- 斯瓦特吊环#,内文弗朗西斯,PalanawalaAltaf H.S.A.,Ontology Based Web Crawler,Swati Ringe, Fr.Conceicao Rodrigues College Of Engineering, Fr.Agnel Ashram, BandStand, Bandra-w, Mumbai-400050
- fariaspereira Suzana卡拉,一个模型基于消费者需求的服务分类,酸盐- 2001年3月30日- 4月2日,2001年,佛罗里达州奥兰多
- 罗伯特·d·Winsora *,贾格迪什n . Shethb克里斯•Manolisc区分商品和服务零售业使用;拥有实用程序,r温莎et al。/商业研究杂志》57 (2004)249 - 255
- j·兰尼和a . McCallum”利用强化学习蜘蛛网络有效,”Proc。16 Int。相依马赫。学习(ICML ' 99)流血,斯洛文尼亚,1999年,页335 - 343。
- m .太阳f . Scioscia e Di Sciascio和g . Loseto“基于语义增强ISO / IEC 14543 - 3 EIB / buildingautomation KNX标准,“IEEE反式。印第安纳州,备用。,7卷,不。4,第739 - 731页,2011年11月。
- 这和a·费伊”软件支持建筑自动化需求设计一inautomation semanticweb技术的应用,”IEEE反式。印第安纳州,备用。,7卷,不。4,第730 - 723页,2011年11月。
- i m .采用和j·l·m·Lastra“面向服务的体系结构的分布式发布/订阅中间件在电子产品生产,”IEEETrans。印第安纳州,备用。,卷2,不。4,第294 - 281页,2006年11月。
- h·l·高k . k .晒黑黄,和c·w·d。席尔瓦”发展的蓝波:工业自动化、无线协议”IEEE Trans.Ind.Informat。,卷2,不。4,第230 - 221页,2006年11月。
- p . Plebani和b . Pernici URBE: Web服务检索基于相似性评价,“IEEE反式。"。数据中。,21卷,不。9日,第1642 - 1629页,2009年11月。
- p .蕾斯尼克,”语义相似度分类法:信息化措施及其应用在自然语言模糊性的问题,“j . Artif。Intell.Res。11卷,第130 - 95页,1999年。
- B.-Y H.-T。郑。康,H.-G。金”,一个基于本体的方法可学的集中爬行,”正科学。卷,178年,第4522 - 4512页,2008年。
- t·r·格鲁伯“便携式本体的翻译方法规范,”知识获取5卷,第220 - 199页,1993年。
|