所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

基于Web服务的网络搜索信息抽取研究

Maind Neelam R., Sunita nandgive
计算机工程系,G.H.Raisoni工程学院和管理, wagholi,印度
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

现在,每天高效的搜索已经成为每一笔交易的首要关注点。大多数搜索引擎只在服务器端工作,也就是说,如果我们想搜索一个特定的关键字,那么网络爬虫只会在服务器端搜索并返回结果,所以每次我们都必须在服务器端搜索,从而增加了处理时间。许多现有的爬虫将搜索数据从服务器,但不返回任何源在客户端。现有的搜索引擎需要更多的时间来回答查询,因为总没有。交易的更多。例如,如果用户想要搜索某个歌手的一首歌,当前的web爬虫系统会给出正确的结果,但如果用户想要某个特定歌曲的歌手,那么web服务就不能被调用,即使底层数据库可能有所需的信息。所有现有的提取系统都是基于文本查询,因此我们无法从任何可视化输入中搜索所需的结果。任何正常的web应用程序的限制是,由于无状态协议,它们无法跟踪动态数据,因此我们提出的系统将被证明是有效的,因为它支持web服务和许多有状态协议。因此我们的系统将搜索文本查询[4],[5],同时跟踪可视化查询[9]。由于web服务,当我们搜索任何数据时,它的引用也存储在子服务器中,因此每当我们第二次搜索相同的查询时,它将通过子服务器快速返回,而不是联系到主服务器。雷竞技网页版

关键字

Web爬虫,文本查询,可视化查询,Web服务等。

介绍

现有系统在视图上考虑与输入查询相对应的联合查询计划,在查询的大小上是NP-hard。这种假设在我们的Web服务环境中是不切实际的,在Web服务中,资源可能相互覆盖或结合,但通常是不完整的。当源不完整时,我们的目标是找到原始查询的最大受控重写,以便提供最大数量的结果来创建可访问的函数来计算结果,这通常在返回任何答案之前消耗了全部预算。在现有的系统中,任何视觉内容检索都必须同时提取音频和视频特征。提取方法为

时间特性:

颞域[9]是音频信号的原生域。所有的时间特征都有一个共同点,那就是它们都是直接从原始音频信号中提取出来的,没有经过任何转换。因此,时间特征的计算复杂度往往较低。为了提取时间特征,我们根据特征描述的内容将时间特征组分为三组
1.零交叉特性
2.振幅基础特征
3.电源基础特点
在过零特征中,过零是音频信号的基本属性,常用于音频分类。零交叉[9]允许粗略估计主频和频谱质心它有三个不同的相位
•零穿越率
•线性预测过零率
•零交叉峰值振幅
在振幅基础特征中,许多特征直接从振幅计算,即信号的压力变化。基于振幅的特征[5],[9]易于快速计算,但其清晰度有限。它们表示音频信号的时间包络。它有两个阶段
1: MPEG-7音频波形(AW)
2:振幅描述符(AD)。
在基于功率的特征中,信号的能量是根据波形所表示的振幅的平方来计算的。声音的功率是单位时间内传递的能量。因此,功率是信号的均方。很多时候,幂的根(均方根)被用于特征提取。特征提取的广义框图如图1所示。
对于已有的文本搜索引擎,维护一个网络爬虫[2],[3]来搜索文档。通过测量语义相似性参数,在数据库文档中搜索所查询的关键字

关于语义相似性

维基百科是世界上最大的协作编辑的百科全书信息源,它为我们提供了重要的语义信息。所以我们可以从维基百科中获得单词的外部信息,来检查单词之间的语义相似性。首先,我们必须决定一个词在维基百科的哪个部分对我们有用。例如,如果我们在维基百科中搜索“汽车”这个词,我们可以得到很多关于“汽车”的信息,比如汽车的历史,它的生产和安全等等。但我们不能全部使用它们,因为不是所有的片段都对我们分析语义相似性有用。通常,维基百科会为我们在维基百科中搜索的信息返回一些排名靠前的结果。这些片段使用简单的词汇来解释单词,或者简单地给出关于单词[2]的定义或描述。我们选择这些词作为调查对象来衡量词之间的语义相似性。

预处理来自维基百科的片段

我们不能直接使用从维基百科下载的片段[4],[5],因为它可能包含大量语义不相关的单词,不同形式的单词会给我们的计算带来负面影响。因此,我们必须按照以下步骤来处理代码片段:
1)删除停止词。像“a”,“of”这样的词被称为停顿词,对语义分析毫无价值。因此,在进行任何计算之前,我们先删除这些停止词。
2)因为我们会对维基百科的片段做一些统计工作,不同形式的词语会带来不利的影响。我们可以使用像Stemmer算法这样的算法,m3为我们处理文本提供了关键的帮助。我们使用算法来处理来自Web文档片段中的每个单词。

关于TF-IDF

TF-IDF (term frequency - inverse document frequency,术语频率逆文档频率)是信息检索和文本挖掘中常用的权重。这个权重是一种算术度量,用于评估一个词对汇编或语料库中的文档的重要性。重要性随单词在文档中出现的次数成比例增加,但会被该单词在语料库中的出现频率抵消。TF-IDF加权方案的变体经常被搜索引擎用作对给定用户查询的文档的相关性进行评分和排名的中心工具。如果我们考虑一个包含100个单词的文档,其中单词cow出现了3次。牛的术语频率(TF)是0.03(3/100)。
在向量空间模型中,经常使用TF-IDF加权方案和余弦相似度来确定两个文档之间的相似度。我们将使用TF-IDF和余弦相似度对预处理后的Web文档文本进行分析。

利用余弦相似度计算语义相似度

本节详细地提出了一种融合TF-IDF和余弦相似度的词间语义相似度度量方法。

文献调查

Web服务

web服务中用于维护服务器和子服务器之间同步通信的协议是简单对象访问协议(SOAP)、WSDL或UDDI。SOAP是一种有状态协议,用于跟踪服务器和子服务器的内容。这意味着当我们想在服务器端添加任何数据时,它可以在web服务的帮助下自动复制到子服务器上。在现有系统中,大多数web服务用于跟踪信息的备份,以便在节点故障时可以从其他节点恢复数据。而在我们的系统中,我们使用web服务来维护数据的跟踪和服务器信息在子服务器上的存储。
面向服务的体系结构(SOA)是基于同步和异步应用程序的请求/应答设计范例的分布式计算的演化。应用程序的业务逻辑或各个功能被模块化,并作为消费者/客户应用程序的服务呈现。服务接口对执行是自我管理的。应用程序开发人员可以通过组合一个或多个服务来构建应用程序,而不需要知道服务的底层实现。例如,服务可以在. net或J2EE中实现,而使用该服务的应用程序可以在不同的平台或语言上实现。
面向服务的体系结构具有以下关键特征:
1.SOA服务在独立于平台的XML凭证中具有自描述的接口。Web服务描述语言(WSDL)是用来描述服务的标准。
2.SOA服务与通过XML Schema(也称为XSD)正式定义的消息进行通信。消费者与提供者或服务之间的通信通常发生在不同的环境中,对提供者知之甚少或一无所知。服务之间的消息可以被视为企业中处理的关键业务文档。
3.SOA服务在企业中由作为目录列表的注册中心维护。应用程序可以在注册中心中查找服务并调用服务。通用描述、定义和集成(UDDI)是用于服务注册中心的标准。
如图2所示。显示典型的面向服务的体系结构。

HTTP VS SOAP协议

Http代表超文本传输协议。即HTTP协议负责传输任何基于web的材料,如文档,音频文件,视频文件等的请求和响应。Http只能用于传输请求或响应,但不能保存任何数据信息。例如,Http会将用户的请求传输到任何网站,如谷歌,gmail等,但用户只能在自己的帐户上进行修改,但不能反映在客户端服务器端所做的更改,因为Http是无状态会话协议,所以它不能保存任何网络数据的状态,而SOAP(简单对象访问协议)是有状态会话协议,因此我们也可以保存网络数据以更新客户端。也就是说,当用户在服务器端添加任何数据时,其自动复制可以在客户端完成。我们可以使用web服务配置SOAP或任何有状态协议。所有这些消息规则都定义在一个名为WSDL (Web服务描述语言)的文件中。如图3所示。
Web服务体系结构:服务提供者向UDDI发送WSDL文件。服务请求者联系UDDI以查明谁是它所需要的数雷竞技网页版据的提供者,然后它使用SOAP协议联系服务提供者。
服务提供者验证服务请求,并使用SOAP协议在XML文件中发送结构化数据。服务请求者将使用XSD文件再次验证此XML文件。

提出了系统

在我们的系统中,我们将实现一个系统,它可以处理任何类型的用户查询,同时减少事务时间,从而将事务负载转移到本地数据库,而不是中央服务器。In意味着如果用户输入任何文本查询[4],[5],它将被预处理以删除停止词,在预处理[2],[3]以及文本查询搜索之后,我们也会搜索片段。在TF-IDF[3]的基础上进行搜索后,我们会得到搜索关键字的权重并进行相应的排名,如果查询是视听查询,我们会根据上述的过零、振幅基、功率基等时间特征提取特征。web服务[7]用于文本查询以及本地数据和全局数据之间的通信的可视化查询,即如果用户输入任何查询,第一次将在中央服务器进行搜索,但在搜索数据子服务器将跟踪相同的数据并将相同的副本复制到子服务器,因此,第二次搜索的数据将通过本地子服务器快速检索。与此同时,在视听查询的情况下,子服务器和服务器保持整个数据的索引跟踪[9],因此当用户可以进行正向或反向工程时。

结论

在本文中,我们已经经历了各种现有的信息提取技术,如文本提取技术,视听数据提取技术,但对于每一种技术,我们都必须经历大量的事务,从而导致延迟输出,但在我们提出的系统中,我们必须跟踪这两种技术的特点,同时减少总no。并跟踪文本或音频或视觉数据的每个索引,以便更快地输出

数字一览

图1 图2 图3
图1 图2 图3

参考文献










全球科技峰会