Issn online (2320-9801) print (2320-9798)
Santosh Sharma Kongbrailatpam, R.J. Anandhi博士
|
有关文章载于Pubmed,谷歌学者 |
浏览更多相关文章国际计算机与通信工程创新研究杂志
个性化Web搜索是通过为具有个人信息目标的用户定制搜索结果来提高搜索质量的最佳方法。这是通过隐式收集用户配置文件、浏览历史、点击数据、书签、用户位置来实现的。然而,用户不愿意将他们的私人偏好信息暴露给搜索引擎。在个性化网络搜索(PWS)的改进方面进行了大量的研究,该系统在PWS中增加了隐私保护的另一个维度。该系统有一个按名称命名的个性化隐私保护搜索框架,这是一个非常有用的框架,因为窃听者无法获得用户的任何细节,因为隐私措施是在客户端进行的。为实现隐私保护,本系统提供元数据和用户?使用MD-5哈希技术实现的查询加密。一开始,它看起来像一个关键字搜索,但有一个行为观察系统称为Spy-NB,它监视用户。行为和哪个将根据用户提供结果集?兴趣在有效的方式。为了提高个性化搜索,本系统采用了Taxonomy (ontology)概念、RSMV、GreedyIL和GreedyDP算法。 This system may be applied in real world applications like Google and Yahoo search engine, which allows users to describe their interests explicitly by selecting from pre-defined preference option, so that the results that match are re-rank according to the user?s interests and also gives users the option to save web sites they like and block those they dislike.
关键字 |
隐私保护,哈希,本体(内容和位置),风险,概要 |
我的介绍。 |
网络信息的测度不断发展;对于网络搜索引擎来说,将信息返回给满足用户usersâ °个人需求[2]已变得越来越困难。网络搜索引擎是网络流量的最大单一来源,它允许人们寻找有用的信息。当人们在网上寻找什么东西时,他们首先会去搜索引擎,然后在浏览器地址栏中输入域名,直接进行搜索。 |
然而,当网络搜索引擎返回不符合我们真实意图的不相关结果时,用户可能会面临问题。这是因为不同的用户具有不同的背景和兴趣,并且在提供完全相同的查询时可能具有不同的信息需求。为了克服这一问题,个性化网页搜索出现了,因为它可以根据用户的users⢰偏好和信息需求提供不同的结果。考虑查询“”keyboardâ °â°°:个性化web搜索可以通过收集以下用户信息来确定查询: |
1.用户是计算机用户,而不是音乐家。 |
2.用户刚刚输入了一个查询“键盘”,â °â°°但没有“音乐”。 |
在输入查询之前,用户可能已经浏览了一个带有计算机键盘识别的大量单词的网页,例如,计算机,输入输出设备。个人信息(例如书签、浏览历史记录)可能有助于识别客户的特定目的。另一方面,客户担心自己的数据如何被使用。与保密性和安全性相反,隐私取决于用户如何从数据和信息共享中获益。提出的个性化网络搜索是一种创新的搜索结果个性化方法,它利用内容挖掘和位置概念,利用用户的位置和内容偏好对用户进行分析。 |
2相关工作 |
在b[1]中,作者已经证明了它在提高Internet上各种搜索服务质量方面的有效性。然而,有证据表明,usersâ¢Â●不愿在搜索过程中披露其私人信息已成为PWS广泛扩散的主要障碍。考虑了PWS应用程序中的保护保证,这些应用程序将客户端首选项建模为各种级别的客户端配置文件。提出了一种名为UPS的PWS结构,该结构可以根据客户指示的安全先决条件自适应地根据问题总结概要文件。运行时的推测是在两个预测矩阵之间达成和谐,这两个预测矩阵评估个性化的效用和揭示总结的配置文件的保护危险。两个贪婪的计算,特别是GreedyDP和GreedyIL,用于运行时推测。提供了一种在线预测方法来选择自定义查询是否有帮助。它的主要限制是用户提交的查询没有加密,也没有根据用户的位置提供搜索结果。 |
当相同的查询由不同的客户b[2]提出时,一般的网络爬虫返回相同的结果,很少注意是谁提出的问题。自定义网页搜索是一种很有前途的方法,它通过为具有不同数据目标的个人重做查询项来提高搜索质量。然而,用户对于向网络爬虫揭示私人倾斜信息感到不舒服。此外,保护不是完全的,如果对客户端的管理或生产力有额外的影响,通常可以进行交换。为客户提供了一种丰富的客户配置文件生成方法。显示了客户端因此创建富客户端配置文件的自适应路径。这些档案将客户的优势缩小到不同层次的联系,如特定爱好所示。提出了两个指示保护必要性的参数,以帮助客户选择呈现给web搜索工具的配置文件数据的微妙元素的内容和级别。它的主要局限性是没有收集到个性化的数据,在处理大量信息时也不令人满意。 |
[3]的作者说,尽管个性化搜索已经提出了很多年,许多个性化策略也被研究过,但个性化是否对不同用户的不同查询、不同搜索环境下的不同查询始终有效,这一点仍然不清楚。并对这一问题提出了一些初步的结论。基于查询日志,构建个性化搜索的大规模评估框架,然后利用12天的MSN查询日志[3],评估5种个性化搜索策略(包括2种基于点击的和3种基于配置文件的)。通过对结果的分析,我们发现个性化搜索在某些查询上比普通的web搜索有显著的改进,但对其他查询(例如,小点击熵的查询)几乎没有影响,并且揭示了长期和短期上下文对提高基于个人资料的个性化搜索策略的搜索性能非常重要。它的主要限制是在大型数据库中搜索结果不准确。 |
3问题陈述 |
在现有系统中提出了一个UPS框架,即客户端隐私保护框架。可以想象,任何以进步的科学分类方式捕捉客户资料的PWS都可以接受UPS。该框架允许用户通过分层配置文件指定自定义的隐私需求。此外,UPS同样对客户资料进行在线猜测,以确保客户的安全,而不牺牲搜索质量。提出了两种在线泛化算法GreedyDP和GreedyIL,在保留user⢰定制隐私要求的同时,获得了更好的搜索结果。它还提高了效率和效果。 |
同时在目前的框架下,它运用的只是投机的思想。它破坏了现有框架的执行。为此,我们将通过使用一些不同的属性(例如,选择性)来执行和扩展该方法,并使框架能够捕获查询的进展。在现有的系统中,它在处理和通信方面的成本都很高。 |
现有的系统有三个框架体系结构。在这三个部分,即客户端,服务器和代理已被利用。客户端数据被传递给代理。在该框架中,数据具有选择性。它不能被赋予保护。在这一点上,当所寻求的数据被总结之后,只有数据被放在历史中。只是隐藏的数据被保存到历史中。字符串相似匹配算法(SSM算法)优于贪婪算法。它在索引列表中实现了更高的准确性。 |
四、建议的框架 |
为了执行关注内容和位置信息的查询,内容挖掘和基于位置的概念利用了位置和内容首选项。位置数据是从网络档案或历史页面中提取的,这些数据被转换成基于位置的数据,即经纬度对。当客户端输入带有经纬度对的查询组合时,框架以预定义的范围经度匹配为中心形成一个搜索圈,并恢复搜索圈内包含区域信息的数据。 |
提出了一种个性化网页搜索中用户隐私保护的框架,该框架采用哈希法,根据用户自定义的隐私保护需求对每个查询进行处理。 |
当用户在客户端发出web搜索查询时,使用哈希技术生成的哈希标签进行加密,如图1所示。以元数据形式出现的加密查询被传递给服务器。然后,服务器在Taxonomy Management处理查询之后,从数据库中检索与查询相关的日期。分类法管理包括内容本体和位置本体。使用内容本体和位置本体以及点击数据创建包含用户位置偏好的特征向量。然后,它们将被更改为面积权重向量,以便根据客户的位置偏好对索引列表进行排序。 |
在客户端,当用户向系统发出输入或查询以搜索web中的任何信息时,查询是加密的。这是使用哈希技术完成的,如图4b所示。然后,加密的查询以元数据的形式出现。此元数据传递给结果集提取。在结果集提取过程中,通过使用服务器数据库中存在的发布和本体细节,服务器处理用户提供的查询。本体和发布过程由系统管理员(即服务器)管理。服务器将结果集以加密数据的形式传输到客户端。然后对加密的结果进行解密。在解密后,GreedyIL和GreedyDP算法保证将所有可能的结果提供给用户,从而使信息丢失最小化,使判别能力最大化。 |
A. Web个性化本体 |
本体用户概要是一种表示,在这种表示中,用户的统一上下文模型被表示为参考领域本体的实例,其中概念由基于信息访问行为派生和隐式更新的兴趣分数来注释。通过对给定查询从搜索引擎返回的结果重新排序,利用用户上下文来个性化搜索结果是主要目标。语义知识是用户上下文的重要组成部分,因此在我们的框架中使用领域本体作为语义知识的基本来源。 |
用户分析的本体论方法已被证明可以成功地解决推荐系统中的冷启动问题,因为在[19]的早期没有可用的初始信息。在了解客户兴趣时,系统在收集到足够的数据以进行客户分析之前执行得不充分。根据概要文件利用本体允许初始用户行为与现有领域本体概念相匹配。在这种方法中,使用本体的目的是识别特定Web用户可能感兴趣的主题。在图3中,考虑到概念之间的层次关系来构建本体用户配置文件,并使用扩展激活更新现有概念的注释 |
与内容本体一样,位置本体与来自客户端的点击数据相结合,生成包含用户位置偏好的特征向量。然后,它将被转换成一个位置权重向量,以便根据user⢰的偏好对搜索结果进行重新排序。 |
B.用于查询条件和隐私数据的哈希标签生成 |
客户端查询和位置保存在服务器中,服务器通过MD5(单向加密)进行哈希编码。Message-Digest Algorithm 5是一种广泛使用的128位哈希值加密算法。MD5已广泛用于各种安全应用程序中,并且通常用于检查记录的可信度。MD5哈希通常以32位十六进制数的形式进行通信。 |
信息消息被分成512位的块(16个32位整数),消息被缓冲,因此它的长度可以被512拆分。缓冲按以下步骤填充:首先将一个单独的位1粘贴到消息的末尾。这后面跟着相同数量的零,这使得消息的长度最多比512少64位。剩下的位以64位数字结尾,表示第一条消息的长度,以位为单位。MD5计算使用4个状态变量,每个状态变量都是32位整数(在大多数框架中是无符号长)。这些变量经过分割,(最终)成为消息摘要。 |
MD5由64个这样的操作组成,这些操作分为4轮,共16个操作,如图4所示。F是非线性容量;Mi表示消息输入的32位块,Ki表示32位常量,每个操作不同。S表示位向左旋转S位;S因每次操作而异。表示加法模232。 |
初始化变量如下: |
A = 0x63252301 |
B = 0xEDFVAB89 |
C = 0x98BDESFE |
D = 0x10396476。 |
现在进入算法的实际内容:算法的主要部分使用四个函数来彻底搜索上述状态变量。这些职能如下: |
F(x, y, z) = (x & y) | (~(x) & z) |
G(x, y, z) = (x & z) | (y & ~(z)) |
H(x, y, z) = x ^ y ^ z |
I(x, y, z) = y ^ (x | ~(z)) |
其中&,|,^和~是按位的and, OR, XOR和NOT操作符 |
状态变量从初始状态的转换是通过使用状态变量和输入消息以及上述函数来实现的。然后生成消息摘要。在此之后,消息摘要存储在状态变量A, B, C, d中。示例:让我们在摘要之后考虑: |
A = 0x01234567; |
B = 0x89ABCDEF; |
C = 0x1337D00D |
D = 0xA5501010 |
那么消息摘要将是: |
67452301EFCDAB890DD03713010151A5(输入值的所需哈希值)。 |
例子: |
MD5(“Java是一种编程语言”) |
= 9 e107d9d372cc6826bd81d3542a419d6 |
C.使用SPY NB算法的个人行为收集 |
Spy NB (Naïve贝叶斯)从点击数据中提取的偏好中获得用户行为模型。假设用户只点击他们感兴趣的文档,Spy NB将点击的文档视为阳性样本,并从未标记(即未点击)文档中预测可靠的阴性文档。为了进行预测,“间谍”技术将一种新的投票过程合并到朴素贝叶斯分类器中,以从未标记的文档集中预测一组负面文档。 |
D.使用自适应排序技术的个性化搜索 |
利用排名支持向量机(Ranking Support Vector Machine, RSVM)实现自定义定位能力,根据客户端位置和内容数据对列表项进行排名调整。特征向量可以被认为是特征空间中的一个点,因为它能够表示每个文档。从搜索结果中提取一组位置和内容概念作为文档特征。RSVM的主要目标是使用首选项对找到排序函数,并尽可能多地保存文档首选项对。 |
五、伪代码 |
第一步:读取用户提交的关键字(“query”)。 |
步骤2:识别用户的user_ID, user_location。 |
步骤3:提取user_location的位置详细信息(纬度和经度)。 |
步骤4:使用MD5散列加密关键字。 |
enc = MD5(关键词) |
第五步:找到与关键词匹配的帖子。 |
结果= getPostingSearch(关键字,enc) |
第六步:计算内容距离。 |
avg = (count_list /总数)* 100; |
avg_list = (avg / 2); |
Con_avg_list = content_distance(发帖,关键字); |
第七步:计算位置距离。 |
Total_dist =total_distance +距离; |
avg = 100 - avg; |
avg_list = (avg / 2); |
Loc_avg_list = location_distance(纬度,经度); |
步骤8:使用SPY-NB和RSVM计算排名分数。 |
Sum = con_avg_list + loc_avg_list; |
步骤9:显示结果。 |
六、实验结果 |
该框架在不影响个性化搜索质量的前提下,有效地为用户提供了安全的搜索界面。虽然这个框架关注的是用户的偏好,但它向用户返回的是高质量的搜索结果。该框架通过最小化信息损失和最大化判别能力,成功地提高了搜索精度。 |
用户提交的查询使用MD-5哈希技术(Message Digest- 5)进行加密,如图5所示。userٙ™的查询和位置保存在服务器中,该服务器由MD5(单向加密)进行哈希编码。Message-Digest Algorithm 5是一种广泛使用的128位哈希值加密算法。MD5已广泛用于各种安全应用程序中,并且通常用于检查记录的可信度。MD5哈希通常以32位十六进制数的形式进行通信。因此,该框架成功地为个性化网页搜索增加了一个新的安全维度。 |
点击数据是一个搜索引擎日志,它记录了每个查询显示给客户端的结果概要以及客户端点击的链接。点击数据可以用最小的开销记录下来,而且不用牺牲搜索引擎的实用性和方便性。具体来说,与客户的明确批评相比,它不包括客户的任何开销。查询和返回的定位可以毫不费力地记录在向客户机显示后续排名的任何点上。为了记录快照,一个基本的中介框架可以保存一个日志文档。 |
Spy-NB是一个令人信服的意图,产生如图6所示的正面和负面数据集,从中可以推断出准确的偏好片段对,以提高排序能力。这种方法同样解决了客户机在输出结果概要时可能跳过一些适用连接的问题,从而提示提取错误的首选项对。 |
SPY-NB创建了一个首选项安排,然后将其输入RSVM(排名支持向量机)算法,以推进客户端的排名功能。此时,排序项将显示为由查询和命中归档组成的一对,只有具有相同查询的项才在一个概要中排序。所有内容都由特征向量表示,特征向量记录元素和相关组件权重,以允许最终客户端“调整”排序能力,同时考虑到查询unwind系统与排序支持向量机的耦合。排序函数确认项目特征向量并生成项目的显著性分数。分数越高,这个项目的排名就越高。 |
图7中的搜索结果根据位置重新排序。用户在登录个性化网络搜索界面时设置他们的位置(例如“Bangalore”)。搜索引擎将根据用户指定的位置返回结果。这表明指定的位置是主要首选项,而其他位置则是次要的。因此,成功地实现了个性化的网络搜索,同时在不降低性能的情况下保护了用户的隐私。 |
7结论及未来工作 |
成功地实现了一个基于本体和哈希技术的个性化web搜索隐私保护框架。虽然个性化搜索还不清楚,个性化是否对不同用户和不同搜索上下文的不同查询持续有效,但所提出的框架克服了这一局限性。在现有方法中,clientٙ™的数据被传递给代理,因此隐私保护受到损害。隐式收集个人数据可能很容易暴露usersâ °私人生活的范围,itâ°°是危险的。然而,该框架为隐私保护和个性化网页搜索提供了更安全、更创新的思路。为了实现隐私保护,本系统提供元数据和user⢰s查询加密,并采用MD-5哈希技术实现。该系统支持基于用户而不是基于系统来检索运行时分析搜索结果;这是之前没有的。基于兴趣分数和位置偏好对搜索结果进行重新排序可以有效地将最相关的结果呈现给用户,因此采用了SPYNB (Naïve贝叶斯)和排名支持向量机(RSVM)。为了提高系统的效率,在客户端维护users⢰profile,并通过GreedyIL和GreedyDP将所有可能的查询结果提供给用户,从而最大限度地减少信息丢失,最大限度地提高识别能力。 And also taxonomy (Ontology) repository concept is used to achieve personalized web search in this system. In future work, the proposed framework can be integrated into Web browsers like Internet Explorer, Mozilla Firefox, etc. and also be developed as a mobile application (Android/iOS). |
参考文献 |
|