所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

个性化的网络搜索的丰富隐私保护

瘦骨嶙峋的契连1E。哈里Prasath2拉胡尔P3
  1. P.G.学者,CSE, R.V.S.工程与技术学院,印度哥印拜陀。
  2. 助理教授,CSE, R.V.S.工程与技术学院,印度哥印拜陀。
  3. P.G.学者,CSE, R.V.S.工程与技术学院,印度哥印拜陀。
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

个性化的网络搜索已经表示它的成功改善不同年级的在互联网上搜索服务。证据显示,用户不愿告诉他们的个人信息在搜索已经成为一个主要的街垒的广泛建设规模。在我们研究私人安全pws表示用户的欲望层次用户配置文件的应用程序。推广资料查询,参考用户指定一个私人需求使用ups pws框架。个性化和隐私风险的两个预测指标效用是用来构建,概要文件。对于推广我们使用贪婪的DP和贪婪算法。创新的结果告诉,贪婪的IL明显优于贪婪的DP在效率方面。

关键字

个性化的网络搜索,实用工具,风险,概要文件

介绍

太长的web搜索引擎已成为老百姓最主要网关在网络上寻找有用的数据。然而用户可能发生非成功当无关的搜索引擎返回的结果不符合实际的目标。这样不重要主要是由于巨大的各种用户的条件和环境,以及文本的含糊其辞。个性化的网络搜索提供更好的搜索结果,用于个人用户需求。对于这个用户信息必须收集和分析找出背后的用户意图发出查询。
PWS的结果可以分为两种类型,即click-log-based profile-based的方法。clicklog——基于增量方法点击页面上的偏见。这种策略一直工作,相当好,但它需要重复搜索查询的用户,这些都限制了其适用性。但profilebased上风click-log-based因为复杂的用户兴趣模型的使用从用户生成的分析技术。基于配置文件的方法通常是有效的但不稳定的在某些情况下。
两种方法都有自己的优点和缺点,但是这个概要文件的基础技术证明了有效性改善搜索质量。它是通过申请的个人和行为细节用户,通常来自查询历史,点击数据,浏览历史、书签、用户文档等。不幸的是这么小的用户数据揭示了一个用户的个人生活的照片。许多隐私问题将从这种不安全感的私人数据。所以隐私问题已成为广泛flourishment PWS服务的主要障碍。

1.1动机:

为了提供基于用户隐私资料的浆,研究人员必须考虑两种对立属性。一方面,他们试图提高搜索质量的帮助用户配置文件,而另一方面他们需要隐藏隐私内容的用户配置文件。研究表明,用户愿意妥协隐私为更好的搜索结果。在理想的情况下,我们可以有光滑的搜索结果通过使用用户配置文件的一小部分,即通用概要文件。一般之间有一个权衡隐私保护的搜索质量和水平。
1。自定义隐私需求不考虑现有的系统。
过分保护其他人的用户隐私保护不足。例如敏感话题检测使用一个绝对指标称为惊异基于信息理论,假设用户感兴趣的文档支持更敏感。这种假设可以被怀疑与一个简单的反例:如果一个用户拥有大型文档关于性这一点导致结论的惊异性很一般,不敏感,事实是相反的。之前的工作可以有效地解决个人隐私需求泛化。
2。在创建个性化搜索结果很多个性化技术需要muliterative用户交互。排名得分,平均排名通常用一些指标细化搜索结果需要多个用户交互。然而,这种模式是对运行时分析不可行,因为这不仅会带来太多的隐私侵犯的风险,但也为分析需求的处理时间。衡量我们需要的个性化后搜索质量和风险预测指标,不会导致迭代用户交互

二世。相关工作

个性化搜索可以承诺由于提高搜索质量。这种方法需要用户授予非公开数据的服务器完全访问web,侵犯了用户的隐私。在这篇文章中,调查了practicableness之间实现平衡用户的隐私和搜索质量。首先,关联算法规则提供给用户收集、总结,并组织他们的个人数据输入等级用户配置文件,无论面积单位分层水平高于一般条款具体条款。通过这个概要文件,用户管理部分的非公开数据暴露在服务器通过调整最小细节的阈值。一个额外的隐私生活,经验比,预计将隐私暴露的数量估计所需的最小细节的价格。这项工作目标衔接个性化和隐私保护的冲突的欲望,并提供答案无论用户决定他们自己的隐私设置一个结构化的用户配置文件的支持。这边缘用户在以下方式。提供了一个ascendable由于机械建立在顾客方面等级用户配置文件。这是不现实的想,每个用户指定他们的个人利益明确和清楚。 Thus, associate algorithmic rule is enforced to mechanically collect personal data that indicates associate implicit goal or intent. The user profile is made hierarchically so the higher-level interests area unit a lot of general, and therefore the lower-level interest’s area unit a lot of specific. During this approach, an expensive pool of profile sources is explored as well as browsing histories, emails and private documents.
贪婪的递归公式可能是一个数学运算,构造一个对象集合的最小的潜在组成组件。四处翻找着贪婪算法简单,易于实现解决方案先进、多步骤的问题,决定下一步可以提供最明显的利润。等面积单位被称为贪婪算法的结果,而最好的解决每一个小实例可以提供一个瞬时输出,公式没有考虑更大的缺点作为一个完整的。一旦创建了一个选择,就未曾重新考虑。

三世。提出了系统

保护隐私个性化网络搜索框架提出了UPS,可以概括为每个查询根据配置文件指定的隐私需求。UPS可以采用任何PWS捕获用户配置文件在一个层次分类。框架允许用户指定自定义隐私需求通过分层剖面依赖两个相互矛盾的指标的定义,即个性化效用和隐私风险,分级用户配置文件,制定保护隐私的问题个性化搜索风险泛化。开发两个简单但有效的泛化算法,GreedyDP GreedyIL。在GreedyDP使用鉴别力和GreedyIL使用信息损失分析的支持。前者试图最大化鉴别力(DP),后者试图减少信息损失(IL)。利用启发式,GreedyIL显著优于GreedyDP。

设计注意事项

•用户配置文件的建设
•隐私要求定制
•匹配查询主题
•使用greedyDP和GreedyIL泛化
•性能评估
3.1建设的用户配置文件
离线过程的第一步是使第一个用户概要文件在一个主题层次结构H,揭示用户的利益。它放肆的用户的偏好区域单元描述在一个纯文本文件,用d .构建这个概要文件,我们倾向于采取后续措施:
为每个文档1注意到几个话题R d∈d .因此,偏好文档集d是改写成一个主题组T
2构造剖面H topic-path trie和T,即。H = trie (T)。
3.2隐私要求定制
这个过程1日请求用户指定一套sensitive-node年代⊂H,因此各种灵敏度值得森(S) > 0为每个主题年代∈S .接下来,{价值成本| |价格}层生成的配置文件是通过计算每个节点的价格值t∈H如下:
1。对于每个sensitive-node,成本(t) =森(t);
2。对于每个非敏感的叶节点,成本(t) = 0;
3所示。对于每个非敏感的内部节点,成本(t)是递归地由以下方程在一个自底向上的方式:
3.3查询主题匹配
给定查询问,问题主题映射的需求是1)密码不移动的子树的H,称为种子配置文件,以便所有问相关的主题都包含在它;和2)之间的偏好值q和每一个话题h。这个过程中执行以下步骤:
1。注意R问相关的话题。它发展一个有效的方法来计算所有主题的相关性与q R。这些值是习惯获得非重叠的相关主题的集合用T (q),特别是相关的集合。这些主题需要不重叠的T (q),在他们所有的前期R中的节点,包括query-relevant单词查找树表示R (q)。显然,T (q)的叶节点(q)。注意R (q)通常是低分数的R。
2。重叠R (q)和H种子概要G0,另外一个不移动的子树的H。例如,通过应用映射程序问题上“鹰”,可以得到一组相关的T(鹰)。重叠的示例配置文件query-relevant trie R(鹰)提供了种子Gb,其大小是大大减少,而第一个概要文件。
种子的叶子轮廓G0(从第二步生成的)类型非常引人注目的节点设置重叠设置T (q)和H .它用TH (q),很显然我们有TH (q)⊂T (q)。然后,主题T∈H的偏好价值计算如下:
1。如果t可能是一个叶子节点和t∈(q),其偏好prefH (t, q)是关于长期用户支持对(q),这可能是直接从用户配置文件获取。
2。如果t可能是一个叶子节点和t∉TH (q), prefH (t, q) = 0。
3所示。否则,不是一个叶子节点。价值偏好的主题t是递归综合从孩子的话题。最后,它的简单的归一化倾向于每个t∈H。
3.4推广虐待greedyDP GreedyIL
GreedyDP:给定问题的complexness,其他明智的答案是一个贪婪算法算法规则。这里介绍操作符称为prune-leaf联系起来,这表明叶切除手术的话题从一个概要文件。正式,这可能用的方法修剪叶t Gi Gi + 1。显然,最佳配置文件G *可以生成一个有限长prune-leaf传递闭包。
第一个贪婪算法规则GreedyDP以一种极其自底向上的方式工作。每个i迭代,从G0 GreedyDP选择一片叶子主题t∈家修剪(q),试图最大化效用的输出迭代,特别是胃肠道+ 1。在整个迭代,最好结合地保持注意,表明胃肠道+ 1有最好的鉴别力而满足δ风险约束。不变的方法终止一旦概要广义根主题。best-profile-so-far将最终结果(G *)算法的规则。最GreedyDP的缺点是,它需要重新计算所有候选人的资料(连同他们的辨别能力和隐私风险)产生使prune-leaf试图在所有t∈家(q)。这将导致重要的内存需求和过程的价值。
在贪婪的IL算法程序提高泛化能力的受害启发式支持许多发现。一个重要的发现是,任何prune-leaf操作减少了概要文件的辨别能力。在替代词,无状态的人显示prune-leaf单调性。考虑在第i个迭代操作,类似于最小化最大化的区别性产生信息损失和辨别力概述。高于的发现促使美国保持一个优先队列的候选人pruneleaf运营商毛毛雨操作者造成的数据丢失。具体来说,每个候选人运营商在队列可能是一个元组。这个队列,用字母字符,允许快速检索最简单的这么——这么多候选人算子。
第二个发现是IL简化的计算分析。的解释是,第二项(TS(问;G))为任何修剪操作保持不变,直到剩下一片树叶(在这种情况下的唯一选择修剪是单扇本身)。更重要的是,考虑到2潜在的情况下(C1) t可能是一个节点,没有兄弟姐妹,和t (C2)可能是一个节点有兄弟姐妹。C1是简单的处理。然而,分析IL以防C2需要引入一个影子相对的t .如果我们倾向于计划修剪t时,我们倾向于真正合并t到影子,得到一个全新的影子叶shadow0 t的偏好旁边。第三个发现,以防C1上划定,prune-leaf只作用于一个主题t。因此,它不影响候选人的IL运营商而以防C2,修剪t需要重新计算节点的偏好值的关系。GreedyIL痕迹数据丢失而不是辨别能力。这个保护很多过程的价值。在最坏的情况下,种子内的所有主题的概要文件有关系节点,那么GreedyIL过程质量的O (| G0 | * | TG0 (q) |)。然而,这可以在观察是非常罕见的。 Therefore, GreedyIL is anticipated to considerably beat out GreedyDP..

3.5绩效评估

效用度量的目的是预测搜索质量(在揭示用户的意图)广义上的问题问概要g .没有直接测量搜索质量的基本原理是由于搜索质量主要取决于实施PWS计算机程序员,这是很难预测的。此外,它太dearlywon征求用户对搜索结果的反馈。否则,我们倾向于改造效用预测缺陷的辨别能力的估计一个给定的问题问一个概要文件g .效用度量的主要部分称为轮廓粗糙度(PG),是KL-Divergence机会分布之间的主题域,而不是总部;胃肠道暴露出来。这是
图像
在公关机会(t |问;G)(称为归一化偏好)计算。它将证明这个元素将捕捉主2观察我们倾向于投射在上面,由腐烂的PG(问;G)尊重ob1和单独ob2两项。的主要术语思考,因为预计IC主题TG (q)。另一个量化的不确定性分布用户偏好的TG (q)的主题。这种不确定性效用雕塑是一个点球。鉴别力是表达的规范化组合PG(问;G)和TS (q;G)如下:
图像
然后,个性化工具概述了因为辨别能力的获得是通过公开资料G字母符号结合问题,也就是说,
图像
当暴露G隐私风险概述因为中包含的总灵敏度。敏感的节点是剪裁和其祖先节点区域单元保存在泛化。评估暴露祖先的危险。
图像
标准化的风险可以获得除以非规范与整个敏感性基础节点的风险
图像

四、结果

保护隐私个性化网络搜索用户可定制的框架保护隐私,这可能推广资料的每一个问题与用户指定的隐私需求。GreedyDP和greedyIL广场测量用于推广资料。鉴别力是受雇于损失是受雇于greedyIL greedyDP和知识。当鉴别力会增加信息可以减少损失。比greedyIL GreedyDP高鉴别力。GreedyIL greedyDP风险比较少。的平均时间比greedyDP greedyIL是一个较小的数量。所以greedyIL比greedyDP更健康。
在上面的图4.1显示了图检查greedyDP和greedyIL的辨别能力。x轴表示范围的迭代和y轴表示鉴别力。GreedyIL高鉴别力而与greedyDP审查。图4.2显示了图审查greedyDP和greedyIL x轴之间发生的危险表示范围的迭代和y轴表示风险。比greedyIL greedyDP有很高的风险。所以greedyIL比greedyDP更健康
图4.3显示了图greedyDP和greedyIL比较常见的时间。x轴表示范围的迭代和y轴表示平均时间。greedyDP有很高的平均时间而与greedyIL进行比较。比greedyDP greedyIL最好。

诉的结论和未来的工作

摘要授予客户端隐私保护框架称为UPS定制的网络搜索。UPS无疑可以采用任何PWS捕获用户配置文件在一个极其分级分类。这个框架允许用户通过分级配置文件指定显示隐私需求。它预计2贪心算法,特别是GreedyDP GreedyIL,泛化。实验结果透露,UPS可能达到质量的搜索结果而保护用户的预约隐私需求。另外确认结果的有效性和效力我们的决议。这种方法缺乏找到富有主题之间的关系(例如,cliquishness,顺序,等等)。有效的个性化知识的访问包括2重要挑战:准确的用户上下文和组织知识的特点相匹配的实际背景。打败这个问题,以缩减时间紧张的方法,在我们的预计系统提出形而上学用户配置文件和更高的指标来预测UPS的性能。形而上学是正式的命名和定义的属性和实体之间的相互联系,基本上也就是存在一个特定的领域。 To overcome this issues and in order to reduce time consuming of process, in our proposed system proposing the Ontological User Profiles and better metrics to predict the performance of UPS. Ontology is formal naming and definition of the types and properties and interrelationship of the entities that really or fundamentally exist for a particular domain.

数据乍一看

图1 图2 图3
图1 图2 图3

引用

  1. Lindan寿、他呗,可陈,陈和帮派,“个性化的网络搜索支持隐私保护”,IEEE事务知识和数据工程卷:26没有:2014
  2. b . Tan x沈,c .翟”矿业长期提高搜索精度搜索历史,”Proc。ACM SIGKDD如相依知识发现和数据挖掘(KDD), 2006年。
  3. f·邱和j·曹”,自动识别用户对个性化搜索,“Proc。15日,如您相依万维网(WWW), 727 - 736年,2006页。
  4. j . Pitkow h . Schu¨老子,t·卡斯厄尔·r·d·特恩布尔,a·埃德蒙兹,亚达·e·t·Breuel,“个性化搜索,”通讯。ACM, 45卷,没有。9日,50 - 55,2002页。
  5. j . Teevan s.t。杜,e·霍维茨“个性化搜索通过自动化分析的兴趣和活动,“Proc。28日安。如配置。研究和开发在市立图书馆信息检索(SIGIR), 449 - 456年,2005页。
  6. k . Sugiyama k波多野,m . Yoshikawa“基于用户概要构造自适应网络搜索用户,没有任何努力”Proc。13日,如您相依万维网(WWW), 2004年。
全球技术峰会