所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

推荐系统及其应用综述

p·n·维贾雅·库马尔1, V. Raghunatha Reddy博士2
  1. 印度阿南塔普拉姆斯里克里希纳德瓦拉亚大学计算机科学与技术系博士研究学者
  2. 印度阿南塔普拉姆斯里克里希纳德瓦拉亚大学计算机科学与技术系助理教授。
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

互联网的发展使得有效地从所有可用的在线信息中提取有用的信息变得更加困难。海量的数据需要有效的信息过滤机制。推荐系统的作用是以个性化的方式引导用户在大量可能的选项中找到感兴趣的对象。推荐系统(RSs)是一种软件工具和技术,为用户提供有用的项目建议。在本文中,我们将研究三种不同的推荐系统方法,即协同过滤(CF),基于内容的过滤,混合推荐系统,可用于不同的电子商务网站。我们将简要介绍每种类型的优缺点,并将介绍推荐系统(RSs)在不同领域的一些应用。

关键字

推荐系统,协同过滤,基于内容的过滤,混合推荐系统,信息过滤。

介绍

推荐系统或推荐系统是信息过滤系统的一个子类,它试图预测用户对[1]商品的“评级”或“偏好”。推荐系统近年来已经变得非常普遍,并应用于各种应用。最受欢迎的是书籍、研究文章、电影、音乐、新闻、搜索查询、社交标签和电子商务网站上的产品。推荐系统帮助并增强了这一自然的社交过程,帮助人们从可用的书籍、文章、网页、电影、音乐、餐馆、笑话、食品杂货等中找到对他们来说最有趣和最有价值的信息。推荐系统因其提高了用户的便利性和商店的利益而被网上商店广泛使用。它将浏览器转变为买家,交叉销售结帐页面上建议的商品,通过只需点击几下就能购买或奖励常客优惠等方式来提高用户的忠诚度。电子商务推荐算法通常在一个具有挑战性的环境中运行,特别是对于像eBay和亚马逊这样的大型在线购物公司。通常,一个快速准确的推荐系统会吸引顾客的兴趣,给公司带来利益。通常,推荐系统通过以下三种方式之一生成推荐列表:协同过滤(CF)、基于内容的过滤和混合推荐系统。RSs主要面向那些缺乏足够个人经验或能力来评估Web站点(例如[2])可能提供的大量备选项的个人。

推荐系统的任务

她列出了推荐系统可以帮助实现的11项流行任务:[3]
找到一些好东西:一个有特色的排名项目列表,发现符合用户的要求。
•找到所有好的物品:满足用户从项目数据库中设置的所有条件的所有项目的列表。
•文本注释:根据当前上下文和长期用户偏好推荐的项目列表。可以根据用户长期的收视习惯,推荐某个频道的某部电视剧。
•推荐一个序列:已搜索项的列表,以及一些不一定符合搜索条件的相关项,但用户可能会感兴趣。
•推荐捆绑包:一个相关项目的列表,这些项目可以一起工作,更好地为用户服务。通常当你买相机的时候,你可能会考虑买一个存储卡,一个眼袋,完成相机的目的。
•只是浏览:对于那些浏览没有明显目的的用户,推荐系统的任务是帮助用户在特定的浏览会话中浏览用户感兴趣的范围内的项目。
•寻找可靠的推荐人:有些用户对系统给出的建议表示怀疑。推荐系统的任务是允许用户测试系统的行为。
•改善个人资料:系统可以从用户那里获取他/她喜欢和不喜欢的信息,通常是明确的偏好信息。
•表达自我:有些用户不太关心推荐,但对他们来说,能够表达他们对某些项目的意见和信念是很重要的。评论区是系统可以接受这些输入的地方,它所创造的满足感也可以作为购买相关物品的动机。
•帮助他人:某些用户甚至会更积极地对商品进行完整的评论或评级,因为他们相信这对社区有益。这可以极大地激励其他潜在买家下定决心。
•影响他人:某些用户可能具有独家影响力,试图说服其他用户购买或不购买该产品。甚至恶意用户也属于这一类。

协同过滤

协同过滤是使用技术过滤信息或模式的过程,其中涉及到各种代理、视点、数据源等之间的协作。协同过滤的应用涉及到非常大的数据集。协同过滤方法已应用于许多不同类型的数据,包括:金融数据,如金融服务机构,整合了许多金融来源;监测和传感数据,如矿产勘探、大面积或多个传感器的环境传感;或者在电子商务和web应用中,重点是用户数据等,协同过滤可以通过协作的方式收集许多用户的偏好或口味信息,自动预测用户的兴趣。
协同过滤方法假设,如果一个人X和一个人Y在一个问题上有相同的意见,X更有可能在另一个问题上有Y的意见,而不是随机选择一个人对“a”的意见。例如,一个针对笔记本电脑口味的协同过滤推荐系统可以给出用户口味(喜欢或不喜欢)的部分列表,从而预测用户应该喜欢哪个笔记本电脑品牌。
协同过滤系统的典型工作流程如下:
•用户通过对系统的项目(如文章、视频或书籍)进行评分来表达他或她的喜好。这些评级可以被视为用户对相应领域兴趣的近似表示。
•系统将这些用户的评分与其他用户进行匹配,并找到品味最相似的人。
•对于相似的用户,系统推荐类似用户评分很高但尚未被该用户评分的项目。
A.协同过滤的类型
一)基于内存:该机制使用用户评级数据来计算用户或物品之间的相似性。这是用来提出建议的。这是早期的机制,在许多商业系统中使用。它易于实施且有效。这种机制的典型例子是基于邻里的CF和基于项目/用户的top-N推荐[5]。代表性的技术是基于邻居的CF(基于皮尔逊/向量余弦相关的基于物品/用户的CF算法)和基于物品/用户的前n推荐。
优点:
•易于实施
•可以轻松增量地添加新数据
•不需要考虑所推荐物品的内容
•与共同评级的道具进行有效扩展
缺点:
•依赖于人类的评分
•数据稀疏时性能下降
•不能向新用户和新物品推荐
对大型数据集的可伸缩性有限
b)基于模型:模型使用数据挖掘和机器学习算法来开发,以根据训练数据找到模式。这些数据被用来对真实数据进行预测。有许多基于模型的CF算法。这种方法有一个更全面的目标,即揭示解释观察到的评分的潜在因素这些包括贝叶斯网络、聚类模型、潜在语义模型(如奇异值分解)、概率潜在语义分析、多重乘法因子、潜在狄利克雷分配和基于马尔可夫决策过程的模型[7]。
优点:
•更好地解决稀疏性、可伸缩性等问题
•提高预测性能
给出一个直观的推荐理由
缺点:
•昂贵的模型构建
•在预测性能和可扩展性之间进行权衡
•丢失降维技术的有用信息
c)混合推荐系统:许多应用程序结合了基于内存和基于模型的CF算法。这克服了本地CF方法的局限性。提高了预测性能。重要的是,它克服了CF的稀疏性和信息丢失等问题。通常大多数商业推荐系统都是混合式的,例如谷歌新闻推荐系统[7]。
优点:
•克服CF和基于内容或其他推荐的局限性
•提高预测性能
•克服CF的稀疏性和灰色羊群等问题
缺点:
增加了实施的复杂性和费用,
•需要通常无法获得的外部信息

基于内容的过滤

基于内容的过滤方法基于条目的描述和用户偏好[8]的概要。这些算法试图推荐与用户过去喜欢的或目前正在研究的商品相似的商品。特别是,将各种候选项目与用户先前评价的项目进行比较,并推荐最佳匹配的项目。这种方法源于信息检索和信息过滤的研究。基本上,这些方法使用一个项目概要来描述系统中的项目。系统根据项目特征的加权向量创建基于内容的用户配置文件。权重表示每个特征对用户的重要性,可以使用各种技术从单独的评级内容向量中计算出来。简单的方法使用额定项目向量的平均值,而其他复杂的方法使用机器学习技术,如贝叶斯分类器、聚类分析、决策树和人工神经网络,以估计用户喜欢项目的概率。
优点:[9]
•用户独立性-基于内容的推荐人仅仅利用活跃用户提供的评分来建立她自己的个人资料。相反,协同过滤方法需要来自其他用户的评级,以便找到活跃用户的“最近邻居”,即具有相似品味的用户,因为他们对相同的项目进行了相似的评级。然后,只有活跃用户的邻居最喜欢的项目才会被推荐。
•透明度——关于推荐系统如何工作的解释可以通过显式列出导致某项出现在推荐列表中的内容特性或描述来提供。为了决定是否信任某个推荐,可以参考这些特征。相反地,协作系统是黑箱,因为对商品推荐的唯一解释是,具有相似品味的未知用户喜欢该商品。
•新项目-基于内容的推荐人能够推荐尚未被任何用户评价的项目。因此,它们不会遇到一流的问题,而一流的问题会影响仅依赖用户偏好进行推荐的协作推荐器。因此,在新项目得到大量用户的评价之前,系统将无法推荐它。
缺点:
•基于内容的过滤的一个关键问题是,系统是否能够从用户对一个内容源的操作中了解用户的偏好,并在其他内容类型中使用它们。
•基于内容的推荐没有内在的方法来发现意想不到的东西。系统在与用户档案相匹配时,会提示得分较高的项目;因此,用户将被推荐类似于那些已经评级的项目。这一缺陷也被称为意外发现问题,以突出基于内容的系统倾向于产生具有有限新颖性的推荐。

混合推荐系统

混合推荐系统是基于协同过滤和基于内容的过滤相结合的。这克服了本地CF方法的局限性。提高了预测性能。重要的是,它克服了CF的稀疏性和信息丢失等问题。给出两种或两种以上的基本推荐系统技术,提出了几种方法将它们组合起来以创建一个新的混合系统[10]。但是,它们增加了复杂性,实现[11]的成本很高。通常大多数商业推荐系统都是混合式的,例如谷歌新闻推荐系统[12]。
优点:
•混合方法试图通过使用两种或多种方法来克服其他方法的局限性,并结合其他方法的优点。
缺点:
•由于它们结合了两种或多种方法来提供更好的推荐系统,但增加了复杂性,因此实现它们的成本很高。

推荐系统的应用

最常见的推荐系统应用包括:
娱乐- - - - - -电影、音乐和IPTV的推荐。
内容- - - - - -个性化报纸、文件推荐、网页推荐、电子学习应用程序和电子邮件过滤器。
电子商务- - - - - -建议消费者购买的产品,如书籍、相机、个人电脑等。
服务- - - - - -推荐旅游服务,推荐专家咨询,推荐房屋出租,或婚介服务。

结论及未来范围

这三种推荐系统在工作中各有优缺点。每种方法中的大多数局限性都可以通过另一种方法得到补充。一个好的推荐系统应该能够不时地提供积极和相关的推荐,并提供替代推荐,以打破用户在推荐列表中看到相同项目的疲劳。未来的推荐系统应该是动态的,个人资料应该能够实时更新。这和各种配置文件的同步意味着需要大量的计算能力,网络带宽等。目前的算法和技术都有较高的内存计算复杂度,导致系统处理时间和数据延迟较长。因此,新的算法和技术能够降低内存计算复杂度,最终消除同步问题将是发展方向之一。

数字一览

图1 图2 图3
图1 图2 图3

参考文献













全球科技峰会