动态的个性化推荐算法对稀疏数据

B.Prasanth¹和R.Latha²

MCA最后一年的学生,VelTech高科技工程学院,印度钦奈
助理教授,MCA、VelTech高科技工程学院,印度钦奈

文摘

推荐系统建议人们在自己感兴趣的商品或服务,被证明是一个重要的解决信息过载问题。协同过滤是它的大问题。为了解决可伸缩性问题,我们可以实现协同过滤算法在云计算平台上。推荐系统是非常重要的在电子商务和其他领域的基于网络的服务。的一个主要困难是动态稀疏数据上提供高质量的建议。在本文中,一种新颖的动态的个性化推荐算法,评级和概要文件中包含的信息内容是利用探索潜在的评级之间的关系,设计一组动态特性来描述用户首选项在多个阶段,最后一个建议是由自适应加权的特性。公共数据集的实验结果表明,该算法具有令人满意的性能。

关键字

协同过滤推荐系统,动态推荐,动态特性,感兴趣的多个阶段。

介绍

互联网提供了一个无与伦比的机会,组织游客瞬间提供数字内容。内容消费者通常有很短的注意力,而厂商可能大量的内容。现在互联网已经成为我们生活不可或缺的一部分,它提供了一个平台为企业提供产品和服务的信息,方便顾客。这种信息的数量正在迅速增加,一个巨大的挑战是确保适当的内容可以快速交付给合适的客户。个性化推荐是一种理想的方法来提高客户满意度和保留。

主要有三种方法推荐引擎基于不同的数据分析方法,即。rulebased,基于内容和协同过滤。其中,协同过滤(CF)只需要关于过去的用户行为数据和评级一样,和它的两个主要方法是社区和潜在的因子模型的方法。可以面向用户或item-oriented附近的方法。他们试图找到志同道合的用户或类似项目的基础上co-ratings,并预测基于评级最近的邻居。潜在因素模型尝试学习模式的潜在因素评级使用矩阵分解等技术和使用因素来计算用户项目的有效性。CF,取得了很大的成功,在场景中,用户首选项是相对静态的。在大多数动态场景中,主要有两个问题,防止准确预测评级——稀疏和动态特性。从一个用户只能率非常小的比例的所有项目,U×我评级矩阵非常稀疏,估算一个候选人评级的信息量远远不够。而潜在因素模型涉及大多数评级捕获用户的口味,他们仍有困难,赶上漂移信号动态推荐因为稀疏,身体,很难解释涉及的原因。动态特性决定用户的偏好可能随时间漂移在动态的建议,导致不同的味道的项目在不同阶段的兴趣,但它不是在以前的研究学习。 In our experiences, the interest cycle differs from user to user, and the pattern how user preferences changes cannot be precisely described by several simple decay functions. Moreover, CF approaches usually accounted the cold-start problem which is amplified in the dynamic scenario since the rate of new users and new items would be high.

一些研究人员曾试图解决上述问题。混合方法结合基于内容和协同过滤以不同的方式提出了缓解稀疏的问题,更多的信息比在他们每个人开采。分类项分为许多类使用内容信息和选择最近的类别执行基于项目协同过滤(IBCF)。一群引入相似性聚类和用它来修改原来的项目相似矩阵。一些方法强调利用时间来处理动态特性的信息。提出模型时间动力学瞬态因素分开持久的星期一。

在本文中,我们提出一个混合动态推荐方法。首先,我们使用更多的信息,同时保持数据一致性;我们使用用户配置文件和项目内容扩展co-rate评级之间的关系通过用户的每个元素,显示在图1。评级可以反映相似用户的偏好和建议提供有用的信息。相应地,为了使算法保持信号的变化迅速、更新方便,基于时间序列分析(TSA)技术提出了一套动态特性,及相关评级在国米的每个阶段- est添加应用TSA来描述用户的偏好和项的声誉。然后,我们提出了一个个性化推荐算法的自适应权重。该算法的结果是有效的动态数据和每——形式比以前更好的算法。

现有的方法

可以面向用户或item-oriented附近的方法。他们试图找到志同道合的用户或类似项目的基础上co-ratings,并预测基于评级最近的邻居。而潜在因素模型涉及大多数评级捕获用户的口味,他们仍有困难,赶上漂移信号动态推荐因为稀疏,身体,很难解释涉及的原因。在我们的经验中,不同于用户兴趣周期,和用户首选项如何改变模式不能精确地描述了几个简单的衰减函数。此外,CF方法通常占预热将问题放大后的动态场景的新用户和新项目将会很高。

现有方法的局限性:

1。混合方法结合基于内容和协同过滤以不同的方式提出了缓解稀疏的问题,更多的信息比在他们每个人开采。

2。利用评级数据在这些算法的原则方法强调利用一些时间来处理动态特性的信息。

3所示。参与评级可以反映相似用户的偏好和建议提供有用的信息。

该方法

目前只使用历史数据而不是未来数据预测在真实的应用程序中。在传统RMSE评估培训和测试数据是随机抽样和培训和测试分裂不是基于时间。这将生成当前预测基于未来的数据。感兴趣的数据在不同的阶段有不同的训练比例。很明显,该算法是相当完善的阶段,我们发现它是不正确的,最近评级应该更重的重量在整个时间,这说明了特征——光计算的优点,灵活性和精度高。

拟议的方法是马k e使用概要文件扩展co-rating关系,然后我们赞成构成一组动态特性来反映用户的偏好或物品的声誉在不同阶段的兴趣,之后,我们建议一个自适应动态的个性化推荐算法。

1。关系挖掘评级数据:捕获用户的动态偏好的主要复杂性是缺乏有用的信息,这可能来自三个来源——用户配置文件,项目资料和历史评级记录在推荐的稀疏数据。现有算法主要依靠co-rate关系。但这不会有效地计算在数据稀疏,因为它限制了在预测的数据量。为了克服这个我们引入半co-rate关系寻找有用的评级动态的个性化推荐。

2。动态特征提取:计算更好的推荐算法,提出了三种方法比如实例选择、时间窗口(通常时间衰减函数)和整体学习。这种技术包含一组动态特性来描述用户的多阶段偏好考虑到计算,精度和灵活性。

3所示。自适应加权算法:的参数量化特征提取根据前一步,现在很容易组织对准确使用自适应加权评级估算。所有相关的子集的大小也计算在MPD(多个阶段部门)和可以反映数据密度。

4所示。均方根误差(RMSE),用来评估拟议的推荐算法。在传统RMSE评估、训练和测试数据是随机抽样,不是基于时间。因此,这将导致当前预测基于未来的数据。因此,Replay-match评价提出了解决这一问题,李等人的评价结果更稳定的动态推荐。

1)评估上述动态推荐算法的精度如下:

2)完整的自然时间顺序数据集,使用一定的训练比例来确定其相应的分裂。

3)使用前面的部分作为训练集来调整所有pa -参数。

4)这个测试集上运行算法和生成估计为每一对user-item评级。

5)比较每个估计评级和真正的评级在测试集和计算RMSE。

6)使用各种比率和循环最后四个步骤。

结论和未来的发展方向

在这篇文章中,我们提出了一个新颖的动态的个性化推荐算法对稀疏数据,更多的评级数据的使用在一个预测涉及相邻评级通过每个属性在用户和项目配置文件。一组动态特性是用来描述基于TSA技术偏好信息,最后一个建议是由自适应加权感兴趣的特性在不同阶段使用信息。该算法是非常有效的,其计算成本可接受得多

数据乍一看

图1

引用

b·m·萨瓦尔g . Karypis j . a . Konstan j . Riedl基于项目协同过滤推荐算法,在:WWW, 2001年,页285 - 295。

p . Brusilovsky a . Kobsa w . Nejdl (Eds),自适应网络,网络个性化的方法和策略,在电脑科学课堂讲稿,施普林格,2007年。

g . Adomavicius A . Tuzhilin向下一代的推荐系统:一项调查的最先进的和可能的扩展,IEEE反式。"。数据Eng。17 (6) (2005) 734 - 749。

y科伦,协同过滤与时间动态、通信的ACM 53 (4) (2010) 89 - 97。

l . Candillier f·梅耶,m . Boull´e,比较先进的协同过滤系统:p·佩尔奈(主编),MLDM,卷4571 LectureNotes在计算机科学中,施普林格,2007年,页548 - 562。

a . k . Yu Schwaighofer诉Tresp, x, h . Kriegel概率基于内存的协同过滤,IEEE知识和数据工程16 (1)(2004)56 - 69。

f .入手,a . Pirotte j .呈现m . Saerens随机游走图的计算节点之间的相似性应用collaborativerecommendation, IEEE TKDE 19 (3) (2007) 355 - 369。

y科伦,r·贝尔,c . Volinsky矩阵分解技术对推荐系统,计算机42 (8)(2009)30-37。

s . Boutemedjet d . Ziou长期相关性反馈和适应基于内容的图像特征选择的建议,模式Recognition43 (12) (2010) 3925 - 3937。

b . m . Kim李问:c . s .公园,s . g . Kim j.y.金姆,结合基于内容和协同过滤的新方法,j .智能。正系统。27 (2006)79 - 91。

g . Prassas k.c. Pramataris, o . Papaemmanouil动态建议在互联网零售业,:欧洲互通性系统委员会,2001年。

s . Rendle c .州长戴夫l . Schmidt-Thieme分解为next-basket推荐个性化的马尔可夫链,在:诉讼19 WWW, ACM, 2010年,页811 - 820。

c .夏x江,s . Liu z罗,z,动态基于项目的推荐算法随着时间腐烂,:ICNC, IEEE, 2010年,页242 - 247。

j .赖黄t、y Liaw快速k - means聚类算法使用群集中心位移,公关42 (11)(2009)2551 - 2556。

a . Tsymbal概念漂移的问题:定义和相关工作,计算机科学系,都柏林三一学院。

x, c .杨j .周股票价格预测通过结合新闻矿业和时间序列分析,在:网络情报,IEEE 2009, pp.279 - 282。

j·穆罕默德,一个高效的rls算法的实时实现基于iir滤波器的声学回波消除:IEEE / ACS ICCSA, IEEE, 2008年,页489 - 494。

b·埃夫隆、t . Hastie。约翰斯通,r . Tibshirani角回归,32(2)统计年鉴(2004)407 - 499。

b·波沙盖恩,诉Vapnik,训练分类器算法最优边缘,:《第五届研讨会onComputational学习理论,ACM, 1992年,页144 - 152。

l·李·w·楚,j·朗格弗德,x,无偏离线评估contextual-bandit-based新闻文章推荐算法,在:第四届ACM国际研讨会论文集在网络搜索和数据挖掘,ACM, 2011年,页297 - 306。

y科伦,分解符合社区:一个多方面的协同过滤模型,在:第十四届ACM SIGKDDinternational会议进行知识发现和数据挖掘,ACM, 2008年,页426 - 434。

动态的个性化推荐算法对稀疏数据

文摘

关键字

介绍

相关工作

现有的方法

现有方法的局限性:

该方法

结论和未来的发展方向

数据乍一看

引用