关键字 |
关联规则、频繁项集,先天,决策树,购物篮分析 |
介绍 |
的挑战之一的公司大量投资于客户数据收集是如何从其庞大的客户数据库中提取重要信息数据库和产品特性,以获得竞争优势。市场购物篮分析的几个方面研究了在学术文献,如使用客户利息概要和利益特定的产品对于一对一营销,采购模式在多商店环境中提高销售[1]。市场购物篮分析已深入应用在许多公司来发现产品协会和基地零售商的促销策略。明智的决定可以轻易对植入式广告,定价,促销,利润也发现,如果有任何成功的产品,没有显著的相关元素[2]。类似产品可以找到这些可以放在对方或cross-sold。零售商必须知道客户的需要和适应它们。市场购物篮分析是一个可能的方法来找出哪些物品可以放在一起。市场购物篮分析给零售商一个好信息相关的销售组商品的基础上,还很重要,零售商可以知道通道和在哪些地区可以卖更多的产品,哪些会话(即)早上或晚上[3]。 |
市场购物篮分析是一种数据挖掘方法专注于发现采购模式从存储中提取协会或共生的事务性数据。市场购物篮分析决定了产品一起购买,重组超市布局和设计促销活动,这样可以提高产品的购买[11]。关联规则是由频繁项集使用支持和信心阈值水平[4]。最低的项目集的支持被称为频繁项目集[2]。项目集的支持数定义为交易的比例的数据集包含项目集。信心被定义为确定性的测量或诚信与每个发现的关联模式。关联规则推导取决于信心[5]。 |
二世。相关工作 |
提出了很多方法来实现数据挖掘技术进行市场分析。雷恩等人在他们的工作提出了一个使用频繁项目集挖掘市场购物篮分析。他们比较先天K-Apriori算法寻找频繁项[1]。Vishal等人实施数据挖掘使用塔纳格拉工具在网上购物系统。他们决定的放置产品、定价和促销[2]。 |
Sudha和克里斯等人提出的影响客户感知和crm在印度零售业在不断变化的业务场景中使用数据挖掘技术[3][4]。比较上述工作,我们的工作是不同的利用先验的和决策树进行购物篮分析。 |
三世。系统架构 |
答:客户数据集: |
批发客户数据提供的UCI机器学习库用于分析这项工作[7]。数据集有8连续和1数字输入属性即通道、区域,新鲜的牛奶,食品、冷冻、洗涤剂、熟食店和会话。 |
它还预测属性即)类标签。这里的channel1代表给伙食团(酒店/餐厅/咖啡厅),channel2代表零售商店。Region1代表里斯本,region2代表波尔图,region3代表别人。表1中描述数据集的列表。 |
b .关联规则: |
表单的关联规则是如果X, y频繁模式是模式(如项目集,子序列或子结构)出现在一个数据集常常[6]。频繁模式挖掘寻找反复出现在给定数据集的关系。关联规则并不总是有用的,即使他们有很高的支持、信心和电梯> 1。关联规则还可以改善通过结合购买物品。项目通常分为自然层次结构。在这一节中,可以使用先天生成频繁项目集生成算法和关联也异常值是根据给定的支持和信心的水平。 |
c .决策树: |
的决策树是决策树归纳学习class-labeled训练元组。决策树算法,如ID3、C4.5和购物车,最初是用于分类。决策树归纳构造一个流程图等结构,其中每个内部(非叶)节点表示一个测试在一个属性,每个分支对应于一个测试的结果,和每个外部(叶)节点代表一个类的预测。最顶层节点树的根节点。建设的决策树分类器不需要任何领域知识或参数设置,因此适合探索性知识发现[13]。 |
决策树可以处理高维数据。他们获得知识树的表示形式是直观的,通常容易被人类吸收。决策树归纳的学习和分类步骤简单和快速。一般来说,决策树分类器有良好的精度。决策树是一些商业规则归纳的基础系统。在每一个节点,该算法选择“最好”的属性数据分割成单个类[13]。 |
ID3: |
ID3使用信息增益作为属性选择度量。预期的信息需要分类在D是由一个元组 |
|
π是一个任意的元组的概率在D属于类Ci和估计由江森自控Dj / jDj [4]。以2为底的对数函数,因为信息编码比特。信息(D)是平均数量的信息需要确定一个元组的类标签D [8]。 |
InfoA所需(D)是预期的信息分类基于分区的元组从D a .预计所需信息(仍然)越小,越纯净的分区。这可以衡量 |
|
这个词Dj充当j分区的重量。信息增益定义为原始信息需求(即之间的区别。基于类的比例)和新的需求(即。后,得到了分区上),也就是说, |
|
C4.5: |
决策树C4.5算法被用来生成一个由罗斯昆兰。生成的决策树C4.5可用于分类,出于这个原因,它通常被称为一个统计分类器。C4.5, ID3的继任者,使用一个扩展信息增益称为增益比,它试图克服这种偏见。C4.5决策树构建一组训练数据的ID3一样,利用信息熵的概念。训练数据是一组S = s1, s2……已经分类的样本 |
每个样本如果由p-dimensional向量(x1, x2,我,…,xp, i), xj的代表样本的属性或特征,以及类的si瀑布。在树的每个节点,C4.5选择最有效的数据的属性将其组样本分为子集浓缩在一个类或另一个。 |
它适用于一种规范化使用“分割信息”信息增益值定义近似地与信息(D) |
|
这个值代表了潜在的分裂的训练数据集生成的信息,D,为v的分区,对应于v测试属性的结果[9]。 |
注意,对于每一个结果,它认为的元组数的结果对元组的总数在D [5]。它不同于信息增益,措施获得的信息对分类基于相同的分区。被定义为获得的比例 |
|
最大的属性增益比率选择分裂属性[15]。 |
这里的错误率和ID3的混淆矩阵可以发现,对于给定的数据集可以生成决策树 |
•频道< 1.5000 |
•地区< 2.5000早上那么会话=(87例的54.02%) |
•地区> = 2.5000然后晚上会话=(211例的58.77%) |
•频道> = 1.5000 |
•地区< 1.5000然后会话=晚上(18例)的72.22% |
•地区> = 1.5000然后早上会话=(124例的56.45%) |
这是一个简单的决策树三个属性频道,地区和会话。 |
如果我们对整个数据集构建决策树变得非常有效的准确性72.22%最大[10]。 |
四、仿真结果 |
整个数据集的数据挖掘工具像塔纳格拉。然后使用先验的算法发现频繁项目集的关联技术[12]。本文主要集中找出是否可以卖出更多的产品在上午或晚上会话。为此,它使用两个叫做ID3和C4.5决策树算法。采用ID3数据集参数可以分裂,还发现错误率混淆矩阵[13]。使用C4.5算法,对于给定的置信水平可以构造决策树和叶子[6]的最小大小。 |
整个数据集的统计分析表3中给出。它使产品的意思和准确性在两个交易日出售 |
接受者操作特征曲线(ROC)是一个图形化的情节,说明二元分类器的性能系统作为其歧视阈值是不同的。曲线是由显示的是真阳性和假阳性率在不同的阈值设置。 |
我们工作的ROC曲线显示在图2。这里的积极价值应被视为早晨,结果几乎变成真正的正面是一些高于假阳性[14]。这个图表显示了我们产品在哪个频道和地区发送更多的早上和是否它真阳性。 |
诉的结论 |
本文的框架决策树和频繁项目集开发大规模数据的分析。批发客户数据集和分析了解会话的产品可以卖更多使用ID3和C4.5决策树算法。数据集的数据预处理,使其适用于分类。预处理数据用于分类和我们获得较高的分类精度。 |
表乍一看 |
|
|
数据乍一看 |
|
|
图1 |
图2 |
|
|
引用 |
- 雷恩查莱特安妮m。1and Ashok Kumar D, âÂÂMarket Basket Analysis for a Supermarket based on Frequent Itemset MiningâÂÂ, IJCSIInternational Journal of Computer Science Issues, Vol. 9, No. 3, pp.257-264, 2012.
- Vishal jain Gagandeepsinghnarula&Mayanksingh,¢实现网上购物系统中的数据挖掘使用塔纳格拉toolA¢,国际期刊《计算机科学与工程2卷,1号,2013年。
- Sudha vemaraju,¢变化在印度零售业:客户感知和crm在印度零售业的影响变化businessscenarioA¢,国际多学科研究期刊》的研究,研究成果八号,2011年。
- 克里斯•Rygielski Jyun-Cheng王b, David c .日圆,一个¢数据挖掘技术对客户关系managementA¢,技术社会,2002年。
- P萨尔曼·拉贾,V罗摩呗,博士G Krishna Chaitanya¢数据挖掘:加强客户关系管理的技术inBanking和零售IndustriesA¢,国际创新研究期刊》的研究在计算机和通信工程2卷,第一,2014年。
- 拉梅奇巴拉蒂米,一个¢数据挖掘技术和ApplicationsA¢,国际计算机科学与工程学报,8卷,第12号,2009年。
- p .南希,r . GeethaRamani博士,一个¢比较社交网络数据挖掘算法在分类DataA¢,InternationalJournal计算机应用,Vol.32,八号,2011年。
- 酋长,L Tanveer b和Hamdani说,“有趣的关联规则挖掘措施”,IEEE Conference-INMIC, 2004年。
- Sonali Agarwal,妮娜·辛格博士G.N. Pandey, A¢实现数据挖掘和数据仓库的E-GovernanceA¢,国际期刊计算机应用,Vol.9, 4号,2010年。
- 陈,杨绍明。关铭唐,K。,Shen, R.-J., Hu, Y.-H.:âÂÂMarket basket analysis in a multiple store environmentâÂÂ, Journal of Decision Support Systems,2004.
- 浆果,M.J.A.,Linoff, G.S.: âÂÂData Mining Techniques: for Marketing, Sales and Customer Relationship Managementâ (second edition),Hungry Minds Inc., 2004.
- c . Rygielski j . c . Wang, d . c .叶”的数据挖掘技术的客户关系管理,“技术社会,24卷,2002年。
- j .汉族和m . Kamber¢数据挖掘:概念和TechniquesA¢,旧金山:摩根考夫曼出版社,2006年。
- h . Jantan a·r·哈姆丹z . a .奥斯曼和m . Puteh“数据挖掘分类技术申请员工的PerformancePrediction,“第五届国际会议在知识管理,2010年。
- Rastogi, R . .andkyuseok垫片,一个¢优化关联规则挖掘与分类和数值attributesA¢,IEEE onKnowledge和数据工程,问题2,pp.425 - 439, 2002。
|