所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

高维数据的蚁群可能性模糊聚类预测

M.Ravichandran1, A.Shanmugam2
  1. 印度泰米尔纳德邦,巴纳里安曼理工学院信息技术系助理教授(高级)
  2. 印度泰米尔纳德邦哥印拜陀市s.n.s.理工学院电子与通信工程系教授
有关文章载于Pubmed,谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

股票市场对一个国家的基本经济能量有着举足轻重的作用和影响。证券交易市场的快速变化和高维不确定数据使得投资者需要利用预测挖掘技术进行有效的预测。高维股票数据分为盈利能力、稳定性、现金流和增长率,但没有完全处理不确定的属性值。另一方面,由于具有较大的不确定性,股票属性和类别不能与条件概率(即模糊集)分布函数同时包含。此外,测试可能性方法(即预测挖掘)不是在真正的不确定数据上进行的。因此,本文的研究重点是利用预测数据挖掘的方法解决预测问题,帮助投资者选择合适的投资组合。针对复杂高维不确定数据的预测,提出了蚂蚁可能性模糊聚类预测(AP-FCF)方法。AP-FCF方法避免了对不确定股票属性和类别的重复错误,根据当前特征的显著性为投资者提供领域知识。

关键字

蚂蚁可能性,模糊逻辑规则,条件概率分布,预测,熵原理,股票投资者

介绍

国民经济在很大程度上受到股票交易的影响,大量的资本货物在世界各地通过股票市场进行大量交易。此外,由于市场和政府政策具有很高的不确定性,股票价格预测被认为是一项重要而具有挑战性的任务。不确定数据的朴素可能性分类器[1]考虑了两种不确定性,使用高斯可能性分布来处理不完全数据。然而,由于高维不确定数据的证券交易市场变化较大,使得股票投资者不得不寻找有效预测股票数据的替代方法。序列概率学习自适应模糊推理系统(SPLAFIS)[2]采用贝叶斯自适应共振理论(BART)来降低证券交易数据的复杂性。但是,由于存在很大的不确定性,所有的股票属性和类别都不是基于真正的不确定数据。
预测的艺术是根据历史数据预测未来的表现。有效的预测方法有助于做出相应的决策和计划。在[3]中引入了一种基于遗传模糊系统(GFS)的综合方法,应用逐步回归分析(SRA)对股票奖励进行有效预测。然而,所涉及的风险没有进行分析。为了分析所涉及的风险,将数据挖掘(DM)[4]方法应用于德黑兰证券交易所(TSE)数据,在定价和财务比率方面都是有效的。但优化问题并没有实现。引入非线性自回归(NAR)[5]模型,利用K-means算法进行更好的预测。将遗传模糊专家系统与数据预处理相结合,设计了一种混合智能模型[6],以提高预测工具的精度。
人类推理可以使用人工智能(AI)技术进行计算机化,被认为是预测时间序列数据最具挑战性的任务之一。在[7]中引入了一种集数据预处理、遗传算法和levenberg-marquardt算法于一体的混合模型,以提高时间序列数据预测的准确性。虽然精度有所提高,但平均误差仍然很高。为减小均方误差,在[8]模型中引入带模糊逻辑的小波对时间序列数据进行预测。采用频繁项集、模式发现和情感分析的方法对股票市场情报[9]进行分析,提高准确率。但是,由于多样性的存在,准确性会降低。在[10]中设计了基于因子多样性的预测模型,提高了预测精度。本文采用可能性模糊聚类预测(AP-FCF)方法对复杂的高维不确定数据进行预测。

相关工作

股票市场财务分析的有效预测不仅为短期投资者服务,也是长期投资者的有效手段。在支持向量机(SVM)的辅助下,将主成分分析应用于[11],以提高预测精度。然而,模式序列没有得到解决。引入股票序列数据的逼近和预测方法[12]来识别模式序列,利用数据逼近过程减少计算量。实验证明,APSSD方法能有效地降低平均绝对误差。然而,匹配序列并没有经过微调。在[13]中引入原型生成分类器来预测股票市场趋势,并被证明是准确的。在[14]中引入了一种聚类与分类相结合的混合组合方法,提高了决策树在早期预测值的准确率。在[15]中,设计了一种包含序列图模式、k-means和apriori算法的积分方法,使短期投资者和长期投资者都能在真实市场上获利。

基于预测挖掘的高维不确定数据蚂蚁可能性方法设计

在本节中,通过一个简洁的架构图,详细描述了在高维不确定数据上使用预测挖掘的蚂蚁可能性方法的设计。利用蚂蚁概率模糊聚类预测(AP-FCF)方法对高维不确定股票数据进行分析,为投资者提供准确的预测结果。为了提高投资者的收益,提出了具有条件概率模糊聚类集分布函数的蚂蚁可能性方法。AP-FCF方法的目标是开发一种高效的预测挖掘技术,便于根据投资者的要求提取信息。可能性方法是在蚁过程的基础上提出的。蚂蚁程序用于获得投资者对股票特定信息的请求后,系统的智能行为。本文方法的基本操作步骤如图1所示。
AP-FCF方法的操作步骤如图1所示。最大熵法是一种用于预测结果的概率分布函数。AP-FCF方法利用不确定数据,利用最大熵,获得股票的先验知识,并在规定的时间内提供给投资者。使用最大熵的分布函数不能预测准确的结果。因此,使用模糊聚类逻辑集规则或处理高维不确定数据(即给出概率结果' 0 '或' 1 '作为输出函数),重复预测操作以获得精确的结果。蚂蚁概率模糊聚类预测(AP-FCF)方法的结构示意图如图2所示。
AP-FCP方法的主要贡献是利用高维不确定数据构建了一个高效的预测系统。如图2所示,利用高维不确定数据,对财务数据分析进行高效预测。AP-FCF方法涵盖了不同时间序列上更广泛的库存数据生成过程。它还允许属性和类的随机趋势平均增长。首先,AP-FCF方法采用最大熵原理分布方法确定股票类别和属性的数量。其次,利用确定的数量构造条件概率模糊聚类集分布,利用模糊逻辑规则对集合进行预测。模糊集逻辑原理采用2型原理,提高了预测的准确率。通过对商业模式的分析,预测的准确性提高了股票投资者的利润率。
最后,采用蚂蚁可能性法进行预测挖掘,实现有效的决策过程。该方法基于蚂蚁的合作(即数据)产生优化结果。在此,基于蚂蚁规则的预测矿工算法为股票投资者构建了一个有效的投资组合预测规则。条件概率模糊聚类集分布输出是为要进行的可能性(即预测挖掘)操作而产生的。因此,AP-FCF方法可以应用于高维数据不确定性较大的股票市场的技术分析。我们的研究工作采用不确定的股票指数数据,在预测挖掘的基础上产生可能性结果。详细描述了最大熵原理分布,条件概率模糊聚类集分布和使用基于蚂蚁规则的预测矿工算法对股票分析进行有效预测的蚂蚁可能性方法。

最大熵原理分布方法

首先,AP-FCF中的最大熵原理分布方法将高维不确定数据划分为隶属函数。成员函数在属性和类之间建立一个阈值。AP-FCF中的阈值有助于使用属性和类确定数量级别。对于不确定的股票数据,属性“A”的数量由下式确定,
方程(1)
AP-FCF方法中的属性数量是使用概率结果来确定的,其中属性阈值是基于类的范围来测量的。让我们假设类的阈值位于{c1, c2}之间。此时,基于熵原理的最大分布水平被描述为:
方程(2)
从(2)中,股票类别数据的阈值范围持有最大熵原理结果,表示从(1)中获得的不确定数据中确定类别数量后得到的概率结果。用APFCF方法表示为零时为零。类总是在' c1 '到' c2 '之间,AP-FCF方法总是假设数量确定的最大阈值。

条件概率模糊聚类集分布

利用最大熵分布原理确定类别和属性的数量后,应用条件概率模糊聚类集分布进行高效预测。AP-FCF方法在假设结果集的基础上,采用条件概率对股票投资者进行更好的预测。例如,基于稳定水平给出了股票价格的条件概率。
该条件用于股票价值预测。通过模糊聚类逻辑规则来表示概率结果函数。条件概率是通过Kolmogorov特征产生的,其中“X”和“Y”是预测结果需要满足的条件。这里,在确定的类和属性上应用' X '和' Y '条件来获得预测的平均率。AP-FCF法预测的平均率如图3所示。
投资者要求实验
-Ó对投资者的预测产出
-Δ对投资者的预测产出
AP-FCF方法中的Kolmogorov表征基于确定的类和属性数量来衡量预测的平均率。如果根据投资者的请求查询满足条件X和Y,则向投资者提供准确的预测结果。

2型模糊聚类逻辑规则

AP-FCF方法采用2型模糊聚类逻辑分布函数,将隶属度函数纳入条件概率中,得到模糊聚类集结果。实现了模糊集聚类逻辑规则,有效地处理高维不确定数据。条件概率模糊聚类分布函数使误差函数最小化,得到准确的预测结果。2型模糊聚类逻辑分布函数描述为:
方程
基于条件概率,模糊聚类逻辑分布函数在式(5)中求值。
让我们以两个集群为例,如果公司的股票交换价值在某一时期处于繁荣时期,而在某一时期达到峰值。然后将和的存量值包含在一个集群中。
而和的存量值包含在另一个集群中。最后,将(5)中的模糊聚类规则应用于每一个聚类,以得到准确的预测结果。AP-FCF方法接受具有' '类范围的' '属性来识别条件结果。然后将基于2型模糊聚类集的结果提供给股票投资者,为“所有属性都满足”的条件,为“所有属性都满足”的条件。条件' '和' '通过股票数据类的所有属性进行测量,以产生更高的精度结果。利用并集运算将这些条件组合在一起,得到模糊集结果。
基于蚂蚁规则的预测矿工算法描述为:
Ant_Rule_Predictive_Miner ()
输入:测试集(即股票投资者的请求条件),i, k
1:为每个测试集做
2:发现蚂蚁规则列表进行操作
3: while(测试集)
4:蚂蚁索引不确定数据
5: if (Ant index = Test Set的收敛性)then
6:重复
7:蚂蚁规则从空集开始,构造Current Ant Predictive Miner规则
8:根据属性和类的数量更新所有迭代的信息素
确定
9:更新收敛集为i=i+1和k=k+1
10:条件适用于所有具有相同信息素属性的类(即过程)
11:直到(不。的股票投资者的条件=没有。蚂蚁规则满足)
12:其他
13:获取概率结果
14:结束if
15:结束while
16:结束
17:返回Ant_Rule_Predictive_Miner(概率结果)
输出:通过可能性方法产生的意见结果
结束

实验评价

为了验证蚁群可能性模糊聚类预测(AP-FCF)方法的性能,在JAVA平台和Weka工具上进行了实验。在本节中,使用从UCI存储库中提取的道琼斯指数数据集讨论了该方法的实验设置和性能。该数据集包含道琼斯工业指数的每周数据,广泛应用于使用Java平台的商业应用中,有助于以准确的准确率预测股票信息。琼斯工业指数数据集由16个属性和750个实例组成。
AP-FCF利用某段时间内(日、周、月)收集的数据预测股价。行中的每条记录都是一周的数据。每条记录都有返回股票与下一周的比例(percent_change_next_weeks_price),用于建议工作中的预测挖掘。属性的特征是实数和整数值。利用AP-FCF预测对所提出的工作样本进行检验。
将所提出的工作与现有的Naïve不确定数据可能性分类器(NPC)[1]和用于自适应模糊推理的顺序概率学习Naïve不确定数据可能性分类器(NPC)[1]系统(SPLAFIS)[2]进行比较。对股票数据的不确定性预测率、分布函数的运行时间、模糊聚类精度和高维误差指标等因素进行了实验。

ap-fcp法结果分析

不确定性数据对PES预测率的影响

为了评估AP-FCF方法的性能,并将其与其他系统进行比较,即Naïve不确定数据可能性分类器(NPC)[1]和自适应模糊推理系统(SPLAFIS)[2],这三种方法都是使用JAVA和Weka工具实现的。利用实验得到的小阶段信息,对APFCF方法的结果进行了研究。
如图4所示,使用不同的样本周期采集的股票数据,不确定性数据预测率降低。如图4所示,该图表不是线性的,它表明股票价值在2008年达到峰值,2009年下降,2010年上升。与NPC[1]相比,AP-FCF方法的不确定数据预测率提高了31 - 60%,有助于更好地预测股票投资者使用条件概率模糊聚类集分布。此外,在APFCF方法中应用条件概率,利用Kolmogorov表征得到的预测平均率比SPLAFIS[2]的不确定数据预测效率提高了39 - 76%。

误差指标对高维股票数据的影响

利用AP-FCF方法对高维股票数据的误差指数,衡量股票市场预测股票价格时的错误率。采用AP-FCF方法计算股票数据的高维误差指标,其均方误差是实际预测值与预测值之差与实际值之比。它是用百分比(%)来衡量的。
不同样本期高维存量数据误差指标结果如图5所示。观察每个样本周期内的误差指标,并以类似的方式与其他方法进行比较,得到误差指标。误差指数在2009年之前呈线性增加。但在2010年和2011年期间,由于2009年和2011年期间的高通货膨胀,误差指数没有被观察到是线性的。为了观察达到60%置信水平的误差指数,运行了一个具有默认参数值的7个不同时期的场景。对于每次实现运行,股票数据的开盘价和收盘价都会被更改。
图5比较了AP-FCF方法在不同样本周期下高维存量数据的误差指标与NPC和SPLAFIS在相同情景下的误差指标。在所有情况下,AP-FCF方法的性能都优于这两种系统。如图所示,与最先进的方法相比,高维股票数据的误差指数从模拟开始就呈下降趋势。可以观察到,在2005年到2009年的采样期间,三种方法的误差指数都有所增加,而在2010年和2011年,AP-FCF方法的误差指数相对于[1]和[2]两种方法有所下降。这是因为应用了最大熵原理分布方法。利用最大熵原理分布法中的隶属度函数,在属性和类之间建立一个阈值,使误差指数最小。结果表明,所获得的最大分布使库存数据的误差指数比NPC和SPLAFIS分别降低了13 - 56%和36 - 79%。

模糊聚类精度的影响

AP-FCF方法的模糊聚类精度为测量值与阈值之差与阈值之比。模糊聚类精度以百分比(%)表示。
方程(8)
图6显示了2005年3月至2005年9月7个不同指数观测值的指数观测值组合。
图6显示了2005年3月至2005年9月间模糊聚类精度对不同指标观测值的响应行为。在2005年3月至6月期间,三种方法的平均模糊聚类精度均有所提高。2005年7月,模糊聚类精度在指数为500的情况下有所下降,之后聚类精度有所上升。这是由于股票市场中观察到的高波动率的参与,没有观察到稳定性,模糊聚类精度也随之变化。与NPC和SPLAFIS方法相比,该方法提高了模糊聚类精度。这是因为在高维不确定数据上应用2型模糊聚类逻辑规则可以提高准确率。2型模糊聚类逻辑规则采用2型模糊聚类逻辑分布函数从条件概率中获得聚类输出,准确率较NPC提高了6 - 8%。此外,利用联合算子将条件组合在一起进行识别,与SPLAFIS相比,模糊聚类精度提高了11 ~ 15%。

分布函数运行时间的影响

AP-FCF方法的分布函数运行时间是指执行模糊聚类逻辑分布函数所花费的时间,如下所示。它是以毫秒(ms)来衡量的。
利用2005年3月至2005年9月的指数观测测量分布函数运行时间的收敛图如图7所示。从图7中我们可以看到,本文提出的AP-FCP方法收敛的运行时间比NPC[1]和SPLAFIS[2]的运行时间要短,产生了更高的阈值,从而减少了使用存量数据的运行时间。AP-FCP方法模型分布函数的最佳运行时间为0.28 ms,其次为MPC和SPLAFIS,其最佳运行时间分别为0.36 ms和0.51 ms。采用蚂蚁概率方法,减少了分布函数的运行时间。将预测挖掘应用于AP-FCF方法中,基于2型模糊聚类集规则的分布函数的运行时间比NPC减少了13 ~ 31%。此外,通过引入基于蚂蚁规则的预测挖掘范式,在数据库中添加不确定数据索引。然后将其与收敛测试进行比较,并产生概率模糊规则,结果在更少的时间内将分布函数的运行时间减少了32 - 82%。

结论

提出了一种基于蚁群可能性模糊聚类预测(AP-FCF)的复杂高维不确定数据预测方法。该方法的一个关键特点是,随着从投资者那里获得的请求越来越多,它能够使用模糊聚类来提高精度。将最大熵原理分布方法和条件概率模糊聚类集分布方法应用于AP-FCF方法中,对股票数据进行有效预测并从中获利。其次,由于政府政策的变化和市场的波动,为了提高预测的准确率,在AP-FCP方法中引入了蚂蚁可能性方法。性能结果表明,该方法具有较高的预测率,提高了采样周期上的模糊聚类精度。与现有的预测采矿方法相比,本文提出的蚂蚁可能性模糊聚类预测方法优于现有的预测采矿方法。

数字一览

图1 图2 图3 图4
图1 图2 图3 图4
图1 图2 图3
图5 图6 图7

参考文献
















全球科技峰会