在线刊号(2320-9801)印刷刊号(2320-9798)
乌兹玛·阿里教授1, Punam Khandar教授2
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
云计算是使用通过网络(通常是Internet)作为服务交付的计算资源(硬件和软件)。这个名字来自于使用云形状的符号作为系统图中包含的复杂基础设施的抽象。云计算将用户的数据、软件和计算委托给远程服务。存储云提供存储服务,计算云提供计算服务。我们描述了扇区存储云的设计,以及它如何提供Sphere计算云所需的存储服务。云可以是提供块或文件存储服务的存储云,也可以是提供计算服务的计算云。此外,本文还介绍了扇区存储云和球计算云的设计与实现。扇区是分布式文件系统,而sphere是并行的存储内数据处理框架,可用于处理存储在扇区中的数据。扇区和球面设计用于分析大型数据集,使用与广域高性能网络(例如10+ Gb/s)连接的计算机集群。我们描述了一个使用扇区和球面开发的分布式数据挖掘应用程序。 Mining association rules is one of the most important aspects in data mining. Association rules are dependency rules which predict occurrence of an item based on occurrences of other items. Sector is the distributed file system, while sphere is the parallel in-storage data processing framework that can be used to process data stored in sector.
关键字 |
云计算,扇区,领域,关联规则,数据挖掘 |
介绍 |
数据挖掘是从不同角度分析数据并将其总结为有用信息的过程,这些信息可用于增加收入、降低成本或两者兼而有之。它允许用户从许多不同的维度或角度分析数据,对其进行分类,并总结确定的关系。挖掘关联规则是一种在大型数据项集中发现有趣关联的方法。数据挖掘系统是为充分利用强大的共享处理器池而设计的。其中,数据分布在处理器上,计算使用消息传递范式完成。然后收集所有的计算结果,并在处理器上的新数据上重复这个过程。所谓云,我们指的是通过互联网提供按需资源或服务的基础设施,通常具有数据中心的规模和可靠性。存储云提供存储服务(块或基于文件的服务);数据云提供数据管理服务(基于记录、基于列或基于对象的服务);计算云提供计算服务。 Often these are stacked together to serve as a computing platform for developing cloud-based applications. |
扇区旨在为管理为分布式索引文件的大型数据集提供长期持久存储。文件的不同段分散在扇区管理的分布式存储中。扇区通常复制数据以确保其寿命,从而减少延迟。检索时,并提供并行的机会。扇区设计用于在可用时利用广域高性能网络。 |
Sphere被设计为使用扇区管理的数据的流处理模式并行执行用户定义的函数。我们的意思是,相同的用户定义函数应用于扇区管理的数据集中的每个数据记录。这是独立地对数据集的每个段执行的(假设有足够的处理器可用),从而提供了自然的并行性。 |
扇区/球面的设计导致数据经常在原地处理,而不移动数据。本文介绍了数据和计算云的设计。我们还描述了一个使用扇区和领域开发的数据挖掘应用程序,用于搜索分布式网络数据中不断变化的行为。 |
2背景相关工作 |
所谓云,我们指的是通过Internet提供资源和/或服务的基础设施。数据云提供数据管理服务(基于记录、基于列或基于对象的服务);计算云提供计算服务。这些所有类型的云被设置为云服务堆栈,提供计算平台来开发基于云的应用程序。 |
例如谷歌的谷歌文件系统(GFS)、BigTable和MapReduce基础设施Amazon的S3存储云、SimpleDB数据云、EC2计算云和开源Hadoop系统。 |
在本文中,我们描述了扇区存储云和球体数据云。Sector/Sphere是一个软件平台,支持非常大的分布式数据存储和简化的分布式数据处理。该系统由分布式存储系统Sector和支持分布式数据处理简化开发的运行时中间件Sphere组成。 |
3部门 |
扇区是上面定义的存储云。具体来说,Sector通过Internet提供具有数据中心的可伸缩性和可靠性的存储服务。 |
部门的特点是 |
1.扇区旨在支持一个用户社区,并不是所有用户都可以对扇区基础设施具有写访问权。 |
2.扇区为大型分布式数据集提供长期的归档存储和访问。 |
3.扇区设计用于利用广域高性能网络上的可用带宽。 |
4.扇区支持各种不同的路由和网络协议。[行业有三个假设。 |
(i)扇区假设它可以访问大量的商用计算机(我们有时称之为节点)。节点可以位于数据中心内部或跨数据中心。 |
ii)扇区假设高速网络连接系统中的各个节点。例如,在下面描述的实验研究中,一个机架内的节点通过1gb sK1网络连接,一个数据中心内的两个机架通过10gb sK1网络连接,两个不同的数据中心通过10gb sK1网络连接。 |
(iii)扇区假设它存储的数据集被划分为一个或多个单独的文件,这些文件称为扇区切片。组成数据集的不同文件被复制并分布在扇区管理的各个节点上。例如,在下面描述的实验研究中,Sector管理的数据集之一是由64个文件组成的1.3 TB数据集,每个文件大小约为20.3 GB。 |
图2显示了扇区系统的整体架构。安全服务器维护用户帐户、用户密码和文件访问信息。它还维护授权从节点的网络协议(IP)地址列表,以便非法计算机不能加入系统或发送消息中断系统。主服务器维护系统中存储的文件的元数据,控制所有从节点的运行,并响应用户的请求。主服务器与安全服务器通信以验证从服务器、客户端和用户。slave是存储由系统管理的文件并根据扇区客户机的请求处理数据的节点。slave通常运行在位于一个或多个数据中心的计算机机架上。 |
第四球。 |
球体计算云设计为与扇区存储云一起使用。Sphere的设计使得某些专门的、但经常发生的分布式计算操作可以非常简单地完成。特别是,如果用户在Sector管理的分布式数据集上定义了函数p,则调用Sphere命令。运行(p); |
将用户定义的函数p应用到数据集a中的每条数据记录上。换句话说,如果数据集a包含100,000,000条记录a[i],那么上面的sphere命令将替换从磁盘读写数组a[i]所需的所有代码,以及循环: |
for (int i = 0;我< 100000000;+ + i) |
p([我]); |
Sphere编程模型是通常称为流编程模型的一个简单示例。虽然这个模型已经使用了一段时间,但由于通用GPU(图形处理单元)社区对它的使用,它最近重新受到了关注。Sphere处理的大型数据集被分解为几个文件。 |
例如,斯隆数字巡天数据集[12]被分成64个独立的文件,每个文件大小约为15.6 GB。文件名为“sdss1.dat”、“…”、“sdss64.dat”。假设用户编写了一个名为find-Brown Dwarf的函数,该函数给出SDSS数据集中的一个记录,提取候选Brown Dwarf。然后,为了在斯隆数据集中找到褐矮星,人们使用以下方法 |
领域代码: |
流sdss; |
sdss.init(…);//初始化64个SDSS文件 |
进程* myproc =扇区::createJob(); |
findBrownDwarf“myproc - >运行(sdss); |
myproc - >阅读(结果); |
通过这段代码,Sphere使用Sector访问所需的SDSS文件,使用索引提取相关记录,并为每个记录调用用户定义的函数find- BrownDwarf。并行可以通过两种方式实现。首先,单个文件可以并行处理。其次,扇区通常配置为为存档目的创建文件副本。这些副本也可以并行处理。Sphere等系统提供的一个重要优势是,通常可以就地处理数据,而无需移动数据。相比之下,网格系统通常在处理之前将数据传输给进程。 |
五、关联规则 |
1 . confidence信心 |
设I={i1,i2,im}为收集项,对于ij中的项(1≤j≤m),对于持久项(1≤j≤m), D={T1,TN}为交易项,Ti I(1≤I≤N)为交易项。规则r→q是集中在交易中包含的概率。 |
这里的关联规则是r→q形式的含义,其中X是条件的连接,Y是分类的类型。规则r→q必须满足规定的最小支持度和最小置信度。规则r→q的支持度是D S(r) = |r|/|D|中r和q的频率度量 |
规则r→q的置信度度量是在价格下跌中包含r的前提下,同时包含q C(r→q) =S (rq) /S(r) |
B.定义2加权支持 |
指定项目收集I = {i1, i2, im},每个项目ij由右值wj组成(0≤j≤1,1≤j≤m)。如果规则为r→q,则权重支持为 |
K是项目的集合rq的大小。当正确的值wj与ij相同时,我们正在计算权重包含规则以具有相同的支持度。 |
六、利用扇区、球面和关联规则进行数据挖掘的步骤 |
1.选择最小支持阈值(Ts)和最小置信阈值(Tc),最小数据大小(Sizemin)和最大数据大小(Sizemax)。 |
2.现在,我们将数据流输入球体处理元素。流被划分为多个数据段。每个SPE的数据段数是根据SPE个数和整个流的大小来计算的。来自同一个文件的数据段不会同时被处理,直到其他SPE空闲。 |
3.SPE从客户端接收一个新的数据段,其中包含文件名、偏移量、要处理的行数和其他参数。 |
4.SPE从本地磁盘或按扇区管理的远程磁盘读取数据段及其记录索引。 |
5.对于每个数据段,找出长度为1的频繁项集,记为L1,用L1找到频繁2项集的L2集合,用L2找到频繁3项集的L3集合,如此循环下去,直到找不到新的频繁k项集。 |
6.我们根据发现的频繁项集生成强关联规则,即生成支持度和置信度分别大于或等于预先给定的支持度阈值(Ts)和置信度阈值(Tc)的关联规则。 |
7.对于每个数据段(单个数据记录、数据记录组或整个数据文件),Sphere操作符使用关联规则处理数据段,并将结果写入临时缓冲区。此外,SPE定期向客户端发送关于处理进度的确认和反馈。 |
8.当数据段完成处理后,SPE向客户端发送确认,并将结果写入输出流中指定的适当目的地。如果没有需要处理的数据段,客户端将关闭与SPE的连接,并释放SPE。 |
7结论 |
在本文中,我们描述了一种基于云的基础设施,用于在与高性能广域网连接的集群上挖掘大型分布式数据集。Sector/Sphere是开源的,可以通过source Forge获得。我们已经使用它作为几个分布式数据挖掘应用程序的基础。 |
关联规则的发现是数据挖掘中最成功和最重要的任务,是当前数据挖掘中非常活跃的研究领域,其目标是发现数据集中的所有频繁模式,目前进行的研究工作大多集中在开发有效的算法上。本文在深入研究现有数据挖掘算法的基础上,提出了一种新的基于关联规则的数据挖掘算法。 |
本文还讨论了扇区/领域框架与关联规则的集成问题。 |
参考文献 |
|