关键字 |
集群、加权k-mean神经网络分类器,支持向量机分类器,系统熵减少。 |
我的介绍。 |
Web挖掘是检索的数据的过程中大部分的数据量出现在网络根据用户的需要。这是重要的整体使用数据挖掘对公司及其基于互联网/内联网的应用程序和信息的访问。使用挖掘使用网络营销不仅是有价值的企业,也是电子商务的业务是完全基于通过搜索引擎提供的交通。使用这种类型的web挖掘有助于收集重要的信息从客户访问网站。但在搜索结果中,通常会有大量的随机性和由于不适当的聚类和分类不准确。 |
聚类是无监督学习问题。集群是由类似的特征的基础上,或类似的功能。聚类被定义为过程intercluster不同最大化和最小化的星团内不同。聚类后,分类过程执行的标签,以确定数据元组未标记的(无课)。但是熵disorderness检索搜索结果后发生。这是由于分散在聚类。 |
二世。相关工作 |
A.CLUSTERING -未标记的数据从大型数据集可以使用聚类算法是一种无监督的方式分类。聚类分析或集群的分配一组观察到子集(称为集群),以便观察相同的集群在某种意义上是相似的。一个好的聚类算法导致高集群内相似度和较低的国米集群相似[1]。 |
b类型的聚类算法 |
独家集群化—在这个数据被分组在一次独家方式,所以,如果某一基准面属于一个明确的集群就不能包含在另一个集群。它包括k均值算法。 |
重叠集群化—重叠集群,集群数据使用模糊集,所以,每一个点可能属于两个或两个以上具有不同程度的集群成员。它包括模糊c均值。 |
分层聚类,这是基于两者之间的联盟最近的集群。 |
概率聚类- - -这种集群使用一个完全概率的方法。它包括的混合高斯算法。 |
三世。混合聚类和分类算法的必要性 |
必须 accurate. Accuracy-search 结果 |
Fast retrieval-Data 必须 fast. 检索 时间 |
Entropy reduction-Dispersion 检索 数据 导致 unreliability. |
Outlier detection-Detection 有悖于 无关 或 例外 |
四、加权K均值聚类 |
在文本聚类,集群不同主题的文档分类的不同子集的术语或关键字。数据稀疏问题是面临在集群高维数据。在该算法中,我们扩展了k - means聚类过程计算重量为每个维度在每个集群和使用重量值确定重要维度的子集分类不同集群[2]。 |
它包括三个步骤 |
答:分区的对象初始化后的维度权重每个集群和集群中心,一个集群成员分配给每个对象[2]。距离测量闵可夫斯基使用欧氏距离,可以用于更高的[2]维度数据。 |
(1) |
d =维度的数据在哪里 |
p = 1曼哈顿度量。 |
我们要求被试在两种集群xi, xj =距离。 |
b -更新集群中心更新聚类中心是想方设法的对象在同一集群[2]。 |
C。计算维度权重,整个数据集更新维度权重分析[2]。 |
诉神经网络作为分类器 |
神经网络是一组相互连接的节点,一个亲戚在大脑神经元的庞大网络。它是用于模式识别。在这里,每个圆形节点代表一个人工神经元和一个箭头代表从一个神经元的输出连接到另一个的输入。神经网络的两种类型- |
Artificial method. |
Feed 前进 的 方法 |
一个。使用神经——的优势 |
High 公差 [3]. 嘈杂 的 数据 |
Can 分类 的 数据 尚未 trained. |
Classifier 可以 减少 熵 effectively. |
Takes 集群 algorithm. 的 输入 |
第六,支持向量机作为分类器 |
支持向量机代表支持向量机。它是非常有用的在信息检索(IR)目标识别[11]。它提供了一个最健壮的和准确的结果,对维度的数量。SVM的分类函数来区分两类的成员的训练数据[9]。 |
一个。线性支持向量机——线性可分的数据集,使用一个线性分类函数,对应于一个分离超平面f (x),经过中间的两类,两者分离。一旦确定这个函数,新的数据实例xn产生,可以进一步分类通过测试的符号函数f (xn)。确保最大利润率超级飞机实际上是发现,一个支持向量机分类器试图最大化下面的函数对w和b: [9] |
(2) |
其中t是训练实例的数量。我= 1,αi。t,非负数字,Lp称为拉格朗日,向量w和常数b定义超平面[9]。 |
b .非线性支持向量机 |
这个内核函数中添加,使支持向量机更灵活的[10]。 |
SVM - c优势 |
1)可以提供好的泛化[10]。 |
2)支持向量机可以大大减少熵检索结果[10]。 |
八世。熵聚类系数 |
是非常重要的理论在信息理论(It)的情况下,可以用来反映系统的不确定性。从香农的[4]理论,信息是人们理解的消除或减少不确定性的东西[4]。他称熵的不确定性程度。 |
假设一个离散随机变量X, x1, x2,…,xn , a total of n different values, the probability of xi appears in the sample is defined as P( xi ), then the entropy of random[4] variable X is: |
|
熵值范围在0和1之间。如果H (P) = 0(意味着接近0),这表明低水平的不确定性,样本相似度越高。另一方面,如果H (P) = 1,这表明更高层次的不确定性,降低样本的相似性。例如,在真实的网络环境,为特定类型的网络攻击,数据包显示某种特征。例如,DoS攻击,发送的数据包在一段时间内相当相比更接近正常的网络数据包,这显示较小的熵,即较低的随机性。另一个例子是一个网络探测攻击,扫描频率在一定的时间内的一个特定的端口,所以目的地港口会变小熵与随机端口选择正常的数据包。作为有效测量的不确定性,熵,香农提出的[5],一直是一个有用的机制来描述各模式的信息内容和应用程序在许多不同的领域。为了测量粗糙集的不确定性,许多研究人员应用粗糙集的熵,熵,提出不同的粗糙集模型。粗糙熵是一个扩展熵测量粗糙集的不确定性。给定一个信息系统是= (U, V f), U是对象的非空有限集合的地方,是一个非空有限的一组属性。 For any B⊆A, let IND(B) be the equivalence relation as the form of U/IND(B) = {B1,B2, ...,Bm}. The rough entropy E(B) of equivalence relation IND(B) is defined by[5]: |
(3) |
在Bi | | | | U表示任何元素x∈U的概率在等价类Bi;1我< < = = m。| |米表示集合的基数。 |
IX.CONCLUSION |
在本文中,我们提出了加权k均值聚类算法适用于高维数据和异常值检测有效地发生。为了标签未标记的数据,我们提出了神经网络分类,因为神经可以有效地用于噪声数据,它也可以在未经训练的数据。使用这种混合动力技术,可以减少检索数据的熵以及检索时间,可以大大提高精度。 |
表乍一看 |
|
表1 |
|
|
数据乍一看 |
|
|
引用 |
- 一些Kumar HimadriChauhan DhirajPanwar,“k - means聚类方法分析NSL-KDD入侵检测数据集”,第三卷,第3期,2013年9月。
- LipingJing Michaelk。Ng JoshuaZhexue黄”,一个熵加权k-mean高维子空间聚类算法的稀疏数据”,IEEE知识和数据工程,Vol.19,不。2007年8月8日。
- 儿子Phung lam和Abdesselambouzerdoum锥体Nueral网络视觉模式识别”,IEEE neuralnetworks,研究概述,不。2、2007年3月。
- QuanQian天虹,王鲁伊,詹”,相对网络基于熵的聚类算法,用于入侵检测”,Vol.15, 1号,pp.16-22, 2013年1月,。
- Xiangjun李和沼泽饶“孤立点检测的基于粗糙熵的方法”,计算信息系统》杂志8卷,页。10501 - 10508年,2012年。
- 梁j . y, z z史。,“The information entropy, rough entropy, knowledge granulation in rough set theory”, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 12 (1), pp. 37 – 46, 2004.
- Velmurugan T。,and Santhanam T., "Performance Evaluation of K-Means and Fuzzy C-Means Clustering Algorithms for Statistical Distributions of Input Data Points," European Journal of Scientific Research, vol. 46, no. 3, pp. 320-330,2010.
- 崔z邓,k . f .钟,s .王”增强软子空间聚类集成Within-Cluster和集群之间的信息,“模式识别、43卷,没有。3、767 - 781年,2010页。
- 通过吴,一些Kumar J。罗斯•昆兰JoydeepGhosh、羌族杨Hiroshi Motoda,杰弗里·j·克劳克兰安格斯Ng, Philip s . Yu Bing Liu Zhi-Hua周,施泰因巴赫迈克尔,David j .一方面,丹•斯坦伯格“十大算法在数据挖掘”,knwlinfsyst, 14卷,pp.1-37 2008。
- 劳拉Auria Rouslan a·莫罗,“支持向量机(SVM)作为偿债能力分析”的技术,2008年。
- “文革”,支持向量机分类器在红外目标识别中的应用”,物理procedia, Vol.24.pp。2138 - 2142年,2012年。
|