在线刊号(2320-9801)印刷刊号(2320-9798)
基于循环集IGA和混淆矩阵的WebDocument聚类事实检索优化
第一阶段首先推导出全局聚类过程的遗传算法,解决聚类和特征选择的优化问题。第二阶段遵循导数作品的混淆矩阵概念,并包括改进的遗传算法用于最终分类。第三阶段提出了基于优化后的概念特征词的聚类最优性评价方法。最后阶段采用连接方法对网页进行聚类,主要是查找循环集,然后对文档进行聚类。利用循环模式展开技术生成这些循环集。然后将模糊k均值算法应用于循环集优化的Web文档聚类中,发现具有高度相关性和相关特征的文档聚类。实验结果表明,该方法比上述两种连接方法效率更高,在鲁棒性下处理效率更高。性能评价结果表明,该算法在词汇数据集的真实库包和UCI库包的聚类最优性、真负率和信息检索方面均有较好的效果。
C. Josephine Christy, B. Nagarajan博士