石头:2229 - 371 x
一种方法来构建一个网络爬虫使用基于聚类的k - means算法
任何数据挖掘项目的核心是拥有足够,可以处理大量的数据提供有意义的和统计相关信息。但获取非结构化数据只是初期,数据必须转换为结构化的格式适合进一步处理。在本文中,我们提出了网页架构,安排他们的非结构化数据使用基于集群算法。。基于k - means算法聚类过程。本文是完全基于聚焦爬虫机制,只有扫描页面通过使用一般的爬行策略。
阅读全文下载全文