关键字 |
聚类,信息检索,文本挖掘,Web挖掘,Web搜索引擎。 |
介绍 |
一般用户提出的模糊查询对检索过程有很大影响。帮助用户快速找到他们要找的东西的一种方法是按主题对搜索结果进行分组。在网络上有许多可用的网络集群引擎(Carrot2, Vivisimo, SnakeT, Grouper等),它们以集群的形式给出搜索结果。这个过程通常被视为是补充,而不是替代和不同的搜索引擎[1]。web搜索结果聚类的主要用途不是提高实际排名,而是让用户快速了解结果。分散/收集系统被认为是所有网络搜索结果聚类的前身和概念之父。但是,由于不同的用户对搜索结果有不同的要求和期望,[2]目前的状态还远远不能让人满意;有时仅仅用几个关键字就不能清楚地表达查询;同义和多义词使搜索更加复杂等。 |
相关的工作 |
Oren Etzioni是第一个创造了Web Mining这个术语的人。最初采用了两种不同的方法来定义Web Mining。首先是“以流程为中心的观点”,它定义为一系列不同的流程。其次是“以数据为中心的视图”,定义了一种数据类型[3]。Web挖掘也是数据库、信息检索和人工智能的交叉点。表示文本文档的最常用方法是使用向量空间模型[12]。每个向量组件都有一个相关的权重,该权重表示该属性在描述或表示文档[4]方面的重要性。 |
Oren Zamir和Oren Etzioni[1]在他们的研究中列出了web文档聚类方法的关键要求:相关性、可浏览的摘要、重叠、片段容忍度。他们给出了STC(后缀树聚类)算法,该算法基于文档之间共享的短语创建聚类。大多数文档聚类方法在文档集上执行多个预处理步骤,包括停止词去除和词干[3,4]。[5]中描述的分散/聚集是一种早期的基于聚类的文档浏览方法,它对从传统信息检索系统返回的排名靠前的文档执行检索后聚类。 |
A.网络搜索的局限性 |
搜索结果中文档之间的内部关系很少被显示,而是留给用户。标准信息检索系统依赖于两个正交范式:一方面是文本与查询的相似度(例如,基于tfidf的余弦相似度),另一方面是独立于查询的每个网页的重要性度量(例如,链接权威排名)。此类模糊查询最著名的例子包括bass(鱼或仪器)、java(编程语言、岛屿或咖啡)、jaguar(动物、汽车或苹果软件)和IR application(红外应用程序或信息检索应用程序)。 |
建议的方法 |
网络搜索结果的聚类是信息检索领域的一个研究方向。聚类搜索结果的目标是让用户知道结果包含什么。文档片段聚类可以归类为基于内容的聚类。基于图的聚类可以分为基于拓扑的聚类。 |
A.多搜索引擎设计 |
最著名的通用搜索引擎是谷歌和Yahoo!但AltaVista是最古老的搜索引擎之一。所有现有的搜索引擎都有弱点,谷歌也不例外。这部分代表了建立更多搜索引擎的真正原因。基于流的访问允许将页面的全部或重要子集作为流[6]检索。通过Web Base查询引擎提供对页面和计算特性(来自特性存储库)的基于查询的访问。在搜索引擎的选择上,我们选择了25个搜索引擎来进行我们的实验。它们是All the Web, AltaVista,谷歌,yahoo, clusty, you tube, file tube, citeceer等,仅举几例。首先,选择搜索引擎,并将用户查询提交给所考虑的所有搜索引擎。这些问题涵盖了广泛的主题。主题如下:网络、文学、音乐、植物、体育、旅游等。 The content of these pages is compared to give the result. |
1.网络爬虫 |
这个过程会一直持续,直到收集了所有可到达的内容,直到完成刷新间隔(刷新设置),或者直到达到限制爬取范围的另一个配置参数。有许多不同的方法来调整配置以适应特定的Web爬行场景。 |
a.控制器模块—该模块主要针对web爬虫设计的图形用户界面(GUI),负责控制爬虫的操作。它控制着Fetcher和Parser。 |
b. Fetcher模块-该模块首先根据用户指定的起始URL获取页面。 |
c.解析器模块-这个模块解析Fetcher模块获取的URL,并将这些页面的内容保存到磁盘。之后,索引器在数据库中创建索引,通过分类来组织数据。索引器从每个文档中提取所有信息,并将其存储在数据库中。所有高质量的搜索引擎都会索引文档中的每一个单词,并给出一个唯一的单词Id。然后检查单词的出现次数,也就是一些搜索引擎所说的“命中次数”,并记录下所有的单词。 |
B. Web结果过滤 |
布隆过滤器:集合U的Bloom过滤器被实现为m位数组。集合中的每个元素u (u∈u)使用k独立哈希函数h1... .进行哈希香港。哈希函数hi(u)对于1≤i≤k映射到数组{1 . .m}中的一位。当一个元素被添加到集合中时,它会在Bloom过滤器中设置k位,每一位都对应一个哈希函数。如果已经设置了一个位,它将保持1[10]。对于成员检查,布鲁姆过滤器可能会产生假阳性;看起来元素v在U中,即使它不在U中。根据分析,给定n = |U|和Bloom过滤器大小m, k的最佳值使假阳性概率最小,pk,其中p表示给定位在Bloom过滤器中设置的概率,为k = m n ln 2。在此之前,Bloom过滤器主要用于查找集成员。 |
为了找到相似的文档,我们将一个文档的Bloom过滤器与另一个文档的Bloom过滤器进行比较。如果两个文档共享大量的1(以位为单位的AND),则它们被标记为相似。在这种情况下,位与也可以被理解为两个位向量的点积。如果一个文档的Bloom过滤器中的集合位是另一个过滤器的集合位的完整子集,那么该文档极有可能包含在另一个过滤器中。网页是由片段组成的,可以是静态的(例如,标志图像),也可以是动态的(例如,个性化的产品促销,当地天气)。当针对页面进行基于相似性的“分组”时,相似性测试应该针对感兴趣的片段,而不是整个页面。 |
C.集群Web结果 |
概率k均值聚类是最常用的聚类算法之一。一旦确定了最终的聚类数量,它需要从数据收集中选取K个数据点作为第一次分配数据点[7]的初始质心。将所有数据点分配到不同的集群是迭代执行的,直到达到某个停止条件。K-Means的原理: |
1.预先确定最终聚类的K个数,随机选取K个数据点作为初始聚类质心。 |
2.将每个数据点分配给最接近的群集。 |
3.将所有数据点分配到相应簇后,重新计算K个质心。 |
4.重复步骤2和3,直到达到某个停止条件。 |
距离度量通常是概率k均值聚类使用的最常见的相似度量,例如公式1所示的平方欧几里得距离度量,其中x1, x2,…, xn表示点X, y1, y2,…,yn is the representation of point Y. (both Euclidean distance and Squared Euclidean distance don’t consider the normalization) therefore, K-Means clustering uses cosine similarity metrics that is described previously in the section of “Vector Space Model”[11]. |
|
聚类系统的基本程序通常包括文档抓取、索引和聚类。我们的概率K-Means聚类方法是在Apache Lucene索引、Apache Mahout Vector创建和K-Means聚类组件之上实现的。其他一些工具,如Html Cleaner, Html Parser用于解析网页以获得内容片段和外链接,以及Yahoo!站点资源管理器用于检索某些页面的内链接。 |
d .点击排名 |
一个点击通过算法的网页排名的主要好处是,它结合了实际的用户点击通过行为来排名网页,这与链接分析算法,如网页排名,不建立他们的排名从任何实际使用,而是从互联网上的网页网络的底层链接结构。我们在此提出的点击率模型特别结合了搜索引擎的点击率。网页排名系统的主要用户是搜索引擎[8]。因此,我们绕过了链接分析的间接逻辑和它所基于的声誉系统,该系统根据网页世界中的明显声誉来评估页面。在这里,我们直接进入重点,试图回答这个问题,哪些页面的人访问搜索引擎的价值?一旦我们回答了这个问题,回过头来验证、批评或用结果补充链接分析排名是很有趣的。 |
假设搜索引擎按照索引的顺序对页面进行排序:1、2、3、…然后下面两个值表示用户最终点击通过的预期概率和每个用户在点击通过之前的预期页面浏览量。 |
E[成功概率]= p1 +(1±1)[p2 +(1±2)[p3 +…]E[搜索时间]= 1 +(1±1)[1 +…] |
可以合理地假设,使第一个值最大化和使第二个值最小化都是搜索引擎的主要目标。显然,根据我们上面的模型和假设,每次点击的概率都是一样的。然而,如果我们放松假设5)。在任何情况下,如果我们可以简单地确定圆周率值,那么我们就可以通过简单地将圆周率值按[9]的降序排列来优化这两个目标。注意,在m个步骤中点击成功的概率可以重写为E[成功的概率]= 1 × (1 × 1)(1 × 2):::(1 × pm)这个值以π为单位递减,所以我们希望所有m个步骤都包含最大的pi。 |
因此,我们希望π这个概率最大化降序排名为所有m。预期数量的页面检查也可以重写为E(搜索时间)= 1 +(1¡p1) +(1¡p1)(1¡p2 ) + ::: + ( 1¡p1):::(1¡pk)对于任何订购的页面,如果我们交换页面i和j,我最初是放置在j之前,这个和唯一的条件变化是那些包括π项没有pj项。这些项在pj >时减少,在pj <时增加。因此,为了使期望的页检查数量最小化,我们必须按最大的pi排序。 |
我们首先对系统建模。我们假设: |
1.有k个网页。 |
2.搜索引擎无法根据主题区分页面。用户的每个查询都与所有页面同等相关。 |
3.每个页面i都有一个固有的值参数pi,它表示任何给定用户在搜索引擎上检查页面i的列表时将点击进入页面i的概率。 |
4.搜索引擎为每个用户生成一个有序的页面列表。用户依次检查这些页面,直到他们决定点击进入一个页面。 |
5.用户将继续检查页面,直到他们要么点击进入某个页面,要么拒绝所有页面。 |
摘要结果 |
这些策略的排名与点击基于排名算法以及点击计数排名方法。该算法主要处理的概念是,当提交的查询没有给出预期的结果时,由给定查询返回的链接将给出最好的结果。实验结果表明,该算法对Click-Count和聚类结果有较好的效果。 |
A.性能比较 |
|
在那里, |
•真阳性(TP) -正确标记为属于特定类别(积极/消极)的评论数量。雷竞技苹果下载 |
假阳性(FP) -错误标记为属于特定类别的评论数量。雷竞技苹果下载 |
•假阴性(FN) -评论数量没有被标记为属于特定类别,但应该被标记。雷竞技苹果下载 |
结论及未来工作 |
搜索引擎在万维网中的重要作用,这里改进了多个搜索引擎所采用的爬行过程,目的是提高它们提供给客户端的服务质量。我们对聚类、网站结果和排名的分析,以及尴尬度的度量,这是由一个更可取的目标引入的。以语义Web为代表的下一代Web体系结构将提供足够的工具来改进搜索策略,并提高满足用户查询的可能性,而无需进行令人厌烦的手工改进。基于群智能概念的粒子群优化方法的未来改进正在web使用挖掘的高维序列聚类分析中实现。 |
表格一览 |
|
|
数字一览 |
|
|
参考文献 |
- “网络文档聚类:一种可行性论证”,《信息检索的研究与发展》,第46-54页,1998。
- 陈新春,“网络挖掘:网络应用中的机器学习”,《信息科学与技术》2003。
- Schenker, M. Last和A. Kandel(2001),“一种基于术语的Web文档分层聚类算法”,发表于第9届加拿大IFSA世界大会和第20届NAFIPS国际会议论文集,第5卷,3076-3081页,温哥华,2001年7月。
- Nicholas O. Andrews和Edward A. Fox,“文档聚类技术的最新发展”,计算机科学系,virgatech 2007。
- Ramakrishna, M.T. Gowdar, L.K. Havanur, M.S. Swamy(2010),“Web挖掘:主要成就,应用和未来方向”,国际数据存储和数据工程会议(DSDE),第187 - 191页,2010。
- PawanLingras,Rui Yan和Chad West,“教育网站用户的模糊c均值聚类”,施普林格出版物,2003年。
- 徐冠东,“基于推荐和个性化的Web挖掘技术”,博士学位论文,澳大利亚维多利亚大学,2008年3月。
- Andreas Hotho和GerdStumme,“挖掘万维网——方法、应用和感知”,载于KünstlicheIntelligenz, 2007年7月。
- 王斌,刘志静,“Web挖掘研究”,《第五届计算智能与多媒体应用国际会议论文集》,2003。
- D.R. Cutting, D.R. Karger, J.O. Pederson和J.W. Tukey(1992)。“分散/收集:浏览大型文档集合的基于集群的方法”,见第15届国际ACM SIGIR信息检索研究与发展会议论文集,SIGIR ' 92,第318-329页,哥本哈根,丹麦,1992年6月。
- 杨春生、黄志刚、杨志刚(1975)。自动索引的向量空间模型。美国计算机通信,18(11):613-620,1975。
|