关键字 |
网站设计、用户导航Web挖掘数学规划,PageGather。 |
介绍 |
可怜的网站设计的一个基本原因是web开发人员的理解应该如何构造一个网站可以大大不同于用户。由于这种情况下,用户无法轻松地找到所需的信息的网站。 |
这个问题非常难以避免,因为当web开发人员创建一个网站,他可能没有清楚地了解用户的喜好和web开发人员只能根据自己的判断组织页面。然而,满足用户网站的主要手段的有效性而不是开发人员。因此,网页应该在这样一个有组织的方式,通常它匹配用户的页面应该如何组织模型。 |
有几个网络转换和个性化方法之间的差异。 |
1。网络变换方法一般来说,创建或修改一个网站的结构用于所有用户。同时,个性化的方法为个人用户动态重组的页面。因此,没有预定义的或内装式个性化的网络结构的方法。 |
2。为了理解个人用户的偏好,个性化的方法需要收集与这些用户相关的信息。这个计算困难和耗时的过程不需要转换的方法。 |
3所示。使用聚合数据转换方法基本上从weblog文件和它不需要跟踪过去为每个用户使用动态页面时通常是基于用户的遍历生成路径。因此,个性化的方法更适合动态网站的内容更不稳定和转换方法更适合的网站有一个内置的结构和存储相对静态和稳定的内容。 |
在这个工作中,作者主要关注转换方法开发方法完全重组一个网站的链接结构。 |
缺点: |
1。网站的完整重组会从根本上改变熟悉的东西的位置,新网站可能会让用户感到迷惑。 |
2。重组后的网站结构是高度不可预测,划分用户的成本变化后仍未分析。这是因为一个网站结构通常是由专家和熊业务或组织逻辑设计,但这种逻辑可能不再存在于新结构时,网站是完全重组。 |
3所示。网站重组方法可以极大地改变当前的结构,它们不能经常执行的改善适航性。 |
为了克服这个缺点的网站重组方法,作者开发一个数学规划(MP)模型,该模型允许用户在网站的导航当前结构的改变最少。数学规划(MP)特别用于信息网站的内容是静态的和相对稳定。然而,这个模型中,可能不适合做网站,纯粹使用动态页面或挥发性内容。 |
系统实现 |
数学规划(MP): |
数学规划模型[1]是用来提高一个网站的导航效率,同时减少更改原来的网站结构。在这个工作,为了分析用户和网站之间的交互,日志文件必须分成不同的用户会话。一个会话,它只不过是一群活动由一个用户在访问一个网站。一个会话可能包括一个或多个目标页面,用户可能访问单个会话期间几个目标。用于分析的指标的数量路径遍历找到一个目标,作者用一个不同的词迷你会话引用一组由用户访问的页面只有一个目标。因此,一个会话可能包含一个或多个小型会议,每一个都包含一组达到目标的路径遍历。 |
在这种方法中,作者使用了启发式page-stay超时。我们可以很容易地确定一个页面是目标通过评估如果该页面所花费的时间大于一个超时阈值。这里的基本思想是,用户通常花更多的时间阅读这些文件,他们比他们没有找到相关。虽然从weblog文件无法识别用户会话。无花果 |
图2.1描述了一个10页的网站结构。图2。2描述了一个小型会议,用户从一个开始,浏览D和H,回溯到D,从那里他访问C, B, E, J,回溯到B,这个用户从B到F和最后达到目标K .我们正式表示迷你会话S = {{a、D H} {C, B, E, J} {F, K}},一个元素代表一个用户路径遍历。这里,迷你会话年代有三个路径作为用户回溯在H K和J在达到目标之前。 |
在图2.2我们可以看到,用户已经遍历三路径到达目标。为了达到目标速度,我们需要引入更多的链接,有很多方法来添加额外的链接。假设如果链接添加从D K,然后用户可以直接通过D达到目标网页K,因此用户可以达到目标在第一路径本身。因此,通过添加这个链接保存用户的两条路径。同样,建立一个链接从B到K允许用户在第二路径达到目标。因此,这救了他一条路。 |
同时,我们可以很容易地添加一个链接从E K,这被认为是一样的链接B K . . |
虽然许多链接可以添加到提高适航性,我们的目标是实现指定目标用户导航网站以最小的变化。我们测量变化的新的链接添加到当前站点结构 |
优势 |
1。数学规划提高了用户在网站的导航用最小的改变目前的结构。 |
2。数学规划(MP)模型,不仅成功地执行其任务也快速生成最优解决方案。 |
3所示。在这里,degee可以被视为成本的目标函数,而不是硬约束。这允许一个页面链接比出度阈值,如果是合理的,因此成本最小化之间提供了一个良好的平衡改变一个网站,为用户减少信息过载。 |
文献调查 |
PageGather算法: |
对于大型的访问日志,这里的任务是找到的页面集合往往共现。在集群的帮助下我们可以找出相关的页面的集合。在集群中,文档是在n维空间表示。一般来说,集群是一组文件相互接近,相对远离其他集群。标准聚类算法文档分割成一组互斥的集群。 |
传统集群的集群采矿是一个变体是适合我们的任务。而不是试图分区文件的整个空间,这里作者试图找到少量的高质量的集群。传统聚类是关心将每个文档放置在一个集群,集群矿业可能一个文档在多个重叠集群。 |
PageGather算法[2]使用集群挖掘寻找网站相关页面的集合。一般来说,需要一个web服务器访问日志作为输入,并将它映射到集群形式准备然后应用集群数据挖掘并产生候选索引页内容作为输出。PageGather算法有五个基本步骤: |
1。处理访问登录访问。 |
2。计算页面之间的同现频率和创建一个相似矩阵。 |
3所示。创建图表对应矩阵,找到图中的最大连接组件。 |
4所示。集群发现排名,选择输出。 |
5。对于每个集群,创建一个web页面组成的集群中的文档的链接,并将其呈现给站长进行评估。 |
处理访问登录访问。 |
访问的页面可以被定义为一个有序序列由一个用户在一个会话访问。访问日志,是一系列的页面浏览量,或请求到web服务器。每个请求的时间一般包括请求,请求的URL,机器请求就起源于它。 |
计算页面之间的同现频率和创建一个相似矩阵。 |
对于每一对p1和p2的页面,我们计算P (p1和p2),访问者访问的概率p1如果用户已经访问过p2 P (p2 / p1),访问者访问p2的概率如果用户已经访问过p1。同现频率在p1和p2之间的最小值。 |
在这里,目标是找到集群相关的但目前链接页面。因此,它是必要的,以避免发现集群的页面,已经联系在一起。防止这种作者通过设置两页为零的矩阵细胞如果他们已经联系在一起。 |
相似矩阵可以被视为一个图表,让我们运用图算法的任务确定相关页面的集合。然而,图对应相似矩阵将完全连接。为了减少噪音,我们需要申请一个阈值,消除边缘对应低同现频率。 |
创建图表对应矩阵,找到图中最大连接组件。 |
在这里,在这一步中作者创建了一个图表,图中的每个页面都是一个节点,矩阵中的每个非零的细胞是一个弧。接下来,他应用图算法,有效地从图像中提取连接信息。通过创建一个稀疏图,并使用有效的挖掘集群图算法,它可以识别高质量大大快于集群依靠传统的聚类方法。 |
PG集团 |
它是用来找到所有我最大派系。e componenet连接图。一双小团体子图中,每个节点有一个边缘他们之间一个最大集团没有任何大集团的一个子集。 |
PGCC |
它发现所有连接组件子图中每一对页面路径之间的边缘。当阈值高,将稀疏图,我们可以找到一些集群,会是体积小,但高质量的。当阈值较低,我们可以找到更多的,更大的集群。 |
集群发现排名,选择输出。 |
在步骤(3)中我们可以得到许多集群,但是我们可能希望输出只有几个集群。例如,网站的站长可能希望看到每周不超过少数集群和决定哪些变成新索引页面。这里,所有集群发现评级,根据平均同现频率之间的集群中的所有成对的文档。 |
对于每个集群发现,创建一个web页面中的文档链接组成的集群,并将其呈现给站长进行评估。 |
PageGather算法找到所有候选人链接集和礼物给站长,站长提示接受或拒绝集群,名称,删除任何链接是不合适的。用的标题标记目标页面的链接,命令按字母顺序的标题。网站管理员负责将新页面。 |
PageGather的优势和限制: |
1。在PageGather PGCLIQUE的集群执行比现有human-authored索引页。 |
2。这里,集群采矿方法在访问日志,发现真正的规律从训练数据来测试数据。PageGather面向找到这些规律,显然是成功的。大部分的链接页面上有很多。 |
3所示。虽然创建索引页高点击率是可取的,网站的站长有其他方面的考虑。 |
限制: |
PageGather方法可以产生有用的索引页,它并没有解决纯度和完整性的问题。 |
B。重组网站根据用户访问模式: |
[3],作者描述了一个方法来重组网页以向用户提供其所需的信息就只有几个点击。然而,这种方法只考虑局部结构在一个网站而不是该网站作为一个整体,所以新结构可能不一定是最优的。 |
这个建议的方法包括三个步骤: |
1.预处理 |
2。分类页, |
3所示。网站重组。 |
预处理 |
在预处理,页面处理网站为了得到一个网站的内部表示。在预处理中有三个任务。1。网站预处理获得当前网站的结构,即,页面是如何联系在一起。2。Sserver日志预处理组织访问记录到会议。3所示。从会话收集信息页面的访问。 |
网站预处理 |
网站预处理的主要目的是创建一个内部数据结构来表示的网站。一般来说,网站都被表示为一个有向图中每个页面包含节点和链接是一个弧。网站的每个页面解析顺序,并在提取页面中的链接。在这里,每个页面都有一个唯一的标识符(PID)。对于每个页面,页面的pid(父)和页面链接(孩子)的链接存储。 |
服务器日志预处理 |
那么多无关紧要的信息记录在服务器日志,它首先需要处理。大量的预处理算法和启发式可以用于更好的Web挖掘。作者描述了参与服务器日志的预处理步骤如下。 |
1。图像文件(记录。gif、jpg等)过滤以及失败的请求 |
2。请求来自同一个IP地址被分组到一个会话。超时30分钟是用来决定一个会话,即。,if the same IP address does not occur within a time range of 30 minutes, the current session is closed. |
3所示。特定的页面所花费的时间的时差是由两个连续的请求。 |
访问信息收集 |
在这一步中,作者将收集页面的访问统计信息收集的会议。之后获得的数据将被用来分类页面以及重组。 |
在服务器日志预处理扫描获得的会议和访问统计计算。数据存储的图形代表了网站在网站获得的预处理。 |
在这里,作者计算后统计每个页面。 |
•会话的页面访问次数; |
•总页面上的时间; |
•的次数一个会话的请求页面是最后一页。 |
页面分类 |
在这个页面分类阶段,网站上的页面分为两类:索引页和内容页。 |
一个索引页用户使用的是一个页面的导航网站。它通常包含一些信息除了链接。 |
一个内容页面是一个包含用户感兴趣的信息。它的内容提供了一些链接。分类为网站重组提供了线索。 |
网站重组 |
在网站重组[3],检查网站找到更好的方法来组织和安排网站上的页面。网站可以根据访问信息重组。这个阶段的目的是重组等网站,用户将花更少的时间寻找他们想要的信息。更具体地说,我们想重新组织页面,以便用户可以用更少的点击访问他们想要的信息。尽管页面布局等其他因素影响导航,点击用户的数量的主导因素是通过导航,因为每次点击需要来自用户的主动,而被动的努力,而且通常要从服务器请求和应答。重组的总体想法是减少中间索引页用户的数量。为了达到这个目标,我们需要将经常访问的页面更高的网站结构,即。,pages that are closer to home page, while pages that are accessed infrequently should be placed lower in the structure. |
优势和局限性 |
1。这种方法有助于构建Web站点,提供给用户他们想要的信息更少的点击。通过分析一个网站的使用和网站的结构,修改网站结构发现改善网站的结构。 |
2。这个建议的方法一直在实现和测试一组真实的数据从一个实际的Web站点。结果显示在页面分类精度高,减少点击用户必须执行获得感兴趣的信息。所以这个方法是自适应网站非常有前途。 |
基于蚁群系统和本地搜索的混合方法Web站点优化 |
拟议的方法[4]分为两个阶段。 |
首先,基于蚁群算法应用于找到最初的改进网站链接结构,然后合成结构作为初始解的局部搜索算法为了提高解决方案。 |
代的解决方案子图 |
在第一阶段,基于蚁群模型应用于找到最初的最佳链接结构。在这种方法中,m多的蚂蚁一个接一个用来生成初始解。这个阶段是进一步分为两个步骤中描述下面的部分: |
第一步:生成树的一代 |
在这里,蚁群系统(ACS)方法用于生成一个跨越,满足所需的出度和水平约束。蚁群算法选择边反复生成树的建设。蚂蚁选择单个边缘每次开发树中。蚂蚁从一组候选人选择边缘的边缘。候选人边缘设置由边缘开始构建树中的节点和结束节点不属于构造树。 |
步骤2:子图的解决方案 |
生成一个生成树后,边缘最大的频率是连续选择从剩余的边缘添加到构建树形成子图满足指定的水平和程度的限制。每只蚂蚁生成子图的解决方案,满足所需的约束和最好的链接结构(m m蚂蚁产生的解决方案传递给本地搜索阶段。 |
本地搜索应用程序 |
网站结构从蚁群获得方法作为初始解的局部搜索方法。结构上的本地搜索应用多次找到目标是否能得到改善。本地搜索的解决方案形成了不同的社区比ACS的概率增加一种改进的网站结构。 |
1.初始化 |
在网站结构改善的问题,要么是0或1的决策变量有价值和候选解决方案由一个矩阵元素有0或1。如前一节所述生成的ACS webgraph结构作为初始解。 |
2。社区结构 |
有两个操作用于改变网站结构: |
1。链接删除 |
2。插入的链接。 |
这些操作是用于生成邻域结构分析如果一些结构提高了目标函数。 |
首先,是生成候选边缘列表只有边缘存在于原始链接结构,但被排除在生成的初始结构,蚁群系统。候选人边列表中的每一个环节的源和目的节点构造树。优势的候选人名单和插入到网站结构。 |
这个插入的优势也伴随着优势删除操作,这样外在的约束程度并不违背。要删除的边缘的边缘应该是最低的重量来自一个源网页。假设一个与源节点和目的节点D是候选人名单的插入,然后所有从节点的边,边缘最低的重量应该保持删除指定的出度。 |
在这种方法中,一个链接插入移动应该只有边缘要插入的重量大于边被删除。链接删除和插入操作,连通性的结构应保持不变。节点的水平约束也应保持在邻近地区的一代。假设的删除链接从Ato B使得节点B的水平超过最大允许的水平,那么这个删除操作必须取消。 |
内存结构 |
提出的局部搜索方法使用一个名叫插入内存结构禁忌列表来提高算法的搜索效率。在这个工作的作者使用禁忌列表响应链接删除操作。插入禁忌列表包含的链接不能插在未来的走势。当一个链接被删除从网站结构,链接添加到插入禁忌列表的链接不是说在以后的步骤。 |
优势和局限性 |
1。实验用人造的图表显示,提出的蚁群系统可以优于0 - 1规划方法提供了很好的解决方案在一个短的计算时间。 |
2。蚁群系统表现出较低的时间复杂度,因此可以应用于重组大型网站。 |
3所示。蚁群系统可以成功地应用于实际的网站。 |
自动的基于Web使用挖掘个性化 |
上面的图3.3中描述的系统架构离线组件的基于使用Web个性化分为两个独立的阶段。 |
1。预处理和数据准备——它包括数据清洗、过滤和事务识别。 |
2.开采——在这个阶段使用模式是通过关联规则挖掘和聚类等方法发现的。 |
预处理任务 |
这里,第一个重要的任务是识别一组用户会话从原始使用数据提供的Web服务器。理想情况下,每个用户会话给一个准确的会计的人访问网站,页面所请求的顺序,每一页还有多久就被特定的用户。在这里,本地缓存和代理服务器的最大障碍是形成准确的用户会话。为了提高性能,减少网络流量,大多数Web浏览器缓存的页面请求的用户在会话期间。 |
因此,当用户点击“返回”按钮,显示缓存页面和Web服务器不知道重复页面访问。 |
除了识别用户会话,原始的日志也必须清洗,或转换成列表的页面浏览量。由于HTTP协议的无状态连接属性,多个文件请求(HTML、图像、声音等)往往是作为一个用户操作的结果。发送的文件组由于单击被称为一个页面视图。 |
清洁[5]服务器日志包括删除冗余的所有文件的访问,只留下一个条目/页面视图。这包括多个帧处理页面浏览量,和动态页面有相同的模板名称为多个页面浏览量。也有必要通过映射过滤日志文件的引用网站拓扑结构引起的物理页面之间的联系。 |
用户会话中的每个用户会话文件可以被认为在两个方面;无论是单个事务的许多页面引用,或一组每个组成的单个页面引用许多事务。事务标识的目的是为每个用户动态创建有意义的参考。 |
在这个工作中,作者假定每个用户会话被视为一个事务。最后,会议文件可能被过滤删除很小的交易和非常低的支持引用。这种类型的支持滤波可以去除噪声的重要数据,并能提供一种降维聚类任务,网址出现在会话文件作为特征。 |
发现频繁项集和关联规则 |
关联规则发现方法如先验的算法,最初发现的物品经常发生在许多交易。这些团体的物品被称为频繁项集。给定一组I ={我1,我2,……,我k}的频繁项集的支持Ii[5]定义如下 |
|
返回的项目集算法满足这个最低支持度阈值。 |
还支持被认为是向下关闭,如果一个项集不满足最低标准的支持,然后也不任何的超集。 |
关联规则捕获项目根据他们之间的关系模式同现的交易。在网络交易的情况下,关联规则获取URL引用之间的关系基于用户的导航模式。一个关联规则r是下面的表达式[5]。 |
|
聚类 |
事务聚类[5]将导致一组C = {c1, c2,…,ck} of clusters, where each ci is a subset of user transaction say T. Here, each cluster represents a group of users with "similar" access patterns. However, transaction clusters by themselves are not an effective means of capturing an aggregated view of common user profiles. Each transaction cluster may potentially contain thousands of user transactions involving hundreds of URL references.. The URL clusters associated with each transaction cluster will serve as an aggregated view and a representative of users whose behavior is captured in the transaction clusters. |
结论 |
在本文中,作者提出了一个数学规划模型来提高一个网站的导航效果同时最小化更改当前的结构。该模型是适合信息网站,其内容相对稳定。提高一个网站而不是整理它,因此适用于网站维护一个进步的基础。数学规划模型只能提供显著改进用户导航通过添加一些新的链接。最佳解决方案很快被获得,这表明现实世界的模型是非常有效的网站。议员模型观察扩大规模,优化解决大型问题在几秒钟在大多数情况下,在桌面电脑。 |
|
数据乍一看 |
|
|
引用 |
- 分钟陈和年轻的美国Ryu”,促进有效的用户通过网站导航结构改进”,IEEE OnKnowledge和数据工程,25卷,2013年3月3号
- m·伯寇维兹和o . Etzioni”,对自适应网站:概念框架和案例研究”,人工智能,118卷,第275 - 245页,2000年。
- 傅y、施' m . Creado, c . Ju”重组网站根据用户访问模式,“智能系统在会计,Financeand管理,11卷,没有。1,39-53,2002页。
- ParminderKaur Harpreet辛格,“基于蚁群系统的网站结构优化模型和本地搜索”,I.J.信息技术和计算机科学,2014,11日,48-53。
- b . Mobasher r·厄尔,j·斯利瓦斯塔瓦,“自动基于Web使用挖掘个性化”,通讯,ACM 43卷,没有。8日,页。142 - 151年,2000年。
- 傅y、施' m . Creado, c . Ju”重组网站根据用户访问模式,“智能系统在会计,Financeand管理,11卷,没有。1,39-53,2002页。
- 医学博士Marsico和美国Levialdi评估网站:利用用户的期望”,如j .人机研究60卷,没有。3、381 - 416年,2004页。
- 巴格奇a·r·古普塔,s . Sarkar,“改善网页的链接”,通知j .计算,19卷,没有。1,第136 - 127页,2007。
- 林祖嘉林,“网站优化重组考虑信息过载和搜索深度”,欧洲j .运筹学173卷,没有。3、839 - 848年,2006页。
- m . Eirinaki和m . Vazirgiannis Web个性化”“网络挖掘,ACM反式。互联网技术,3卷,不。1,1-27,2003页。
- b . Mobasher h·戴·t·罗和m .中川”发现和评估总使用概要文件Web个性化”,这和知识发现,6卷,没有。1,第82 - 61页,2002。
- b . Mobasher r·厄尔,j·斯利瓦斯塔瓦,“自动基于Web使用挖掘个性化”,通讯,ACM 43卷,没有。8,142 - 151年,2000页。
- b . Mobasher r·厄尔,j·斯利瓦斯塔瓦,“通过基于使用集群创建自适应Web站点的url”, Proc。英格WorkshopKnowledge和数据。交易所,1999年。
|