所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

网站使用最佳链接有效用户导航的调查

Piyusha P. Dhalpe, Deeksha Bhardwaj
印度浦那萨维特里拜普勒大学G.H. Raisoni工程技术学院计算机工程系硕士生
印度浦那萨维特里拜普勒大学G.H. Raisoni工程技术学院计算机工程系助理教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

网站导航被认为是许多领域最重要的设计功能之一,包括金融、电子商务、娱乐、教育、政府和医疗。但是如何通过设计一个结构良好的网站来为用户提供有效的网站导航一直是一个挑战。一个主要原因是web开发人员对网站结构的理解与用户有很大的不同。为了提高网站结构的通航性,人们已经发现了很多方法来重新链接网页。完全重组的新结构可能是高度不可预测的,更改后使用户迷失方向的成本仍然没有分析。这项文献调查工作描述了各种方法,已用于改善网站,而不引入实质性的变化。在这项调查中,我们描述了一个数学编程模型,以改善网站上的用户导航,同时尽量减少对其当前结构的更改。此外,我们还介绍了PageGather方法、基于用户访问模式的网站重组和蚁群系统及其优缺点。此外,我们还介绍了基于Web使用挖掘的网站自动个性化

关键字

网站设计,用户导航,网页挖掘,数学编程,网页收集。

介绍

糟糕的网站设计的一个基本原因是,网站开发人员对网站结构的理解可能与用户的理解有很大的不同。由于这种情况,用户无法轻松地在网站中找到所需的信息。
这个问题是很难避免的,因为web开发人员在创建网站时,可能对用户的喜好并没有很清楚的了解,web开发人员只能根据自己的判断来组织页面。然而,衡量网站有效性的主要标准是用户的满意度,而不是开发者的满意度。因此,网页应该以这样一种方式进行组织,通常它与用户的页面组织模式相匹配。
web转换和个性化方法之间有几个不同之处:
1.Web转换通常是创建或修改用于所有用户的网站结构。而个性化方法则为个别用户动态地重新构造页面。因此,个性化方法没有预定义的或内置的web结构。
2.为了了解个别用户的偏好,个性化方法需要收集与这些用户相关的信息。转换方法不需要这个计算困难且耗时的过程。
3.转换方法基本上使用来自weblog文件的聚合数据,它不需要跟踪每个用户过去的使用情况,而动态页面通常是根据用户的遍历路径生成的。因此,个性化方法更适合于内容变化较大的动态网站,转换方法更适合于具有内置结构且存储相对静态和稳定内容的网站。
在这项工作中,作者主要专注于转换方法,开发方法完全重组网站的链接结构。

缺点:

1.一个完全重组的网站可能会从根本上改变熟悉项目的位置,新网站可能会使用户迷失方向。
2.重组后的网站结构是非常不可预测的,改变后使用户迷失方向的成本仍然没有分析。这是因为网站结构通常是由专家设计的,具有业务或组织逻辑,但当网站完全重组时,这种逻辑可能不再存在于新的结构中。
3.网站重组的方法可能会极大地改变当前的结构,他们不能经常执行,以提高导航性。
为了克服网站重组方法的这一缺点,作者开发了一种数学规划(MP)模型,允许用户在网站上导航,对其当前结构的变化最小。数学编程(MP)特别用于信息网站,其内容是静态的,随着时间的推移相对稳定。然而,这种模式可能不适合纯粹使用动态页面或具有易变内容的网站。

系统实现

数学规划(MP):

使用数学编程[1]模型来提高网站的导航效率,同时减少对原有网站结构的改变。在这项工作中,为了分析用户与网站之间的交互,必须将日志文件分解为不同的用户会话。会话,它只是用户在访问站点期间执行的一组活动。一个会话可以包括一个或多个目标页面,因为用户在一个会话中可以访问多个目标。用于分析的度量是找到一个目标所经过的路径的数量,作者使用了一个不同的术语迷你会话来指代用户仅为一个目标访问的一组页面。因此,一个会话可以包含一个或多个迷你会话,每个迷你会话包含一组到达目标的遍历路径。
在这种方法中,作者使用了页面停留超时启发式。通过计算花费在该页面上的时间是否大于超时阈值,我们可以很容易地确定该页是否是目标页。这里的基本思想是,用户通常花更多的时间阅读他们认为相关的文档,而不是他们认为不相关的文档。尽管不可能从weblog文件中识别用户会话。无花果
图2.1描述了一个有10个页面的网站结构。图2。2描述了一个迷你会话,用户从a开始,浏览D和H,然后返回到D,从那里他访问C, B, E, J,然后返回到B。然后,这个用户从B到F,最后到达目标K。我们正式地用S ={{a, D, H}{C, B, E, J}{F, K}来表示迷你会话,其中S中的一个元素代表用户所经过的路径。在这里,迷你会话S有三条路径,因为用户在到达目标K之前从H和J处回溯。
在图2.2中,我们可以看到,user在到达目标之前已经遍历了三条路径。为了更快地达到目标,我们需要引入更多的链接,而添加额外链接的方法有很多。假设从D添加一个链接到K,那么用户可以通过D直接到达目标网页K,因此用户可以通过第一条路径本身到达目标网页K。因此,添加这个链接为用户节省了两条路径。类似地,建立从B到K的链接允许用户通过第二条路径到达目标。因此,这为他节省了一条路径。
此外,我们可以很容易地添加一个从E到K的链接,这被认为是相同的链接B到K。
虽然可以添加许多链接来提高导航性,但我们这里的目标是通过对网站进行最小的更改来实现用户导航的指定目标。我们通过添加到当前站点结构的新链接数量来衡量变化

优势

1.数学编程提高了用户在网站上的导航,而对当前结构的改变最小。
2.数学规划(MP)模型不仅能成功地完成其任务,而且能快速生成最优解。
3.在这里,出度可以被认为是目标函数中的一个代价项,而不是硬约束。在成本合理的情况下,这允许一个页面拥有比out degree阈值更多的链接,从而在最大限度地减少对网站的更改和减少用户的信息过载之间提供了一个很好的平衡。

文献调查

PageGather算法:

对于一个大的访问日志,这里的任务是找到在访问中往往同时出现的页面集合。在聚类的帮助下,我们可以找到彼此相关的页面集合。在聚类中,文档在n维空间中表示。一般来说,集群是彼此接近且与其他集群相对较远的文档的集合。标准聚类算法将文档划分为一组互斥的聚类。
聚类挖掘是传统聚类的变体,非常适合我们的任务。在本文中,作者没有尝试对整个文档空间进行分区,而是尝试找到少量高质量的集群。传统的聚类是将每个文档放在一个集群中,而集群挖掘则是将单个文档放在多个重叠的集群中。
PageGather算法[2]使用集群挖掘来查找网站上相关页面的集合。一般来说,它将web服务器访问日志作为输入,并将其映射到准备进行集群的表单中,然后对数据应用集群挖掘,并生成候选索引页内容作为输出。PageGather算法有五个基本步骤:
1.将访问日志处理为访问。
2.计算页面之间的共现频率并创建相似度矩阵。
3.创建对应于矩阵的图,并找到图中最大的连通分量。
4.对找到的集群进行排序,并选择输出。
5.对于每个集群,创建一个包含集群中文档链接的网页,并将其提交给网站管理员进行评估。

将访问日志处理为访问。

访问可以定义为单个用户在单个会话中访问的有序页面序列。一个访问日志,是一个页面视图的序列,或向web服务器发出的请求。每个请求通常包括请求的时间、请求的URL和发出请求的机器。

计算页面之间的共现频率并创建相似度矩阵。

对于每一对页面p1和p2,我们计算P (p1 /p2),如果用户已经访问了p2,则访问者访问p1的概率,如果用户已经访问了p1,则访问者访问p2的概率P (p2 /p1)。p1和p2同时出现的频率是这些值中的最小值。
在这里,目标是找到相关但当前未链接的页面集群。因此,有必要避免找到已经链接在一起的页面集群。作者通过将两个页面的矩阵单元格设置为零来防止这种情况(如果它们已经在站点中被链接)。
相似矩阵可以被看作是一个图,它允许我们将图算法应用于识别相关页面集合的任务。但是,与相似矩阵对应的图是完全连通的。为了降低噪声,我们需要应用一个阈值,去除低共现频率对应的边。

创建与矩阵对应的图,并找到图中最大连通分量。

在这一步中,作者创建了一个图,其中每个页面是一个节点,矩阵中的每个非零单元格是一个弧。接下来,他应用了有效地从图中提取连接信息的图算法。通过创建稀疏图,并使用高效的图算法进行聚类挖掘,可以比依赖传统聚类方法更快地识别出高质量的聚类。
PG集团
它用于寻找图中的所有最大团,即连通组件组。团是一个子图,其中每对节点之间都有一条边,最大团不是任何较大团的子集。
PGCC
它找到所有连接的组件子图,其中每对页面之间都有一条边的路径。当阈值较高时,图会变得稀疏,我们能找到的聚类很少,这些聚类往往规模较小,但质量较高。当阈值较低时,我们可以找到更多更大的集群。

对找到的集群进行排序,并选择输出。

在步骤(3)中,我们可能得到许多集群,但我们可能希望只输出几个集群。例如,网站管理员可能希望每周只看到几个集群,并决定将哪些集群转换为新的索引页。在这里,通过平均集群中所有文档对之间的共现频率,对所有发现的集群进行评级和排序。

对于发现的每个集群,创建一个包含集群中文档链接的网页,并将其提交给网站管理员进行评估。

PageGather算法找到所有的候选链接集,并将它们呈现给网站管理员。网站管理员会被提示接受或拒绝该集群,为其命名,并删除任何不合适的链接。链接用目标页面的标题标记,并按这些标题的字母顺序排序。网站管理员负责在网站上放置新页面。

paggather的优点和局限性:

1.在PageGather中,PGCLIQUE集群的性能比现有的人工编写的索引页要好得多。
2.在这里,聚类挖掘方法在从训练数据到测试数据的访问日志中找到了真正的规律。paggather致力于寻找这些规律,而且显然是成功的。一个高比例的链接,当有这么多在页面上。
3.虽然创建高点击率的索引页面是可取的,但网站管理员还有其他考虑。

限制:

PageGather方法可以生成有用的索引页,但它不解决纯度或完整性问题。

b .基于用户访问模式重组网站:

在这里[3],作者描述了一种重新组织网页的方法,以便在只需几次点击的情况下为用户提供他们所需的信息。然而,这种方法只考虑网站的局部结构,而不是网站的整体结构,所以新的结构不一定是最优的。
这个建议的方法包括三个步骤:
1.预处理
2.分类页,
3.网站重组。

预处理

在预处理中,对网站上的页面进行处理以获得网站的内部表示。预处理有三个任务。1.网站预处理,以获得网站的当前结构,即页面是如何链接的。2.服务器日志预处理,将访问记录组织成会话。3.从会话中收集页面的访问信息。

网站预处理

网站预处理的主要目的是创建一个内部数据结构来表示网站。通常,Web站点表示为一个有向图,其中每个页面由一个节点组成,链接是一个弧。Web站点的每个页面都将按顺序解析,并提取页面中的链接。在这里,每个页面都有一个唯一的页面标识符(PID)。对于每个页面,存储了与之有链接的页面(父页)和与之有链接的页面(子页)的pid。

服务器日志预处理

由于服务器日志中记录了如此多不相关的信息,因此需要首先对其进行处理。许多预处理算法和启发式可以用于更好的Web挖掘。作者描述了涉及服务器日志预处理的步骤如下。
1.关于图像文件(.gif, .jpg等)的记录以及不成功的请求将被过滤
2.来自相同IP地址的请求被分组到一个会话中。30分钟的超时时间用于决定会话的结束时间,即如果在30分钟内没有出现相同的IP地址,则当前会话关闭。
3.花费在特定页面上的时间由两个连续请求之间的时间差决定。

接入信息收集

在这一步中,author将收集从会话中收集的页面的访问统计信息。获得的数据稍后将用于对页面进行分类以及重新组织站点。
扫描服务器日志预处理中获取的会话,计算访问统计信息。统计数据与表示在网站预处理中获得的站点的图形一起存储。
在这里,作者计算了每页的以下统计数据。
•访问页面的会话数;
•在页面上花费的总时间;
•该页面是会话最后一个请求页面的次数。

页面分类

在这个页面分类阶段,Web站点上的页面分为两类:索引页面和内容页面。
索引页是用户用于网站导航的页面。除了链接,它通常只包含很少的信息。
内容页包含用户感兴趣的信息的。它的内容提供的不仅仅是链接。分类为现场整理提供了线索。

网站重组

在网站重组[3]中,检查网站以找到更好的方法来组织和安排网站上的页面。网站可以根据访问信息进行重组。此阶段的目标是重新组织Web站点,以便用户花费更少的时间搜索所需的信息。更具体地说,我们希望重新组织页面,以便用户可以通过更少的点击访问他们想要的信息。虽然页面布局等其他因素也会影响导航,但用户必须经过的点击次数是导航的主要因素,因为每次点击都需要用户主动而非被动地努力,并且通常涉及到对服务器的请求和回复。在这里,重组的一般思想是减少用户必须经过的中间索引页的数量。为了实现这一点,我们需要将经常访问的页面放在Web站点结构的更高位置,即靠近主页的页面,而不经常访问的页面应该放在结构的更低位置。

优势与局限性

1.这种方法有助于构建Web站点,以更少的点击为用户提供他们想要的信息。通过分析网站的使用情况和网站的结构,发现对网站结构的修改可以改善网站的结构。
2.这个提议的方法已经在来自实际Web站点的真实数据集上实现和测试过。结果表明,该方法具有较高的页面分类精度,减少了用户获取感兴趣信息所需的点击次数。因此,这种特殊的方法对于自适应Web站点非常有前途。

基于蚁群系统和局部搜索的混合网站优化方法

本文提出的方法[4]分为两个阶段。
首先,利用基于蚁群的算法找到改进的网站链接结构的初始值,然后将得到的网站结构作为局部搜索算法的初始解,以改进算法的解。

解子图的生成

在第一阶段,应用基于蚁群的模型寻找初始最优链路结构。在该方法中,蚂蚁的m个数被逐一使用来生成初始解。这一阶段进一步分为两个步骤,具体描述如下:

步骤1:生成树生成

在这里,使用蚁群系统(ACS)方法来生成满足离度和所需级别约束的跨度。蚁群算法在生成树的构造过程中重复选择边。蚂蚁每次选择一条边来培育树。蚂蚁从一组候选边中选择边。候选边集由在构造树中具有起始节点和不属于构造树的结束节点的边组成。

步骤2:解子图

生成树生成后,从剩余边中连续选取频率最大的边加入构造树,形成满足指定级别和程度约束的子图。每只蚂蚁生成一个满足所需约束的解子图,并将m个蚂蚁生成的m个解中的最佳链接结构传递到局部搜索阶段。

本地搜索应用程序

蚁群方法得到的网站结构作为局部搜索方法的初始解。在结构上反复进行局部搜索,以确定目标是否可以改进。局部搜索的解决方案形成采用了不同于ACS的邻域,这增加了获得改进的网站结构的概率。

1.初始化

在网站结构改进问题中,决策变量的值为0或1,候选解决方案用以0或1为元素的矩阵表示。如前一节所述,ACS生成的网络图结构作为初始解。

2.社区结构

有两个操作是用来改变网站结构:
1.链接删除
2.插入的链接。
这些操作用于生成邻域结构,以分析某些结构是否改善了目标函数。
首先,生成一个候选边列表,该候选边列表仅包含在原始链接结构中存在但不包含在蚁群系统生成的初始结构中的边。候选边列表中的每个链接在构造树中都有源节点和目标节点。从候选列表中选取一条边并插入到网站结构中。
边的插入还伴随着边的删除操作,以便不违反向外的度约束。要删除的边应该是源网页中权重最低的边。假设从候选列表中选取一条源节点S和目的节点D的链路进行插入,则从节点S的所有出边中,移除权值最低的边,以保持指定的出度。
在这种方法中,只有当要插入的边的权重大于要删除的边时,才应该进行链接插入移动。在链接删除和插入操作中,结构的连通性应保持完整。在邻域生成过程中,还应保持节点的级别约束。假设从Ato B删除链路使节点B的级别超过了允许的最大级别,则必须取消此删除操作。

内存结构

为了提高算法的搜索效率,所提出的局部搜索方法采用了插入禁忌列表的内存结构。在本工作中,作者使用禁忌列表来响应链接删除操作。插入禁忌列表包含在以后的移动中不能插入的链接。当一个链接从网站结构中移除时,该链接将被添加到插入禁忌列表中,以便在以后的步骤中不添加该链接。

优势与局限性

1.人工图实验表明,所提出的蚁群系统可以在较短的计算时间内提供非常好的解,优于0-1规划方法。
2.蚁群系统具有较低的时间复杂度,可用于大型网站的重组。
3.蚁群系统可以成功地应用于真实的网站。

基于Web使用挖掘的自动个性化

上面的图3.3描述了系统架构,其中基于使用的Web个性化的离线组件分为两个独立的阶段。
1.预处理和数据准备—包括数据清洗、过滤和事务识别。
2.矿业在这个阶段,使用模式是通过关联规则挖掘和聚类等方法发现的。

预处理任务

这里,第一个重要任务是从Web服务器提供的原始使用数据中识别一组用户会话。理想情况下,每个用户会话都能准确地说明谁访问了Web站点、以何种顺序请求了哪些页面,以及特定用户查看每个页面的时间。在这里,本地缓存和代理服务器是形成准确用户会话的最大障碍。为了提高性能和最小化网络流量,大多数Web浏览器都会缓存会话期间用户请求的页面。
因此,当用户点击“后退”按钮时,缓存的页面就会显示出来,而Web服务器并不知道重复的页面访问。
除了标识用户会话之外,还必须清理原始日志,或将其转换为页面视图列表。由于HTTP协议的无状态连接属性,多个文件请求(HTML、图像、声音等)通常是单个用户操作的结果。由于一次单击而发送的文件组被称为页面视图。
清除服务器日志[5]涉及删除所有冗余的文件访问,每个页面视图只留下一个条目。这包括处理具有多帧的页面视图,以及对多个页面视图具有相同模板名称的动态页面。还可能需要通过将引用映射到页面间物理链接引起的站点拓扑来过滤日志文件。
用户会话文件中的每个用户会话可以用两种方式来考虑;可以是由多个页面引用组成的单个事务,也可以是由多个事务组成的一组事务,每个事务都由单个页面引用组成。事务标识的目标是为每个用户动态创建有意义的引用集群。
在这项工作中,作者假定每个用户会话都被视为单个事务。最后,可以过滤会话文件,以删除非常小的事务和非常低的支持引用。这种类型的支持过滤对于从数据中去除噪声非常重要,并且可以在集群任务中提供一种降维形式,其中会话文件中出现的url被用作特性。

发现频繁项集和关联规则

关联规则发现方法(如Apriori算法)最初发现在许多事务中频繁出现在一起的项目组。这样的项目组称为频繁项目集。给定一个集合I = {I1,我2,……,我k}, Ii的支持度定义为[5],如下所示
图像
算法返回的项集满足这个最小支持阈值。
支持度也被认为是向下封闭的,即如果一个项集不满足最小支持度标准,那么它的任何超集也不满足。
关联规则根据项目在事务中同时出现的模式捕获项目之间的关系。对于Web事务,关联规则根据用户的导航模式捕获URL引用之间的关系。关联规则r是如下形式[5]的表达式。
图像

聚类

事务集群[5]将产生一个集合C = {c1, c2,…,ck} of clusters, where each ci is a subset of user transaction say T. Here, each cluster represents a group of users with "similar" access patterns. However, transaction clusters by themselves are not an effective means of capturing an aggregated view of common user profiles. Each transaction cluster may potentially contain thousands of user transactions involving hundreds of URL references.. The URL clusters associated with each transaction cluster will serve as an aggregated view and a representative of users whose behavior is captured in the transaction clusters.

结论

在本文中,作者提出了一个数学规划模型,以提高一个网站的导航效率,同时尽量减少其当前结构的变化。该模型适用于内容随时间变化相对稳定的信息类网站。它改善了一个网站,而不是重组它,因此它适合网站维护在一个渐进的基础上。数学编程模型可以通过添加少量新链接来显著改善用户导航。快速得到了最优解,表明该模型对现实世界的网站非常有效。MP模型被观察到可以很好地扩展,在桌面PC上的大多数情况下,可以在几秒钟内最佳地解决大型问题。

数字一览

图1 图2 图3
图1 图2 图3

参考文献














全球科技峰会