ISSN在线(2319 - 8753)打印(2347 - 6710)
V。Padmapriya1 K.Thenmozhi2 博士,助理教授计算机科学部门,净收益Tamilnadu, P艺术与科学学院,哥印拜陀印度1助理教授,计算机科学部门,净收益博士哥印拜陀P艺术与科学学院Tamilnadu,印度2 |
相关文章Pubmed,谷歌学者 |
访问更多的相关文章国际创新研究期刊》的研究在科学、工程和技术
缓存技术首次使用的内存管理减少数据访问的公共汽车交通和延迟。网络流量自1990年代开始出现了惊人的增长。网络流量的大幅增加,缓存技术应用于Web缓存来减少网络流量,用户感知到的延迟,在当地代理服务器负载通过缓存文档。摘要analization的一些当前Web缓存替换算法的优点和缺点包括最低相对价值算法,最小加权使用算法和最小unified-value(爱)算法。根据我们的分析,我们提出了一种新的算法,称为最小等级替换(LGR),这需要近因,频率,perfect-history,文档大小考虑Web缓存优化。最优近因系数测定使用2 - 4路设置关联缓存。缓存大小不一从32 k到256 k的模拟。仿真结果表明,新算法(LGR)比LRU和LFU命中率(BR)和字节命中率(BHR)。
关键字 |
||||
web挖掘;缓存采矿;web缓存;代理缓存 | ||||
介绍 |
||||
邻接缓存设计 | ||||
我们讨论三个通用缓存分布和查找的位置和延迟增强,提高缓存的广告。系统采用一种分层聚合总结的内容缓存文件在一个特定的局域网。这样的索引信息,需要导出到其他系统广域网可以减少。分布式哈希表的最常见的批评是,他们缺乏的地方。这是一个副作用的哈希函数用于识别DHT网络中两个节点和内容。哈希函数提供了一个keyto节点映射键均匀随机分配到各DHT的地址空间。因此,语义相关节点和数据项时由系统处理哈希函数将被映射到网络中有高概率的随机位置。这带来了很多的问题对于缓存索引和查询系统。首先,查找请求文件内容如图片和链接的网页需要一个单独的查询请求的URL。这将导致最坏时间复杂度为O (log N) M是嵌入式文件引用的数量在一个网页和N是系统中节点的数目。 Second, due to the random nature of the hash functions used to identify files, lookup requests for linked files are likely to be routed to nodes that are far away in the network. | ||||
这大大增加了延迟的定位网络中缓存文件。然而,许多这些不必要的查询请求,可以减少开发web页面的链接结构。在一个典型的web浏览场景中,客户端软件将连接到web服务器和web文档的下载HTML规范。一旦发生,客户端进程将文档树解析和生成一系列的HTTP get请求来从web服务器下载嵌入式文件内容。因此,这些内容也应该可以在相同的远程缓存系统作为主要的网页,除非它被赶出远程缓存。减少这些无关的查询请求,缓存缺失和额外的往返延迟,我们开发出了一种组合索引结构,客户端系统可以用来识别组相关的缓存项也可从远程站点。这种组合索引使用位图实现向量的内容用于确定链接的web内容的存在与否。这有效地允许客户机系统选择一个远程缓存根据相关文档,它存储的数量。结果,查找请求相关文件如嵌入式图像可以从相同的远程缓存下载无需专门使用DHT定位文件索引。这里的想法是扩展缓存索引的一个链接的价值,使客户端系统提前确定链接内容是否可以在远程代理。 As a consequence, communication between a client and remote cache system can be reduced because of these cache hints. This allows a client system to maintain a persistent connection with a remote cache, so that file requests for linked web content can be pipelined acrossthe same socket. To create this combined index, the link structure of a cached file has to be extracted using regular expressions. This process creates an ordered set of links that can be used to create a bitmap vector of the linked files available at a remote site. As such, the length of a bitmap vector corresponds to the number of out links in a given web page. To encode the availability of linked content at a remote site, the corresponding bit locations of these out links are set in the bitmap. Therefore, the ith link is represented by the ith bit in the bitmap vector. To illustrate this idea, consider a web page that has five links to other files. If each of these linked files were available at a remote cache, then each bit location in the bitmap vector of this cached item would be set to one. However, if only the second and third links were available at a remote cache, then only bit locations one and two would be set in the bitmap. The intuition here is that users will browse to a new page through an existing hyperlink directly, instead of jumping to a new page at random . Therefore, if we know which links are available ahead of time, the number of cache lookup messages routed across the network can be reduced. Once a browser has downloaded a list of IP addresses and adjacency cache bitmaps from the DHT, these are added to a fixed size in memory cache which has a least recently used eviction strategy. | ||||
分布式哈希表 | ||||
分布式哈希表(DHT)是一类分散的分布式系统,提供类似于一个哈希表的查找服务:(键,值)对存储在DHT,和任何参与节点能有效地检索与给定的键相关联的值。负责维护从键值映射分布在节点中,这样的改变参与者的集合导致最少的中断。这允许dht规模极其大量的节点和处理连续节点到达,离职,和失败。dht典型强调以下属性: | ||||
分权:节点共同形成了系统而不需要任何中央协调。 | ||||
可伸缩性:系统应该有效运转即使有成千上万的节点。 | ||||
容错:系统应该是可靠的(在某种意义上)即使节点不断加入,离开,和失败。 | ||||
二世。算法 |
||||
答:最低相对价值算法(LRW) | ||||
路易吉和Vicisano提出了代理缓存替换算法称为相对价值最低(最高)。它是基于一个目标函数最大化整个缓存。目标函数使用成本/收益模型来计算缓存中的每个文档的相对价值。使用缓存的两个性能参数:人力资源和BHR。 | ||||
制动装置的缺点 | ||||
最高时速为小缓存尤其有用。缓存容量越来越大,维护的开销相对价值的所有缓存文件的列表增加,液压制动的性能下降。 | ||||
b至少使用加权算法(LWU) | ||||
应,爱德华,Ye-sho认为模型驱动的模拟比trace-driven更客观。web缓存算法称为最小加权使用(LWU)提出了使用模型驱动的仿真。 | ||||
LWU的缺点 | ||||
LWU的缺点是,它忽略了web文档的大小。 | ||||
c .至少统一值算法(爱) | ||||
铁路等人提出了一个web缓存置换算法称为爱,使用完整的文档,参考历史的参考频率和近因。 | ||||
爱的缺点 | ||||
其缺点在于权重函数的优化是不客观的。 | ||||
d .至少级页面置换算法(LGR) | ||||
根据以上结论,我们提出了一个新的置换算法。算法的分数每个incache文档基础上通过历史,近因,频率,perfect-history和大小。集满时,至少级文档将被取代,但它将存储在一个perfect-history年级保管人(PHGD)未来的引用。由于调查,我们可以得出结论,相对最重要的因素是它的近因,然后频率,perfect-history和大小。我们只考虑这四个因素评分,因为它们是相对真实网络流量的最重要的因素。多方关联设置缓存的使用。至少年级页面置换算法如下所示。 | ||||
LGR算法 | ||||
ReplaceLeastGradePage ( | ||||
ICDR:缓存文档的记录 | ||||
PDDG:以前丢弃的文档的品位 | ||||
F: ICDR频率; | ||||
R:近因ICDR集; | ||||
李:文档的长度; | ||||
BG:奖金等级的文档) | ||||
{ | ||||
如果在缓存文档(k) | ||||
FOREACH ICDR做医生 | ||||
而(doc。在F | ||||
和医生。在R | ||||
L &大小(doc)) | ||||
医生←newValue; | ||||
PDDG←weightα,α∈(0,1); | ||||
其他的 | ||||
FetchDocFromOrigina (); | ||||
DiscardInCachedDoc (); | ||||
} | ||||
过程:FetchDocFromOrigina () | ||||
{ | ||||
如果没有空(L) | ||||
k插入到缓存; | ||||
更新每个ICDR; | ||||
k。BG = 0; | ||||
其他的 | ||||
FOREACH g年级做的 | ||||
g =§1 / R +§2 x F +§3 x C +§4 x BG | ||||
} | ||||
过程:DiscardInCachedDoc () | ||||
{ | ||||
PDDG←PHGD.grade; | ||||
k插入到缓存; | ||||
如果(PHGD PDDG k) | ||||
k.BG←PDDG; | ||||
删除其在PHGD PDDG; | ||||
其他的 | ||||
k.BG = 0; | ||||
更新每个ICDR PDDG; | ||||
} | ||||
三世。实现 |
||||
这个工作web缓存(代理服务器)是开发一个实用程序共享网络从单一的连接到一个大型网络与不同的操作系统200台机器。使用Java语言开发的软件。Java applet应用程序主要是用于网页,但是我们使用JFC(摇摆)开发软件。 | ||||
一个¯这项工作提供了一个智能环境像缓存包含许多现成的选项,日志文件,错误检查,连接池等。这些现成的工具可以是任何Java GUI组件可用的AWT包。通过使用这个工具,管理员可以控制和维护整个网络。 | ||||
一个¯本文的目的是使用最近最少使用文档web缓存替换随机网络缓存置换算法。web缓存位于web服务器和客户端之间和手表请求web页面。它缓存web文档为以前服务检索页面时接收请求。 | ||||
优势 | ||||
一个¯节省内存 | ||||
一个¯节省处理能力 | ||||
一个¯减少网络流量 | ||||
一个¯减少等待时间 | ||||
一个¯减少web服务器上的负载 | ||||
一个¯避免数据结构的必要性。 | ||||
一个¯效用函数分配每一页一个值基于最近使用的高频使用造的页面抓取的成本。 | ||||
一个¯至少等级页面置换算法支持删除的决定。n - m法。 | ||||
四、代理的实现 |
||||
代理服务器运行与开发提到的特性,这本质上有助于变速器浏览网页使用最小等级页面置换算法。这个服务器是成功实施客户几个数字,但它可以实现更多的人。如前所述,它更可靠,更有利比现有的一个使用旧的数据结构的概念。它可以在一个更大的网络,还维护工作负载平衡,所以我认为这个系统在任何平台和应用程序可执行任意数量的客户。 | ||||
诉获取单位和结果预取 |
||||
在许多搜索引擎的体系结构,计算所需的查询执行期间不大大影响结果的数量准备,只要这一数字相对较小。特别是,它可能是典型的查询,获取所需的工作几十个结果只是略大于所需的工作获取10个结果。自抓取结果比请求可能相对便宜,困境是在缓存中存储额外的结果(驱逐之前存储的结果)是值得的。大致说来,结果预取是有利可图的,如果有足够高的概率,这些结果将请求之前不久,而他们仍然缓存和驱逐结果再次请求。结果分析了预取的一个方面,查询执行所需的计算(而不是缓存命中率)进行了优化。 | ||||
第六,网络缓存置换算法 |
||||
web缓存的键有三个方面: | ||||
1。算法的路由请求 | ||||
2。算法替换文件 | ||||
3所示。算法的更新文档 | ||||
本文关注的是第二个方面,算法替换文件,将进一步研究网络训练的特点,算法替换文件的统计数据的基础上,提出了网络数据收集。每个人都认为下列一个或多个因素的方案: | ||||
1。文档参考频率; | ||||
2。文档引用近因; | ||||
3所示。文件大小; | ||||
4所示。强或松散一致性的文件; | ||||
5。复制文档不同的代理; | ||||
6。Non-replica文档在不同的代理。有效的计划结合的因素不止一个web缓存的实现。一些算法考虑不同缓存架构来提高缓存的性能,如N的全连通网络缓存。 | ||||
算法 | ||||
如果(拆迁) | ||||
{ | ||||
如果(第一次迭代){ | ||||
样本(N);evict_least_useful; | ||||
keep_least_useful (M); | ||||
其他}{ | ||||
样本(n - m); | ||||
evict_least_useful; | ||||
keep_least_useful (M); | ||||
} | ||||
} | ||||
七世。HTTP内容和解析分析 |
||||
解析分析的过程是一个输入序列以确定其语法结构对一个给定的正式的语法。 | ||||
流程步骤 | ||||
一个。词法分析: | ||||
输入字符流分成有意义符号(令牌)定义的正则表达式的语法——例如:词法分析器需要“12 *(3 + 4)^ 2”和分裂到令牌12 * (3 + 4)^ | ||||
b .语法分析: | ||||
检查如果令牌形成一个合法的表达式,w.r.t. CF语法。限制,不能检查(在编程语言):类型或适当的声明的标识符 | ||||
c .语义解析: | ||||
工作的意义表达验证并采取适当的行动。例子:一个翻译将对表达式求值,编译器将生成代码。 | ||||
八世。结论 |
||||
基于perfect-history LFU和LRU,我们提出了一种新的算法(LGR)考虑近因,频率,perfecthistory替代政策和大小。2和4路集关联缓存被用来确定最优近因系数。缓存大小不同的实时从32 k到256 k表明新算法(LGR使用n - m方法)比LRU和LFU命中率(人力资源)和字节命中率(BHR)。实验结果表明,该算法可以有效地减少网络流量和延迟的数据访问。 | ||||
第九。未来的范围 |
||||
传统的浏览缓存系统不能解决非平稳的和静止的同时浏览行为。一个交互式浏览系统的响应时间可以大大增加。 | ||||
表乍一看 |
||||
|
||||
数据乍一看 |
||||
|
||||