ISSN在线(2320 - 9801)打印(2320 - 9798)
Auto-Explore网络一个网络爬虫
万维网是一个日益增长的公共图书馆,数以百万计的书籍没有任何中央管理系统。找到一个没有一个适当的目录的信息就像找到一个中间干草堆。各种搜索引擎索引一个解决这个问题的完整的内容,可以在互联网。完成这一工作,搜索引擎使用一个自动程序,称为网络爬虫。网络的最重要的工作是信息检索,也通过适当的效率。网络爬虫有助于完成,通过帮助搜索索引或通过帮助使档案。网络爬虫自动访问所有可用的链接进一步索引。但是,使用网络爬虫并不仅仅局限于搜索引擎,但是他们也可以用于web取消,垃圾邮件过滤,识别未经授权的使用受版权保护的内容,识别非法、有害等网络活动。网络爬虫爬行时所面临的各种挑战深层网络内容,多媒体内容等。各种爬行技术和各种web爬虫程序是可用的和本文中讨论。
Soumick Chatterjee Asoke纳
阅读全文下载全文