什么是搜索引擎蜘蛛
以下为学做网站论坛关于“什么是搜索引擎蜘蛛”讲解视频教程。
什么是搜索引擎蜘蛛
搜索引擎蜘蛛并不是我们日常见到的蜘蛛,它只是一个比喻而以。
搜索引擎蜘蛛只是搜索引擎指派出的一个有调度机制的抓取程序,用于抓取互联网中的网页,根据搜索引擎的不同,spider也会有不同的分类,但是大部分的spider都是解决相同的问题,有着相同的工作原理。
搜索引擎蜘蛛还有其它的名字:网页蜘蛛,网络机器人等。
不同的搜索引擎的蜘蛛的名字也不同,如百度的叫百度蜘蛛,谷歌的叫谷歌蜘蛛……
搜索引擎蜘蛛的分类(较为细致,了解即可)
批量型spider,此类型的spider具有明确的抓取范围和目标,抓取时间、抓取数量限制,或抓取固定范围页面的限制,当spider的工作达到预先设置的目标就会停止,我们一般程序自己用工具或采集的工具,所派出的spider一般就属于批量型的spider,只抓取固定网站的固定内容,或者对某一资源设置固定的目标抓取数量限制。
垂直型spider,垂直spider也可以称为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量的抓取,此类型的spider不像增量型spider一样追求大而广的覆盖面,而是在增量型spider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页。
增量型spider是一种比较通用的爬虫,这类爬虫的目标和批量型spider的目标不同,它们不需要尽可能的抓取更多的网页,增量型spider主要工作是对已经抓取到的页面进行再次的抓取和更新,因为互联网中的网页是不断变化的,网页上的内容可能会随着时间发生随时发生改变,增量型spider就负责抓取不断被更改更新的网页,抓取后并返回给搜索引擎的预处理系统进行处理,重新计算该页面的权值。