淄博乐达网站建设公司   

关于乐达
首页Home > 乐达智库 > 乐达会客厅

淄博网站建设公司介绍地址库中URL的几个来源

2016-01-26 09:29:39 淄博乐达网站建设公司 阅读

  淄博网站建设公司介绍地址库中URL的几个来源

  为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及己经被抓取的页面。

  地址库中的URL有几个来源;

  (1)人工录入的种子网站。

  (2)蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

  (3)站长通过搜索引擎网页提交表格提交进来的网址。

  蜘蛛按重要性从待访问地址库中提取URL.访问并抓取页面,然后把这个URL从待访问地址库中删除,放进己访问地址库中。

  大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接得到的。可以说提交页面基本上是毫无用处的,搜索引擎更喜欢自已沿着链接发现新页面。