一、搜索引擎地址庫
為了避免重復爬行和抓取網址,搜索引擎會建立一個地址庫,記錄已經被發現、但是還沒有抓取的頁面,以及已經被抓取的頁面。蜘蛛在頁面上發現鏈接后并不是馬上就去訪問,而是將URL存入地址庫,然后統一安排抓取。
二、地址庫中的URL有幾個來源:
1、人工錄入的種子網站。
2、蜘蛛抓取頁面后,從html中解析出新的鏈接URL,與地址庫中的數據進行對比,如果是地址庫中沒有的網址,就存入待訪問地址庫。
3、站長通過搜索引擎網頁提交表格進來的網址。
4、站長通過xml網站地圖、站長平臺提交的網址。
蜘蛛按重要性從待訪問地址庫中提取URL,訪問并抓取頁面,然后把這個URL從待訪問地址庫中刪除,放進已訪問地址庫中。
大部分主流搜索引擎都提供一個表格,讓站長提交網址。不過這些提交來的網址都只是存入地址庫而已,是否收錄還要看頁面重要性如何。搜索引擎所收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接而得到的。可以說提交頁面作用微乎其微,搜索引擎更喜歡自己沿著鏈接發現新頁面。
三、文件存儲
搜索引擎蜘蛛抓取的數據庫存入原始頁面數據庫。其中頁面數據與用戶瀏覽得到的html是完全一樣的。每個URL都有一個獨特的文件編號。
四、爬行時的復制內容檢測
檢測并刪除復制內容通常實在下面介紹的預處理過程中進行的,但現在的蜘蛛在爬行和抓取文件時也會進行一定程度的復制內容檢測。遇到權重很低的網站上大量轉載或抄襲內容時,很可能不再繼續爬行。這也就是有的站長在日志文件中發現了蜘蛛,但頁面從來沒有被收錄過的原因之一。
通過以上的介紹應該掌握做
seo優化時吸引蜘蛛時,大致可以從幾個方面來入手了。以上內容均來源于東莞網絡公司,由東莞
培戀網科技整合。東莞市培戀網科技為企業網頁建設排名優化,提供企業、個人
模板網站制作,國外域名注冊和服務器提供商。
培戀網原創版權,網站建設提供網站代運營、模板網站制作轉載請注明出處,本文地址:http://www.gdszrq.com/news/video/48.html