為了抓取網站上更多的頁面,
搜索引擎蜘蛛會追蹤頁面上的連結,
從一個頁面爬到下一個頁面,
就好像蜘蛛在蜘蛛網上爬行那樣。
整個互聯網是由相互連結的網站和頁面組成的,
蜘蛛從任何一個頁面出發,
順著連結都可以爬行到網一的所有頁面。
蜘蛛爬行策略簡單的說可以分為二種:
一種是深度爬行、另一種是廣度爬行。
只要給蜘蛛足夠的時間,
無論是哪種爬策略都能爬完整個互聯網,
蜘蛛可以爬行到眾多的網站(廣度),
也會爬行到一部份網站的內頁(深度),
同時也會考慮到頁面權重、網站規模、
外部連結和網頁更新等因素。