
爬行策略有如下幾種:深度優(yōu)先爬行策略是爬蟲(chóng)沿著(zhù)發(fā)現的鏈接先爬取一個(gè)網(wǎng)頁(yè),然后一直往前爬行,爬行到前面再也沒(méi)有其他鏈接為止,然后在返回到第一個(gè)頁(yè)面,沿著(zhù)另一個(gè)鏈接再一直往前爬行。如圖1所示,爬取的順序是A→D→E→B→C→F→G;廣度優(yōu)先爬行策略:是指爬蟲(chóng)在一個(gè)頁(yè)面上發(fā)現多個(gè)網(wǎng)絡(luò )鏈接時(shí),不是沿著(zhù)一個(gè)網(wǎng)絡(luò )鏈接一直向前爬行,而是先把頁(yè)面上同一層次鏈接都爬一遍,然后再沿著(zhù)第二層頁(yè)面上發(fā)現的鏈接爬向第三層頁(yè)面。

爬取的順序是A→B→C→D→E→F→G;大站優(yōu)先爬行策略是對于準備抓取地址隊列中的所有網(wǎng)頁(yè),把其根據所屬的網(wǎng)站進(jìn)行分類(lèi),優(yōu)先爬取網(wǎng)站的網(wǎng)頁(yè)數量比其他多的網(wǎng)站。反鏈爬行策略是指的是一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)鏈接指向的數量,當某個(gè)網(wǎng)頁(yè)的內容受到其他人的推薦的程度高,這種網(wǎng)頁(yè)被優(yōu)先爬取。
本文地址:http://www.havencoinwallet.com//article/28159.html