優(yōu)惠活動(dòng) - 12周年慶本月新客福利
                                      優(yōu)惠活動(dòng) - 12周年慶本月新客福利
                                      優(yōu)惠活動(dòng) - 12周年慶本月新客福利

                                      網(wǎng)站爬行策略

                                             網(wǎng)站爬行策略。全互聯(lián)網(wǎng)是由相互鏈接的網(wǎng)站及頁(yè)面組成的。從理論上說(shuō),爬蟲(chóng)從任何一個(gè)頁(yè)面出發(fā),沿著(zhù)鏈接都可爬完網(wǎng)上的所有頁(yè)面。由于網(wǎng)站及頁(yè)面具有非常復雜的鏈接結構,爬蟲(chóng)需要采取一定的爬行策略才能爬完網(wǎng)上所有頁(yè)面。實(shí)現一個(gè)完善的爬蟲(chóng)系統,爬行策略至關(guān)重要。

                                             爬行策略有如下幾種:深度優(yōu)先爬行策略是爬蟲(chóng)沿著(zhù)發(fā)現的鏈接先爬取一個(gè)網(wǎng)頁(yè),然后一直往前爬行,爬行到前面再也沒(méi)有其他鏈接為止,然后在返回到第一個(gè)頁(yè)面,沿著(zhù)另一個(gè)鏈接再一直往前爬行。如圖1所示,爬取的順序是A→D→E→B→C→F→G;廣度優(yōu)先爬行策略:是指爬蟲(chóng)在一個(gè)頁(yè)面上發(fā)現多個(gè)網(wǎng)絡(luò )鏈接時(shí),不是沿著(zhù)一個(gè)網(wǎng)絡(luò )鏈接一直向前爬行,而是先把頁(yè)面上同一層次鏈接都爬一遍,然后再沿著(zhù)第二層頁(yè)面上發(fā)現的鏈接爬向第三層頁(yè)面。

                                             爬取的順序是A→B→C→D→E→F→G;大站優(yōu)先爬行策略是對于準備抓取地址隊列中的所有網(wǎng)頁(yè),把其根據所屬的網(wǎng)站進(jìn)行分類(lèi),優(yōu)先爬取網(wǎng)站的網(wǎng)頁(yè)數量比其他多的網(wǎng)站。反鏈爬行策略是指的是一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)鏈接指向的數量,當某個(gè)網(wǎng)頁(yè)的內容受到其他人的推薦的程度高,這種網(wǎng)頁(yè)被優(yōu)先爬取。

                                      本文地址:http://www.havencoinwallet.com//article/28159.html
                                      相關(guān)文章:
                                      最新文章:
                                      国产免费丝袜调教视频爱剪辑|国产小受18asian|国产福利91精品一区二区三区|久久久青草大香|欧美丰满熟妇xxxx性