高清中文字幕男人的天堂_蜘蛛爬行抓取的地址庫和文件存儲_海洋網(wǎng)絡(luò )

優(yōu)惠活動(dòng) - 12周年慶本月新客福利

優(yōu)惠活動(dòng) - 12周年慶本月新客福利

優(yōu)惠活動(dòng) - 12周年慶本月新客福利

蜘蛛爬行抓取的地址庫和文件存儲

地址庫

為了避免重復爬行和抓取網(wǎng)址，搜索引擎會(huì )建立一個(gè)地址庫，記錄已經(jīng)被發(fā)現還沒(méi)有抓取的頁(yè)面，以及已經(jīng)被抓取的頁(yè)面地址庫中的 URL 有幾個(gè)來(lái)源:

(1) 人工錄入的種子網(wǎng)站。

(2) 蜘蛛抓取頁(yè)面后，從 HTML 中解析出新的鏈接 URL 與地址庫中的數據進(jìn)行對比，如果是地址庫中沒(méi)有的網(wǎng)址，就存入待訪(fǎng)問(wèn)地址庫。

(3) 站長(cháng)通過(guò)搜索引擎網(wǎng)頁(yè)提交表格提交進(jìn)來(lái)的網(wǎng)址。

蜘蛛按重要性從待訪(fǎng)問(wèn)地址庫中提取 URL，訪(fǎng)問(wèn)并抓取頁(yè)面，然后把這個(gè) URL，從待訪(fǎng)問(wèn)地址庫中刪除，放進(jìn)已訪(fǎng)問(wèn)地址庫中。

大部分主流搜索引擎都提供一個(gè)表格，讓站長(cháng)提交網(wǎng)址。不過(guò)這些提交來(lái)的網(wǎng)址都只是存入地址庫而已，是否收錄還要看頁(yè)面重要性如何。搜索引擎所收錄的絕大部分頁(yè)面是蜘蛛自己跟蹤鏈接得到的?？梢哉f(shuō)提交頁(yè)面基本上是毫無(wú)用處的，搜索引擎更喜歡自己沿著(zhù)鏈接發(fā)現新頁(yè)面。

文件存儲

搜索引擎蜘蛛抓取的數據存入原始頁(yè)面蕪湖網(wǎng)站設計數據庫。其中的頁(yè)面數據與用戶(hù)瀏覽器得到的HTML 是完全一樣的，每個(gè)URL都有一個(gè)獨特的文件編號。

本文地址：http://www.havencoinwallet.com//article/2725.html

分享到：QQ空間新浪微博騰訊微博人人網(wǎng)微信開(kāi)心網(wǎng)百度貼吧豆瓣網(wǎng)

上一篇：搜索引擎面對的挑戰有哪些？下一篇：TrustRank 算法

相關(guān)文章：

最新文章：

首頁(yè) | 關(guān)于我們 | 網(wǎng)站模版 | 新聞動(dòng)態(tài) | 聯(lián)系我們 | 微信小程序 | 微信公眾號 | 價(jià)格套餐 | 解決方案 | 客戶(hù)合作 | 網(wǎng)站地圖 |

版權所有 2012-2023 海洋網(wǎng)絡(luò )有限公司 Copyright 2012-2023 www.havencoinwallet.com All Rights Reserved 粵ICP備12047165號-1 客服熱線(xiàn)：400-850-6756

国产免费丝袜调教视频爱剪辑|国产小受18asian|国产福利91精品一区二区三区|久久久青草大香|欧美丰满熟妇xxxx性