企業(yè)網(wǎng)站設計網(wǎng)頁(yè)采集
日期 : 2021-05-11 23:09:38
網(wǎng)頁(yè)采集。網(wǎng)頁(yè)采集作為政府網(wǎng)站網(wǎng)頁(yè)在線(xiàn)歸檔的首要環(huán)節,就是利用相關(guān)工具,以既定的頻率和方式,及時(shí)選擇值得保存的政府網(wǎng)頁(yè)內容。網(wǎng)頁(yè)采集的第一步是要確定采集對象,政府網(wǎng)頁(yè)歸檔保存的信息采集對象是域名中含有“gov.cn”的政府網(wǎng)站,為確保政府網(wǎng)頁(yè)的采集質(zhì)量,需要對目標網(wǎng)站進(jìn)行評價(jià),將那些信息規模大、原生性信息多、更新頻繁的政府網(wǎng)站選定為采集對象。在確定要采集的目標政府網(wǎng)站之后,還應根據實(shí)際需求選擇相應的采集方式。

完整性采集和選擇性采集是目前比較常用的網(wǎng)絡(luò )資源采集方式,它們各有優(yōu)缺點(diǎn),為了彌補其各自的不足,可以實(shí)現兩種采集方式的優(yōu)勢互補,采用融合二者優(yōu)點(diǎn)的混合型采集方式,在對選定的政府網(wǎng)站中所有網(wǎng)頁(yè)進(jìn)行完整性采集的同時(shí),通過(guò)人工干預的方式對網(wǎng)頁(yè)內容進(jìn)行甄別,對其中有證據價(jià)值、歷史價(jià)值、研究?jì)r(jià)值的重要網(wǎng)頁(yè),有選擇性地進(jìn)行深層次的頻繁采集,這樣既考慮到了政府網(wǎng)頁(yè)采集面的廣度,同時(shí)又照顧到了重要網(wǎng)頁(yè)采集的深度。

而網(wǎng)頁(yè)的采集與捕獲最終還需要依靠相應的網(wǎng)絡(luò )爬蟲(chóng)工具來(lái)實(shí)現,目前面向網(wǎng)頁(yè)存檔的爬蟲(chóng)工具比較多,其中Heritrix、HTTrack最為常用,可利用這些工具來(lái)有針對性地完成對目標政府網(wǎng)站網(wǎng)頁(yè)的自動(dòng)批量在線(xiàn)采集。

完整性采集和選擇性采集是目前比較常用的網(wǎng)絡(luò )資源采集方式,它們各有優(yōu)缺點(diǎn),為了彌補其各自的不足,可以實(shí)現兩種采集方式的優(yōu)勢互補,采用融合二者優(yōu)點(diǎn)的混合型采集方式,在對選定的政府網(wǎng)站中所有網(wǎng)頁(yè)進(jìn)行完整性采集的同時(shí),通過(guò)人工干預的方式對網(wǎng)頁(yè)內容進(jìn)行甄別,對其中有證據價(jià)值、歷史價(jià)值、研究?jì)r(jià)值的重要網(wǎng)頁(yè),有選擇性地進(jìn)行深層次的頻繁采集,這樣既考慮到了政府網(wǎng)頁(yè)采集面的廣度,同時(shí)又照顧到了重要網(wǎng)頁(yè)采集的深度。

而網(wǎng)頁(yè)的采集與捕獲最終還需要依靠相應的網(wǎng)絡(luò )爬蟲(chóng)工具來(lái)實(shí)現,目前面向網(wǎng)頁(yè)存檔的爬蟲(chóng)工具比較多,其中Heritrix、HTTrack最為常用,可利用這些工具來(lái)有針對性地完成對目標政府網(wǎng)站網(wǎng)頁(yè)的自動(dòng)批量在線(xiàn)采集。