企業(yè)網(wǎng)站建設歸檔采集范圍
日期 : 2020-11-28 22:00:33
歸檔采集范圍。自然資源部門(mén)戶(hù)網(wǎng)站網(wǎng)頁(yè)歸檔采集范圍限定于mnr.gov.cn域名下的網(wǎng)頁(yè),其內容涵蓋政務(wù)公開(kāi)、新聞宣傳、辦事服務(wù)、互動(dòng)交流4個(gè)方面。政務(wù)公開(kāi)主要包括部機關(guān)各司局、國家自然資源督察機構、部各直屬單位、地方各級自然資源主管部門(mén)提供的各類(lèi)政策文件、標準法規,以及土地市場(chǎng)和礦業(yè)權相關(guān)行業(yè)市場(chǎng)數據等內容;新聞宣傳包括重要會(huì )議、重要活動(dòng)、重要講話(huà)、政策解讀等內容;辦事服務(wù)包括土地、礦產(chǎn)、測繪、地質(zhì)和科技等方面辦事服務(wù)內容,以及公示查驗、備案查詢(xún)等內容;互動(dòng)交流以留言評論、在線(xiàn)訪(fǎng)談、征集調查等內容為主要體現。

本研究經(jīng)過(guò)分析研判,政務(wù)公開(kāi)、新聞宣傳和互動(dòng)交流等相關(guān)內容基本只依托門(mén)戶(hù)網(wǎng)站發(fā)布系統,可以完成歸檔采集。對于辦事服務(wù)等內容,門(mén)戶(hù)網(wǎng)站一般只提供相關(guān)系統的入口,有關(guān)信息存儲在其他系統、無(wú)法被完整獲取,此類(lèi)信息暫時(shí)不納入歸檔采集范圍。

在技術(shù)上,本研究使用網(wǎng)絡(luò )爬蟲(chóng)工具抓取網(wǎng)頁(yè)文本、圖片、動(dòng)畫(huà)、音視頻、腳本及網(wǎng)頁(yè)相關(guān)元數據等內容。爬蟲(chóng)工具根據預制的系統模板和網(wǎng)頁(yè)URL信息,通過(guò)網(wǎng)站拓撲結構分析、目標網(wǎng)頁(yè)內容去噪和解析、網(wǎng)頁(yè)版本控制等技術(shù),對采集到的數據進(jìn)行采集和整理,實(shí)現對海量網(wǎng)頁(yè)信息的高效、智能處理。

本研究經(jīng)過(guò)分析研判,政務(wù)公開(kāi)、新聞宣傳和互動(dòng)交流等相關(guān)內容基本只依托門(mén)戶(hù)網(wǎng)站發(fā)布系統,可以完成歸檔采集。對于辦事服務(wù)等內容,門(mén)戶(hù)網(wǎng)站一般只提供相關(guān)系統的入口,有關(guān)信息存儲在其他系統、無(wú)法被完整獲取,此類(lèi)信息暫時(shí)不納入歸檔采集范圍。

在技術(shù)上,本研究使用網(wǎng)絡(luò )爬蟲(chóng)工具抓取網(wǎng)頁(yè)文本、圖片、動(dòng)畫(huà)、音視頻、腳本及網(wǎng)頁(yè)相關(guān)元數據等內容。爬蟲(chóng)工具根據預制的系統模板和網(wǎng)頁(yè)URL信息,通過(guò)網(wǎng)站拓撲結構分析、目標網(wǎng)頁(yè)內容去噪和解析、網(wǎng)頁(yè)版本控制等技術(shù),對采集到的數據進(jìn)行采集和整理,實(shí)現對海量網(wǎng)頁(yè)信息的高效、智能處理。