企業(yè)網(wǎng)站設計網(wǎng)頁(yè)內容解析
日期 : 2021-01-03 16:50:01
網(wǎng)頁(yè)內容解析。利用網(wǎng)絡(luò )爬蟲(chóng)抓取的網(wǎng)頁(yè), 主要是靜態(tài)網(wǎng)頁(yè)。

為提高索引的精確度, 本系統采用了第三方的HTMLParser解析網(wǎng)頁(yè)。

其使用方法是繼承HTMLParser的基類(lèi)Extractor來(lái)實(shí)現對HTML文件的解析。處理后是以文本文件格式存儲的, 以便之后分詞和建立索引使用。

為提高索引的精確度, 本系統采用了第三方的HTMLParser解析網(wǎng)頁(yè)。

其使用方法是繼承HTMLParser的基類(lèi)Extractor來(lái)實(shí)現對HTML文件的解析。處理后是以文本文件格式存儲的, 以便之后分詞和建立索引使用。