手機網(wǎng)站建設網(wǎng)頁(yè)正文內容抽取方法
日期 : 2021-01-29 23:04:58
網(wǎng)頁(yè)正文內容抽取方法, 該算法思路是先需要對Web頁(yè)面進(jìn)行分塊處理, 處理結果同樣利用DOM樹(shù)原理進(jìn)行解析, 然后集合閾值計算和正則表達式, 對于處理網(wǎng)頁(yè)正文準確率較高。

非基于DOM的Web頁(yè)面提取技術(shù)比較著(zhù)名就是微軟亞洲研究院提出的VIPS基于視覺(jué)的網(wǎng)頁(yè)分塊算法。該算法從用戶(hù)的視覺(jué)感官體驗出發(fā), 根據Web頁(yè)面的背景色、前景色、元素之間的間距來(lái)對Web頁(yè)面進(jìn)行視覺(jué)劃分, 建立相應的分割條和網(wǎng)頁(yè)分塊集, 基于此基礎再進(jìn)行文本信息的抽取, 算法規則十分復雜。目前很多Web頁(yè)面的視覺(jué)特點(diǎn)也很復雜, VIPS算法針對此類(lèi)頁(yè)面時(shí)準確率和效率較差。因此, 高樂(lè )等人提出一種改進(jìn)的VIPS算法, 算法針對<table>標簽的處理進(jìn)行優(yōu)化處理, 并通過(guò)實(shí)驗證明了改進(jìn)算法正確率得到了提升。

此外, 還有一些不基于DOM樹(shù)對網(wǎng)頁(yè)文本提取的方法, 例如《基于權值優(yōu)化的網(wǎng)頁(yè)正文內容提取算法》的通過(guò)統計分析Web頁(yè)面正文內容特點(diǎn), 得到頁(yè)面中各個(gè)文本內容塊屬性特征, 并使用粒子群優(yōu)化算法對特征權值及閾值進(jìn)行了確定及優(yōu)化。

非基于DOM的Web頁(yè)面提取技術(shù)比較著(zhù)名就是微軟亞洲研究院提出的VIPS基于視覺(jué)的網(wǎng)頁(yè)分塊算法。該算法從用戶(hù)的視覺(jué)感官體驗出發(fā), 根據Web頁(yè)面的背景色、前景色、元素之間的間距來(lái)對Web頁(yè)面進(jìn)行視覺(jué)劃分, 建立相應的分割條和網(wǎng)頁(yè)分塊集, 基于此基礎再進(jìn)行文本信息的抽取, 算法規則十分復雜。目前很多Web頁(yè)面的視覺(jué)特點(diǎn)也很復雜, VIPS算法針對此類(lèi)頁(yè)面時(shí)準確率和效率較差。因此, 高樂(lè )等人提出一種改進(jìn)的VIPS算法, 算法針對<table>標簽的處理進(jìn)行優(yōu)化處理, 并通過(guò)實(shí)驗證明了改進(jìn)算法正確率得到了提升。

此外, 還有一些不基于DOM樹(shù)對網(wǎng)頁(yè)文本提取的方法, 例如《基于權值優(yōu)化的網(wǎng)頁(yè)正文內容提取算法》的通過(guò)統計分析Web頁(yè)面正文內容特點(diǎn), 得到頁(yè)面中各個(gè)文本內容塊屬性特征, 并使用粒子群優(yōu)化算法對特征權值及閾值進(jìn)行了確定及優(yōu)化。
上一篇:手機網(wǎng)站建設色彩
下一篇:手機網(wǎng)站建設其它安全性措施