網(wǎng)站去噪流程
日期 : 2022-08-14 22:06:11
網(wǎng)站去噪流程:1) 節點(diǎn)分割。將網(wǎng)頁(yè)映射為DOM樹(shù), 根據當前DOM節點(diǎn)的信息以及子節點(diǎn)信息進(jìn)行節點(diǎn)分割, 完成信息塊提取。

2) 檢測分割條。首先利用網(wǎng)頁(yè)的初始坐標和終止坐標作為初始化分隔條, 然后利用頁(yè)面塊與分割條之間的位置關(guān)系生成新的檢測條。

3) 利用分隔條的權值重構語(yǔ)義塊, 沿著(zhù)分隔條從低到高的方向進(jìn)行迭代合并, 這樣最終將網(wǎng)頁(yè)分割成主題相關(guān)性很高的塊的集合。

2) 檢測分割條。首先利用網(wǎng)頁(yè)的初始坐標和終止坐標作為初始化分隔條, 然后利用頁(yè)面塊與分割條之間的位置關(guān)系生成新的檢測條。

3) 利用分隔條的權值重構語(yǔ)義塊, 沿著(zhù)分隔條從低到高的方向進(jìn)行迭代合并, 這樣最終將網(wǎng)頁(yè)分割成主題相關(guān)性很高的塊的集合。