企業(yè)網(wǎng)站設計基于機器學(xué)習的通用識別方式
日期 : 2020-12-22 12:11:14
基于機器學(xué)習的通用識別方式。近年來(lái)隨著(zhù)機器學(xué)習算法的興起,很多文獻提出將相關(guān)算法用到垃圾頁(yè)面識別并已經(jīng)取得了很好的效果。

由于從本質(zhì)上來(lái)說(shuō)垃圾頁(yè)面識別是一個(gè)二值分類(lèi)問(wèn)題,而機器學(xué)習中有很多相應的算法可以被利用。這些算法的共同點(diǎn)通常都是先將網(wǎng)頁(yè)數據集分為訓練集和測試集,然后對網(wǎng)頁(yè)數據進(jìn)行預處理,去除數據中的無(wú)用信息包括HTML標簽、Java Script腳本代碼、大量存在的圖片等等,然后對網(wǎng)頁(yè)內容特征(網(wǎng)頁(yè)字數、標題字數、熱門(mén)關(guān)鍵詞、網(wǎng)頁(yè)壓縮率等)和鏈接結構特征(入鏈數、出鏈數、入鏈出鏈比例、Page Rank值等)進(jìn)行提取作為訓練集的輸入得出輸入輸出的映射關(guān)系,最后將這種映射關(guān)系用測試集進(jìn)行驗證。


由于從本質(zhì)上來(lái)說(shuō)垃圾頁(yè)面識別是一個(gè)二值分類(lèi)問(wèn)題,而機器學(xué)習中有很多相應的算法可以被利用。這些算法的共同點(diǎn)通常都是先將網(wǎng)頁(yè)數據集分為訓練集和測試集,然后對網(wǎng)頁(yè)數據進(jìn)行預處理,去除數據中的無(wú)用信息包括HTML標簽、Java Script腳本代碼、大量存在的圖片等等,然后對網(wǎng)頁(yè)內容特征(網(wǎng)頁(yè)字數、標題字數、熱門(mén)關(guān)鍵詞、網(wǎng)頁(yè)壓縮率等)和鏈接結構特征(入鏈數、出鏈數、入鏈出鏈比例、Page Rank值等)進(jìn)行提取作為訓練集的輸入得出輸入輸出的映射關(guān)系,最后將這種映射關(guān)系用測試集進(jìn)行驗證。
