優(yōu)惠活動(dòng) - 12周年慶本月新客福利
                                      優(yōu)惠活動(dòng) - 12周年慶本月新客福利
                                      優(yōu)惠活動(dòng) - 12周年慶本月新客福利

                                      企業(yè)網(wǎng)站設計基于機器學(xué)習的通用識別方式

                                      日期 : 2020-12-22 12:11:14
                                              基于機器學(xué)習的通用識別方式。近年來(lái)隨著(zhù)機器學(xué)習算法的興起,很多文獻提出將相關(guān)算法用到垃圾頁(yè)面識別并已經(jīng)取得了很好的效果。

                                              由于從本質(zhì)上來(lái)說(shuō)垃圾頁(yè)面識別是一個(gè)二值分類(lèi)問(wèn)題,而機器學(xué)習中有很多相應的算法可以被利用。這些算法的共同點(diǎn)通常都是先將網(wǎng)頁(yè)數據集分為訓練集和測試集,然后對網(wǎng)頁(yè)數據進(jìn)行預處理,去除數據中的無(wú)用信息包括HTML標簽、Java Script腳本代碼、大量存在的圖片等等,然后對網(wǎng)頁(yè)內容特征(網(wǎng)頁(yè)字數、標題字數、熱門(mén)關(guān)鍵詞、網(wǎng)頁(yè)壓縮率等)和鏈接結構特征(入鏈數、出鏈數、入鏈出鏈比例、Page Rank值等)進(jìn)行提取作為訓練集的輸入得出輸入輸出的映射關(guān)系,最后將這種映射關(guān)系用測試集進(jìn)行驗證。


                                      相關(guān)文章
                                      国产免费丝袜调教视频爱剪辑|国产小受18asian|国产福利91精品一区二区三区|久久久青草大香|欧美丰满熟妇xxxx性