公司網(wǎng)站制作基于網(wǎng)頁(yè)鏈接的通用識別方式
日期 : 2020-12-22 12:10:16
基于網(wǎng)頁(yè)鏈接的通用識別方式。前面介紹的垃圾網(wǎng)頁(yè)識別技術(shù)并不具有通用性,而且非常被動(dòng),總是等到出現一種作弊方式后才針對性的采用一種相應的補救措施,有些事后諸葛亮的做法。而下面要介紹的基于鏈接結構以及稍后介紹的機器學(xué)習分類(lèi)法與作弊方式均無(wú)關(guān),具有很強的通用性。

Trust Rank算法是一種基于鏈接結構的用來(lái)識別垃圾網(wǎng)頁(yè)的經(jīng)典算法。這個(gè)算法的假設條件是頁(yè)面A鏈接到頁(yè)面B則意味著(zhù)頁(yè)面A推薦頁(yè)面B的內容,因此頁(yè)面A的Trust Rank值可以傳遞分配一部分給頁(yè)面B。也就是說(shuō)質(zhì)量高的網(wǎng)頁(yè)通常只會(huì )被質(zhì)量更高的網(wǎng)頁(yè)鏈接指向。

于是可以先構建一定數量的具備較高權威內容或者較多出鏈接的知名網(wǎng)頁(yè)作為起點(diǎn)種子網(wǎng)頁(yè),然后將它們的Trust Rank值按照出鏈接數量比例傳遞分配到第二層頁(yè)面,按照同樣的方法將Trust Rank值傳遞分配到第三、四層,以此類(lèi)推。這樣,通常越遠離第一層種子網(wǎng)頁(yè)的Trust Rank值越小,越有可能是垃圾網(wǎng)頁(yè)。于是可以設定一個(gè)閾值,當低于這個(gè)值時(shí)將其判斷為垃圾頁(yè)面。

Trust Rank算法是一種基于鏈接結構的用來(lái)識別垃圾網(wǎng)頁(yè)的經(jīng)典算法。這個(gè)算法的假設條件是頁(yè)面A鏈接到頁(yè)面B則意味著(zhù)頁(yè)面A推薦頁(yè)面B的內容,因此頁(yè)面A的Trust Rank值可以傳遞分配一部分給頁(yè)面B。也就是說(shuō)質(zhì)量高的網(wǎng)頁(yè)通常只會(huì )被質(zhì)量更高的網(wǎng)頁(yè)鏈接指向。

于是可以先構建一定數量的具備較高權威內容或者較多出鏈接的知名網(wǎng)頁(yè)作為起點(diǎn)種子網(wǎng)頁(yè),然后將它們的Trust Rank值按照出鏈接數量比例傳遞分配到第二層頁(yè)面,按照同樣的方法將Trust Rank值傳遞分配到第三、四層,以此類(lèi)推。這樣,通常越遠離第一層種子網(wǎng)頁(yè)的Trust Rank值越小,越有可能是垃圾網(wǎng)頁(yè)。于是可以設定一個(gè)閾值,當低于這個(gè)值時(shí)將其判斷為垃圾頁(yè)面。