在互聯(lián)網(wǎng)中,信息的重復性是在所難免的。然而,搜索引擎怎樣識別重復信息?怎樣判斷哪些網(wǎng)頁(yè)的信息是原創(chuàng )的?哪些是復制的?怎樣認為哪些重復的信息是有價(jià)值的?哪些又是可以舍棄的呢?
在網(wǎng)站中,重復信息主要包括轉載和鏡像內容兩大類(lèi)。搜索引擎對頁(yè)面分析的時(shí)候,必須具備是被重復信息的能力。因為大量的重復信息不但占用巨大的服務(wù)器資源,而且還增加了用戶(hù)尋找信息的時(shí)間,降低了用戶(hù)體驗。但這并不意味著(zhù)所有重復信息都是沒(méi)有用的。搜索引擎會(huì )認為轉載內容沒(méi)有原創(chuàng )重要,賦予原創(chuàng )內容更高的權重,而鏡像內容則幾乎忽略。
轉載頁(yè)面是指與原創(chuàng )內容相同或相近的頁(yè)面。然而,搜索引擎如何識別轉載頁(yè)面呢?首先,它把網(wǎng)頁(yè)正文內容分為n個(gè)區域進(jìn)行比較,如果其中有m個(gè)區域是相同或相似的,則認為這些頁(yè)面是互為轉載頁(yè)面。
在確定頁(yè)面的轉載關(guān)系后,接下來(lái),搜索引擎在結合頁(yè)面的最后修改時(shí)間,頁(yè)面權重等因素判斷原創(chuàng )頁(yè)面與轉載頁(yè)面。
鏡像頁(yè)面是指內容完全相同的兩個(gè)頁(yè)面。和上述一樣,把內容分出n個(gè)區域,比對吼n個(gè)區域完全一樣則互為鏡像頁(yè)面。
鏡像網(wǎng)站。下一上完全相同的網(wǎng)站,形成鏡像網(wǎng)站主要有兩種情況。一個(gè)多個(gè)域名或IP指向同一服務(wù)器的物理目錄。另外就是整個(gè)網(wǎng)站內容被復制到使用不同域名或者不同IP的服務(wù)器上。
為了識別站點(diǎn)間是否互為鏡像網(wǎng)站搜索引擎首先判斷這些網(wǎng)站的首頁(yè)是否互為鏡像。然后綜合頁(yè)面權重,建立時(shí)間等諸多因素識別源網(wǎng)站。這也是為什么搜索引擎對于鏡像網(wǎng)站收錄極少,甚至不收錄的原因。