搜索引擎的蜘蛛是如何爬的,如何吸引蜘蛛來(lái)抓取頁(yè)面
搜索引擎的工作過(guò)程大體可以分成三個(gè)階段:
(1)爬行和抓?。核阉饕嬷┲胪ㄟ^(guò)跟蹤鏈接發(fā)現和訪(fǎng)問(wèn)頁(yè)面,讀取頁(yè)面HTML代碼,存到數據庫。
(2)預處理:索引程序對抓取來(lái)的頁(yè)面數據進(jìn)行文字提取、中文分詞、索引、倒排索引等處理,以備排名程序調用。
(3)排名:用戶(hù)輸入查詢(xún)詞(關(guān)鍵詞)后,排名程序調用索引數據,計算相關(guān)性,然后按一定格式生成搜索結果頁(yè)面。
爬行和抓取是搜索引擎工作的第一步,完成數據收集的任務(wù)。搜索引擎用來(lái)抓取頁(yè)面的程序被稱(chēng)為蜘蛛(spider)
一個(gè)合格的SEOer,要想讓自己的更多頁(yè)面被收錄,就要想法設法吸引蜘蛛來(lái)抓取。
蜘蛛抓取頁(yè)面有幾方面因素:
(1)網(wǎng)站和頁(yè)面的權重,質(zhì)量高、時(shí)間長(cháng)的網(wǎng)站一般被認為權重比較高,爬行深度也會(huì )比較高,被收錄的頁(yè)面也會(huì )更多。
(2)頁(yè)面的更新頻率,蜘蛛每次爬行都會(huì )把頁(yè)面數據儲存起來(lái),如果第二次,第三次的抓取和第一次的一樣,說(shuō)明沒(méi)有更新,久而久之,蜘蛛也就沒(méi)有必要經(jīng)常抓取你的頁(yè)面啦。如果內容經(jīng)常更新,蜘蛛就會(huì )頻繁訪(fǎng)問(wèn)頁(yè)面,來(lái)抓取新的頁(yè)面。
(3)導入鏈接,不管是內部鏈接還是外部鏈接,要想被蜘蛛抓取,就必須有導入鏈接進(jìn)入頁(yè)面,否則蜘蛛就不會(huì )知道頁(yè)面的存在。
(4)與首頁(yè)的點(diǎn)擊距離,一般網(wǎng)站上權重最高的是首頁(yè),大部分外部鏈接都會(huì )指向首頁(yè),那么蜘蛛訪(fǎng)問(wèn)最頻繁的頁(yè)面就是首頁(yè),離首頁(yè)點(diǎn)擊距離越近,頁(yè)面權重越高,被爬行的機會(huì )越大。
如何吸引蜘蛛來(lái)抓取我們的頁(yè)面?
堅持有頻率的更新網(wǎng)站內容,最好是高質(zhì)量的原創(chuàng )內容。
主動(dòng)向搜索引擎提供我們的新頁(yè)面,讓蜘蛛更快的發(fā)現,如百度的鏈接提交、抓取診斷等。
搭建外部鏈接,可以和相關(guān)的網(wǎng)站做友情鏈接交換,可以去別的平臺發(fā)布高質(zhì)量的文章指向自己的頁(yè)面,內容要相關(guān)。
制作網(wǎng)站地圖,每個(gè)網(wǎng)站都應該有一個(gè)sitemap,網(wǎng)站所有的頁(yè)面都在sitemap中,方便蜘蛛抓取。