①網(wǎng)站內容:比較重要的一點(diǎn)就是上面說(shuō)的內容的質(zhì)量,網(wǎng)站內容的質(zhì)量決定了是否可以穩定的獲取抓取。
②網(wǎng)站結構:對于搜索引擎除了鏈接推送的時(shí)候有針對的抓取特定的鏈接,對于日常的爬取的時(shí)候,依然是從網(wǎng)站的首頁(yè)進(jìn)行抓取。所以一個(gè)設計合理的首頁(yè)和網(wǎng)站結構是非常的重要的。
網(wǎng)站首頁(yè)最好采用聚合首頁(yè)的形式,可以承載網(wǎng)站各個(gè)模塊的入口。同時(shí)首頁(yè)需要保持一個(gè)活躍的更新?tīng)顟B(tài),可以有利于搜索引擎的抓取。
網(wǎng)站的結構則需要層次分明,并且隨著(zhù)搜索引擎從淺到深的抓取,頁(yè)面內容應該是越來(lái)越豐富。同時(shí)的層級結構需要清楚的反應在URL的結構上,網(wǎng)站結構要做到簡(jiǎn)單明了清晰,不要去做過(guò)于復雜的結構,會(huì )造成抓取效率低下。
③鏈接提交:網(wǎng)站的內容更新,一定需要去及時(shí)的向搜索引擎推送鏈接,可以加快頁(yè)面的發(fā)現速度。同時(shí)可以保證自己內容的安全性,對于搜索引擎鑒定內容的原創(chuàng )者是誰(shuí),主要還是根據哪個(gè)站點(diǎn)的索引建立更早。建議的鏈接推送方式,內容更新之后立刻進(jìn)行主動(dòng)推送方式進(jìn)行推送,經(jīng)過(guò)實(shí)踐這種方式是最快的;同時(shí)結合自動(dòng)推送方式和sitemap方式進(jìn)行補充。
④網(wǎng)站性能:絕對搜索引擎抓取頻次大小的還要一個(gè)比較重要的因素就是抓取壓力。也就是服務(wù)器的帶寬以及相應速度,我們需要把抓取時(shí)間控制在1500毫秒以下,否則搜索引擎就會(huì )為了保證站點(diǎn)的正常訪(fǎng)問(wèn)降低對于站點(diǎn)抓取頻次。
⑤抓取診斷:比如百度站長(cháng)工具中的抓取異常模塊就是我們需要關(guān)注的,我們可以看相關(guān)的異常狀態(tài)碼,可以清楚的知道抓取時(shí)遇到的訪(fǎng)問(wèn)問(wèn)題。通過(guò)此處我們可以發(fā)現網(wǎng)站是否存在死鏈,以及頁(yè)面訪(fǎng)問(wèn)是否穩定正常,出現異常需要及時(shí)的處理。
⑥死鏈處理:當網(wǎng)站出現死鏈的時(shí)候我們一定要做到在搜索引擎抓取到之前就進(jìn)行死鏈提交,一方面抓取到大量的死鏈會(huì )影響用戶(hù)體驗導致站點(diǎn)的評級降低。另外一個(gè)站點(diǎn)每日的抓取數量是有限的死鏈也會(huì )浪費站點(diǎn)的抓取數量。
⑦robots:合理的設置robots.txt文件可以防止隱私信息被抓取到,同時(shí)可以很大程度提供抓取的有效性,屏蔽了無(wú)效頁(yè)面的抓取。 很多站點(diǎn)會(huì )去屏蔽js和CSS文件的抓取,建議不要這個(gè)做如果這些js和css文件參與了頁(yè)面效果的渲染,那么不應該去屏蔽。我們只去屏蔽不需要被抓取的頁(yè)面目錄就可以了。