站長(cháng)都遇到過(guò)抓取異常,但是很多新手站長(cháng)并不知道什么是抓取異常,抓取異常對網(wǎng)站有哪些影響以及抓取異常的原因有哪些。
什么是抓取異常?
Baiduspider 無(wú)法正常抓取,就是抓取異常。
抓取異常對網(wǎng)站有哪些影響?
對于大量?jì)热轃o(wú)法正常抓取的網(wǎng)站,搜索引擎會(huì )認為網(wǎng)站存在用戶(hù)體驗上的缺陷,并降低對網(wǎng)站的評價(jià),在抓取、索引、權重上都會(huì )受到一定程度的負面影響,最終影響到網(wǎng)站從百度獲取的流量。
抓取異常的原因有哪些?
一、網(wǎng)站異常
1、dns異常
當Baiduspider無(wú)法解析您網(wǎng)站的IP時(shí),會(huì )出現DNS異常??赡苁悄木W(wǎng)站IP地址錯誤,或者域名服務(wù)商把Baiduspider封禁。請使用WHOIS或者host查詢(xún)自己網(wǎng)站IP地址是否正確且可解析,如果不正確或無(wú)法解析,請與域名注冊商聯(lián)系,更新您的IP地址。
2、連接超時(shí)
抓取請求連接超時(shí),可能原因服務(wù)器過(guò)載,網(wǎng)絡(luò )不穩定。
3、抓取超時(shí)
抓取請求連接建立后,下載頁(yè)面速度過(guò)慢,導致超時(shí),可能原因服務(wù)器過(guò)載,帶寬不足。
4、連接錯誤
無(wú)法連接或者連接建立后對方服務(wù)器拒絕。
二、鏈接異常
1、訪(fǎng)問(wèn)被拒絕
爬蟲(chóng)發(fā)起抓取,httpcode返回碼是403。
2、找不到頁(yè)面
爬蟲(chóng)發(fā)起抓取,httpcode返回碼是404。
3、服務(wù)器錯誤
爬蟲(chóng)發(fā)起抓取,httpcode返回碼是5XX。
4、其他錯誤
爬蟲(chóng)發(fā)起抓取,httpcode返回碼是4XX,不包括403和404。