欧美一区二区三区四区视频|久久久久久88色偷偷|国产精品视频一区二区三区w|国产综合色在线视频|久久久久久综合七次郎|好硬好紧好湿进去了好爽

合肥做網(wǎng)站,選擇瘋狗科技,專(zhuān)業(yè)、敬業(yè)的合肥網(wǎng)絡(luò )公司
首頁(yè) > 網(wǎng)站SEO優(yōu)化 > 詳情

抓取網(wǎng)站的搜索引擎蜘蛛是不是越多越好

2019-11-26 11:10:45   來(lái)源:轉載   瀏覽:  次
做過(guò)SEO或站長(cháng)的都應該知道,網(wǎng)站要想做排名就必須使網(wǎng)站文章先收錄,而網(wǎng)站內容收錄由跟搜索引擎蜘蛛的來(lái)訪(fǎng)抓取有很大的關(guān)系。搜索引擎蜘蛛,又被稱(chēng)為網(wǎng)頁(yè)爬蟲(chóng),網(wǎng)絡(luò )機器人,在FOAF社區中間,也經(jīng)常被稱(chēng)為網(wǎng)頁(yè)追逐者,是一種

做過(guò)SEO或站長(cháng)的都應該知道,網(wǎng)站要想做排名就必須使網(wǎng)站文章先收錄,而網(wǎng)站內容收錄由跟搜索引擎蜘蛛的來(lái)訪(fǎng)抓取有很大的關(guān)系。

搜索引擎蜘蛛,又被稱(chēng)為網(wǎng)頁(yè)爬蟲(chóng),網(wǎng)絡(luò )機器人,在FOAF社區中間,也經(jīng)常被稱(chēng)為網(wǎng)頁(yè)追逐者,是一種按照一定的規則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外它還有一些不常使用的名字,如:螞蟻,自動(dòng)索引,模擬程序或者蠕蟲(chóng)。那么,對于一個(gè)網(wǎng)站來(lái)說(shuō),是不是來(lái)網(wǎng)站爬行的搜索引擎蜘蛛越多越好呢?

一、搜索引擎蜘蛛抓取網(wǎng)頁(yè)的原理

關(guān)于搜索引擎獲得網(wǎng)頁(yè)的工具,是一款爬行程序(俗稱(chēng)蜘蛛),蜘蛛程序每天都會(huì )爬行大量的網(wǎng)頁(yè),并將一些新的網(wǎng)頁(yè)信息帶到服務(wù)器以便進(jìn)行網(wǎng)頁(yè)索引的建立。

可以說(shuō),互聯(lián)網(wǎng)就是由一個(gè)個(gè)鏈接構成的,蜘蛛程序順著(zhù)這些鏈接爬行并發(fā)現網(wǎng)頁(yè)信息,蜘蛛程序爬行每一個(gè)頁(yè)面,當這個(gè)頁(yè)面不再有新的鏈接信息的時(shí)候,它就返回,下次再到這個(gè)頁(yè)面的時(shí)候,再去爬行。

當給它足夠的時(shí)間,他就會(huì )找到互聯(lián)網(wǎng)所有的網(wǎng)頁(yè)信息(至少是被鏈接的),在爬行的時(shí)候,它還會(huì )不斷的向服務(wù)器提供信息,所以我們在進(jìn)行網(wǎng)站日志分析的時(shí)候,如果發(fā)現某一個(gè)網(wǎng)頁(yè)被某個(gè)搜索引擎的蜘蛛程序程序爬行并成功抓取數據,那么,這個(gè)網(wǎng)頁(yè)就很有可能被索引。

所以,從SEO的角度來(lái)說(shuō),提高網(wǎng)頁(yè)的索引數據(收錄量)對于一個(gè)網(wǎng)站的搜索引擎優(yōu)化(SEO)是非常有利的。

當蜘蛛程序在爬行鏈接的過(guò)程中,它還會(huì )對爬行過(guò)的鏈接進(jìn)行處理,因為鏈接需要載體(文字、圖片或其他信息),發(fā)現鏈接載體并存儲鏈接數據。

所以這里我們要做的,就是努力增加蜘蛛爬行頁(yè)面的頻率(在以往的網(wǎng)站分析中經(jīng)常提到),以保證我們網(wǎng)頁(yè)在搜索引擎數據庫中的索引是最新的。

比如蜘蛛程序今天訪(fǎng)問(wèn)了網(wǎng)站的兩個(gè)網(wǎng)頁(yè)并成功抓取,隔了兩個(gè)星期,它再來(lái)訪(fǎng)問(wèn)這兩個(gè)頁(yè)面的時(shí)候,這兩個(gè)網(wǎng)頁(yè)其中一個(gè)更新了,另一個(gè)確沒(méi)有,那么,蜘蛛程序可能會(huì )在一個(gè)星期內再次回訪(fǎng)更新過(guò)的那個(gè)網(wǎng)頁(yè),而在一個(gè)月后才去訪(fǎng)問(wèn)沒(méi)有更新的那個(gè)網(wǎng)頁(yè),隨著(zhù)時(shí)間的推移,蜘蛛程序會(huì )更加頻繁是爬行經(jīng)常更新的網(wǎng)頁(yè),以達到更新服務(wù)器中的索引數據,向用戶(hù)提供最新的網(wǎng)頁(yè)信息。

二、搜索引擎蜘蛛是不是越多越好?

不論哪個(gè)搜索引擎的爬蟲(chóng),來(lái)抓取你網(wǎng)站的頁(yè)面的時(shí)候,肯定在消耗你的網(wǎng)站資源,例如網(wǎng)站的連接數、網(wǎng)絡(luò )帶寬資源(空間流量)、服務(wù)器的負載、甚至還有盜鏈等,那是不是所有的搜索引擎蜘蛛都是有用呢?

另外,搜索引擎的爬蟲(chóng)來(lái)抓取你的頁(yè)面數據后,它也不一定收用數據,只代表它 到此一游 留下痕跡而已,據了解有些搜索引擎只是過(guò)來(lái)找下它想要的資源,甚至還有很多是開(kāi)發(fā)人員的蜘蛛測試。

對于一個(gè)原創(chuàng )內容豐富,URL結構合理易于爬取的網(wǎng)站來(lái)說(shuō),簡(jiǎn)直就是各種爬蟲(chóng)的盤(pán)中大餐,很多網(wǎng)站的訪(fǎng)問(wèn)流量構成當中,爬蟲(chóng)帶來(lái)的流量要遠遠超過(guò)真實(shí)用戶(hù)訪(fǎng)問(wèn)流量,甚至爬蟲(chóng)流量要高出真實(shí)流量一個(gè)數量級。

對于那些想提高網(wǎng)站有效利用率的網(wǎng)站,雖然設置了相當嚴格的反爬蟲(chóng)策略,但是網(wǎng)站處理的動(dòng)態(tài)請求數量仍然是真實(shí)用戶(hù)訪(fǎng)問(wèn)流量的2倍。

可以肯定的說(shuō),當今互聯(lián)網(wǎng)的網(wǎng)絡(luò )流量有很大一部分的流量是爬蟲(chóng)帶來(lái)的,因此反搜索引擎爬蟲(chóng)是一個(gè)值得SEO長(cháng)期探索和解決的問(wèn)題。

所以,從SEO的角度來(lái)說(shuō),搜索引擎蜘蛛來(lái)網(wǎng)站訪(fǎng)問(wèn)并非越多越好,并且還要合理的屏蔽無(wú)效的搜索引擎蜘蛛的抓取。

三、過(guò)多的搜索引擎爬蟲(chóng)對網(wǎng)站的影響

既然對于網(wǎng)站來(lái)說(shuō),搜索引擎蜘蛛并非是越多越好,那么,這具體是因為什么原因導致的呢?

1、浪費帶寬資源

如果你的網(wǎng)站帶寬資源有限,而爬蟲(chóng)的量過(guò)多,導致正常用戶(hù)訪(fǎng)問(wèn)緩慢,原本虛擬主機主機的連接數受限,帶寬資源也是有限,這種情況搜索引擎爬蟲(chóng)受影響呈現更明顯。

2、過(guò)于頻繁的抓取會(huì )導致服務(wù)器報錯

如果搜索引擎爬蟲(chóng)過(guò)于頻繁,會(huì )抓取掃描很多無(wú)效頁(yè)面,甚至抓頁(yè)面抓到服務(wù)器報502、500 、504等服務(wù)器內部錯誤了,蜘蛛爬蟲(chóng)還在不停使勁抓取。

3、與網(wǎng)站主題不相關(guān)的搜索引擎爬蟲(chóng)消耗資源

比如一淘網(wǎng)的抓取工具是一淘網(wǎng)蜘蛛(EtaoSpider),目前是被各大購物網(wǎng)站屏蔽的,拒絕一淘網(wǎng)抓取其商品信息及用戶(hù)產(chǎn)生的點(diǎn)評內容。

被禁止的原因首先應該是它們之間沒(méi)有合作互利的關(guān)系,還有就是EtaoSpider爬蟲(chóng)是一個(gè)抓取最瘋狂的蜘蛛,據對一些電商網(wǎng)站的測試發(fā)現:一淘網(wǎng)蜘蛛(EtaoSpider)的一天爬行量比 百度蜘蛛(Baiduspider) 360蜘蛛(360Spider) SOSO蜘蛛(Sosospider) 等主流蜘蛛爬蟲(chóng)多幾倍,并且是遠遠的多。

重點(diǎn)是EtaoSpider被抓取只會(huì )消耗你的網(wǎng)站資源,它不會(huì )給你帶來(lái)訪(fǎng)問(wèn)量,或者其它對你有利用的。

4、無(wú)效的測試抓取

一些搜索引擎開(kāi)發(fā)程序員,它們寫(xiě)的爬蟲(chóng)程序在測試爬行。

5、robots.txt文件也并非是萬(wàn)能

肯定有很多人認為,在robots.txt設置屏蔽搜索引擎爬蟲(chóng)即可,或者允許某些特定的搜索引擎爬蟲(chóng),能達到你預想效果。

正規搜索引擎會(huì )遵守規則,不過(guò)不會(huì )及時(shí)生效,但是據我對博客的測試發(fā)現:實(shí)際上某些蜘蛛往往不是這樣的,先掃描抓取你的頁(yè)面,無(wú)視你的robots.txt,也可能它抓取后不一定留用,或者它只是統計信息,收集互聯(lián)網(wǎng)行業(yè)趨勢分析統計。

6、不是搜索引擎蜘蛛,但具有蜘蛛的特性

例如采集軟件,采集程序,網(wǎng)絡(luò )掃描e-mail地址的工具,各式各樣的SEO分析統計工具,千奇百怪的網(wǎng)站漏洞掃描工具等等,這些抓取對網(wǎng)站沒(méi)有任何好處!

四、如何解決無(wú)效搜索引擎蜘蛛取的問(wèn)題

各種搜索引擎的蜘蛛爬蟲(chóng)會(huì )不斷地訪(fǎng)問(wèn)抓取我們站點(diǎn)的內容,也會(huì )消耗站點(diǎn)的一定流量,有時(shí)候就需要屏蔽某些蜘蛛訪(fǎng)問(wèn)我們的站點(diǎn)。那么接下來(lái),就根據自己的經(jīng)驗跟大家分享4種解決無(wú)效搜索引擎蜘蛛抓取的方法:

1、只運行常用的搜索引擎蜘蛛抓取

依據空間流量實(shí)際情況,就保留幾個(gè)常用的,屏蔽掉其它蜘蛛以節省流量。

2、通過(guò)服務(wù)器防火墻來(lái)屏蔽ip

從服務(wù)器防火墻iptable直接屏蔽蜘蛛IP段、詳細的IP,這是最直接、有效的屏蔽方法。

3、WWW服務(wù)器層面做限制

例如Nginx,Squid,Lighttpd,直接通過(guò) http_user_agent 屏蔽搜索引擎爬蟲(chóng)。

4、最后robots.txt文件做限制

搜索引擎國際規則還是要遵循規則的。

五、各大搜索引擎蜘蛛的名稱(chēng)

為了使大家找到適合自己網(wǎng)站的搜索引擎蜘蛛,也特意整理了一份最新的各大搜索引擎蜘蛛名稱(chēng)(大家要注意下寫(xiě)法的不同點(diǎn),特別是大小寫(xiě)):

1、百度蜘蛛:Baiduspider

網(wǎng)上的資料百度蜘蛛名稱(chēng)有BaiduSpider、baiduspider等,那是舊黃歷了。百度蜘蛛最新名稱(chēng)為Baiduspider,我通過(guò)對博客日志的檢查還發(fā)現了Baiduspider-image這個(gè)百度旗下蜘蛛,是抓取圖片的蜘蛛。

常見(jiàn)百度旗下同類(lèi)型蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞)。

2、谷歌蜘蛛:Googlebot

這個(gè)爭議較少,但也有說(shuō)是GoogleBot的,谷歌蜘蛛最新名稱(chēng)為 compatible; Googlebot/2.1; ,不過(guò),我還在博客的日志中發(fā)現了Googlebot-Mobile,看名字是抓取wap內容的。

3、360蜘蛛:360Spider

它是一個(gè)很 勤奮抓爬 的蜘蛛。

4、SOSO蜘蛛:Sosospider

5、雅虎蜘蛛: Yahoo! Slurp China 或者Yahoo!

6、有道蜘蛛:YoudaoBot,YodaoBot

7、搜狗蜘蛛:Sogou News Spider

另外,還發(fā)現搜狗蜘蛛還包括以下這些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider。

8、MSN蜘蛛:msnbot,msnbot-media

9、必應蜘蛛:bingbot,線(xiàn)上(compatible; bingbot/2.0;)

10、一搜蜘蛛:YisouSpider

11、Alexa蜘蛛:ia_archiver

12、宜搜蜘蛛:EasouSpider

13、即刻蜘蛛:JikeSpider

14、一淘網(wǎng)蜘蛛:EtaoSpider

根據上述蜘蛛中選擇幾個(gè)常用的允許抓取,其余的都可以通過(guò)robots屏蔽抓取,如果你的空間流量還足夠使用的話(huà),那就不用做屏蔽了,等流量緊張了就保留幾個(gè)常用的屏蔽掉其它蜘蛛以節省流量。

至于那些蜘蛛抓取對網(wǎng)站能帶來(lái)有利用的價(jià)值,網(wǎng)站的管理者應該是最清楚的。

另外,還發(fā)現了YandexBot、AhrefsBot和ezooms.bot這些蜘蛛,據說(shuō)這些蜘蛛國外的,對中文網(wǎng)站用處很小。

其實(shí)對于我們站長(cháng)來(lái)說(shuō),有效并且常用的搜索引擎就那么幾個(gè),只要在robots.txt文件里把常用的幾個(gè)搜索引擎蜘蛛允許放行就好了,其它的爬蟲(chóng)統統通過(guò)通配符(*)禁止掉,或單獨屏蔽某些蜘蛛。

欧美一区二区三区四区视频|久久久久久88色偷偷|国产精品视频一区二区三区w|国产综合色在线视频|久久久久久综合七次郎|好硬好紧好湿进去了好爽