最近有站長(cháng)在網(wǎng)上發(fā)文吐槽表示,字節跳動(dòng)為了快速發(fā)展搜索業(yè)務(wù)派出爬蟲(chóng)四處暴力抓取網(wǎng)站內容,部分配置較低的網(wǎng)站已經(jīng)直接癱瘓,給中小網(wǎng)站主們造成了很大的損失和困擾,嚴重影響了網(wǎng)站正常的用戶(hù)訪(fǎng)問(wèn)。
該站長(cháng)表示,今年7月份,他突然發(fā)現公司的網(wǎng)站經(jīng)常性打不開(kāi),網(wǎng)頁(yè)加載極其緩慢,有時(shí)甚至直接癱瘓。經(jīng)過(guò)一系列排查后,在服務(wù)器日志上發(fā)現了bytespider爬蟲(chóng)的痕跡。該爬蟲(chóng)抓取的頻率每天達幾百萬(wàn)次,高則上千萬(wàn)次,服務(wù)器帶寬負載飆至100%,而且該爬蟲(chóng)在抓取時(shí)完全不遵守網(wǎng)站的robots協(xié)議。
該站長(cháng)順著(zhù)該爬蟲(chóng)的IP地址查詢(xún),證實(shí),該爬蟲(chóng)就是字節跳動(dòng)的搜索爬蟲(chóng)。
并且,在CSDN、V2EX等技術(shù)論壇也了解到,從字節跳動(dòng)開(kāi)始做搜索之后,其實(shí)網(wǎng)絡(luò )上就一直有站長(cháng)抱怨頭條搜索爬蟲(chóng)抓取過(guò)于暴力的聲音,遭受字節跳動(dòng)的搜索爬蟲(chóng)暴力抓取的不是個(gè)例,很多小網(wǎng)站他們也沒(méi)放過(guò)。
有小網(wǎng)站主抱怨表示:字節跳動(dòng)的爬蟲(chóng)“一上午對網(wǎng)站發(fā)出46萬(wàn)次請求”,網(wǎng)站都癱瘓了,百度也沒(méi)有這么折騰的!
最后,該站長(cháng)表示,像我們這樣做SEO的人來(lái)說(shuō),主要工作目標就是希望自己家網(wǎng)站能在主流搜索引擎的搜索結果中排在前面的位置,“對于像百度、搜狗、360等搜索引擎的規范抓取和收錄各位站長(cháng)都是非常歡迎的,但是頭條搜索爬蟲(chóng)這樣瘋狂爬取內容網(wǎng)站都給整癱瘓了,不僅沒(méi)給網(wǎng)站帶來(lái)流量,還影響了正常的用戶(hù)訪(fǎng)問(wèn),這就很不“講究”了。
但是對此,字節跳動(dòng)的回應則是,“網(wǎng)絡(luò )報道不實(shí),目前頭條搜索設有反饋機制,網(wǎng)站因為爬蟲(chóng)受到影響,可以直接通過(guò)郵件反饋處理。”明是不準備正面回應的。
所以通過(guò)頭條搜索爬蟲(chóng)暴力抓取網(wǎng)站內容來(lái)看,磊哥個(gè)人覺(jué)得,字節跳動(dòng)入局全網(wǎng)搜索攪動(dòng)搜素市場(chǎng)是好事,但是為了快速崛起讓自己家爬蟲(chóng)四處暴力抓取,就有問(wèn)題了,大網(wǎng)站服務(wù)器配置高,技術(shù)人員多還好,很多小網(wǎng)站根本就頂不住字節跳動(dòng)的搜索爬蟲(chóng)這么折騰。
搜索引擎的索引數據是靠點(diǎn)滴積累起來(lái)的,百度、搜狗.360經(jīng)歷了那么多年的發(fā)展積累才走到今天,頭條搜索想要瘋狂爬取內容,“一口吃個(gè)胖子”,只會(huì )讓站長(cháng)們遠離!
作者:磊哥