一:robots基礎知識
robots協(xié)議(也稱(chēng)爬蟲(chóng)協(xié)議、機器人協(xié)議等),“全稱(chēng)是網(wǎng)絡(luò )爬蟲(chóng)排除標準”(Robots Exclusion Protocol),網(wǎng)站通過(guò)robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不可以抓取。
Robot.txt的作用?
可以讓蜘蛛更高效的爬行網(wǎng)站
可以阻止蜘蛛爬行動(dòng)態(tài)頁(yè)面,從而解決重復收錄的問(wèn)題
可以減少蜘蛛爬行無(wú)效頁(yè)面,節省服務(wù)器帶寬
可以屏蔽搜索引擎屏蔽一些隱私頁(yè)面或者臨時(shí)頁(yè)面
如何創(chuàng )建robots.txt文件呢?
右擊桌面——新建文本文檔——重命名為robots.txt(所有文件必須小寫(xiě))——編寫(xiě)規則——用FTP把文件上(放到根目錄下)傳到空間
創(chuàng )建robots.txt需要注意的知識點(diǎn):
1、必須是txt結尾的純文本文件
2、文件名所有字母必須是小寫(xiě)
3、文件必須要放在根目錄下
4、文件內的冒號必須是英文半角狀態(tài)下
二:robots參數講解
User-agent
主要作用:用于描述搜索引擎蜘蛛的名字
舉列:
1、描述所有蜘蛛
User-agent:*
2、描述百度蜘蛛
User-agent:BaiduSpider
百度:BaiduSpider
谷歌:Googlebot
搜狗:Sogou web spider
好搜:360Spider
MSN:MSNBot
有道:YoudaoBot
宜搜:EasouSpider
User-agent技巧:
1、當robots.txt不為空的時(shí)候,必須至少有一條User-adent記錄
2、相同的名字,只能有一條(例如User-agent:*),但是不同蜘蛛,可以有多條記錄(例如:User-agent:Baiduspider和User-agent:Googlebot)。
Disallow
主要作用:用于描述不允許搜索引擎爬行和抓取的URL。
使用技巧:
1、在robots.txt中至少要有一條Disallow
2、Disallow記錄為空,則表示網(wǎng)站所有頁(yè)面都允許被抓取。
3、使用Disallow,每個(gè)目錄必須單獨分開(kāi)聲明
4、注意Disallow:/abc/(abc目錄底下的目錄不允許抓取,但是目錄底下的html允許抓?。┖虳isallow:/abc(abc目錄底下的目錄跟html都不允許被抓?。┑膮^別。