robots文件可限制抓取網(wǎng)頁(yè)的搜索引擎蜘蛛對您網(wǎng)站的訪(fǎng)問(wèn)。這些蜘蛛是自動(dòng)的,它們在訪(fǎng)問(wèn)任意網(wǎng)站的網(wǎng)頁(yè)之前,都會(huì )查看是否存在阻止它們訪(fǎng)問(wèn)特定網(wǎng)頁(yè)的 robots.txt 文件。簡(jiǎn)單的說(shuō),就是在百度進(jìn)來(lái)抓取的第一時(shí)間,告訴百度指數哪些東西是可以看的,哪些東西是不能看的。只有當您的網(wǎng)站中包含您不想讓搜索引擎編入索引的內容時(shí),才需要使用 robots.txt 文件。Robots協(xié)議用來(lái)告知搜索引擎哪些頁(yè)面能被抓取,哪些頁(yè)面不能被抓??;可以屏蔽一些網(wǎng)站中比較大的文件,如:圖片,音樂(lè ),視頻等,節省服務(wù)器帶寬;可以屏蔽站點(diǎn)的一些死鏈接。方便搜索引擎抓取網(wǎng)站內容;設置網(wǎng)站地圖連接,方便引導蜘蛛爬取頁(yè)面。下面就來(lái)和大家說(shuō)說(shuō)如何利用robots文件來(lái)進(jìn)行SEO優(yōu)化。
robots文件寫(xiě)法
User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪(fǎng)問(wèn)/cgi-bin/目錄下的所有以“.htm”為后綴的URL。
Disallow: /*?* 禁止訪(fǎng)問(wèn)網(wǎng)站中所有包含問(wèn)號 (?) 的網(wǎng)址
Disallow: /.jpg$ 禁止抓取網(wǎng)頁(yè)所有的。jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/?這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
Allow: .htm$ 僅允許訪(fǎng)問(wèn)以“.htm”為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片
Sitemap: 網(wǎng)站地圖 告訴爬蟲(chóng)這個(gè)頁(yè)面是網(wǎng)站地圖
robots文件用法
例1. 禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分
User-agent: *
Disallow: /
實(shí)例分析:淘寶網(wǎng)的 Robots.txt文件
User-agent: Baidu百度蜘蛛
Disallow: /
User-agent: baidu百度蜘蛛
Disallow: /