robots.txt文件的寫(xiě)法
User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC 這里定義是禁止爬尋ABC整個(gè)目錄
Disallow: /cgi-bin/*.htm 禁止訪(fǎng)問(wèn)/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪(fǎng)問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
Disallow: .jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬去ab文件夾下面的adc.html所有文件
User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
Allow: .htm$ 僅允許訪(fǎng)問(wèn)以".htm"為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對搜索引擎的訪(fǎng)問(wèn)做了限制,即搜索引擎不會(huì )訪(fǎng)問(wèn)這三個(gè)目錄。
需要注意的是對每一個(gè)目錄必須分開(kāi)聲明,而不要寫(xiě)成 “Disallow: /cgi-bin/ /tmp/”。
User-agent:后的*具有特殊的含義,代表“any robot”,所以在該文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”這樣的記錄出現。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊參數:
允許 Googlebot:
如果您要攔截除 Googlebot 以外的所有漫游器訪(fǎng)問(wèn)您的網(wǎng)頁(yè),可以使用下列語(yǔ)法:
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Googlebot 跟隨指向它自己的行,而不是指向所有漫游器的行。