網(wǎng)上發(fā)現的精典文章,發(fā)出來(lái)與大家分享:
網(wǎng)友eleven俊問(wèn):
1.robots.txt這個(gè)Disallow:后面一半怎么寫(xiě)(請舉例說(shuō)明各種情況,越多越好)
2.robots.txt怎么指明某個(gè)東西的未知,比如:網(wǎng)站地圖(請將具體的代碼寫(xiě)好)
3.robots.txt在根目錄下怎么看?根目錄在管理后臺(發(fā)布跟新文章地方)就可以看,看是空間放源代碼文件得地方,這個(gè)我分不清楚,關(guān)鍵詞排名優(yōu)化,求教?
4.robots還拿哪些問(wèn)題比較重要的,請寫(xiě)下,感謝!
陳中平的回復:
robots.txt是在網(wǎng)站空間根目錄里面. 給樓主提供一篇文章看看:
網(wǎng)站能不能被搜索引擎索引到,除了看有沒(méi)有向搜索引擎入口提交、有否與其他站點(diǎn)交換鏈接等之外,還得看根目錄底下的robots.txt文件有沒(méi)有禁止搜索引擎的收錄,這里摘錄一些關(guān)于robots.txt文件的寫(xiě)法備忘.
什么是robots.txt文件
搜索引擎通過(guò)一種爬蟲(chóng)spider程序(又稱(chēng)搜索蜘蛛、robot、搜索機器人等),自動(dòng)搜集互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取相關(guān)信息.
鑒于網(wǎng)絡(luò )安全與隱私的考慮,搜索引擎遵循robots.txt協(xié)議.通過(guò)在根目錄中創(chuàng )建的純文本文件robots.txt,網(wǎng)站可以聲明不想被robots訪(fǎng)問(wèn)的部分.每個(gè)網(wǎng)站都可以自主控制網(wǎng)站是否愿意被搜索引擎收錄,或者指定搜索引擎只收錄指定的內容.當一個(gè)搜索引擎的爬蟲(chóng)訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí),上海SEO,它會(huì )首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果該文件不存在,那么爬蟲(chóng)就沿著(zhù)鏈接抓取,如果存在,爬蟲(chóng)就會(huì )按照該文件中的內容來(lái)確定訪(fǎng)問(wèn)的范圍.
robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫(xiě).
robots.txt文件的寫(xiě)法
robots.txt文件的格式
User-agent: 定義搜索引擎的類(lèi)型
Disallow: 定義禁止搜索引擎收錄的地址
Allow: 定義允許搜索引擎收錄的地址
我們常用的搜索引擎類(lèi)型有:
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛: slurp
robots.txt文件的寫(xiě)法
User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC 這里定義是禁止爬尋ABC整個(gè)目錄
Disallow: /cgi-bin/*.htm 禁止訪(fǎng)問(wèn)/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄).
Disallow: /*?* 禁止訪(fǎng)問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
Disallow: .jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬尋ab文件夾下面的adc.html所有文件
User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
Allow: .htm$ 僅允許訪(fǎng)問(wèn)以".htm"為后綴的URL.
Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片
robots.txt文件用法舉例
例1. 禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分
User-agent: *
Disallow: /
實(shí)例分析:淘寶網(wǎng)的 Robots.txt文件
User-agent: Baiduspider
Disallow: /
很顯然淘寶不允許百度的機器人訪(fǎng)問(wèn)其網(wǎng)站下其所有的目錄.
例2. 允許所有的robot訪(fǎng)問(wèn) (或者也可以建一個(gè)空文件 "/robots.txt" file)
User-agent: *
Disallow:
例3. 禁止某個(gè)搜索引擎的訪(fǎng)問(wèn)
User-agent: BadBot
Disallow: /
例4. 允許某個(gè)搜索引擎的訪(fǎng)問(wèn)
User-agent: baiduspider
Disallow: User-agent: *
Disallow: /
例5.一個(gè)簡(jiǎn)單例子
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對搜索引擎的訪(fǎng)問(wèn)做了限制,即搜索引擎不會(huì )訪(fǎng)問(wèn)這三個(gè)目錄.
需要注意的是對每一個(gè)目錄必須分開(kāi)聲明,而不要寫(xiě)成 "Disallow: /cgi-bin/ /tmp/".