亚洲AV无码AV制服另类专区_解析robots.txt的正確使用方法 - 網(wǎng)站技術(shù)

網(wǎng)上發(fā)現的精典文章,發(fā)出來(lái)與大家分享:

網(wǎng)友eleven俊問(wèn):

1.robots.txt這個(gè)Disallow:后面一半怎么寫(xiě)(請舉例說(shuō)明各種情況,越多越好)

2.robots.txt怎么指明某個(gè)東西的未知,比如:網(wǎng)站地圖(請將具體的代碼寫(xiě)好)

3.robots.txt在根目錄下怎么看?根目錄在管理后臺(發(fā)布跟新文章地方)就可以看,看是空間放源代碼文件得地方,這個(gè)我分不清楚,關(guān)鍵詞排名優(yōu)化,求教?

4.robots還拿哪些問(wèn)題比較重要的,請寫(xiě)下,感謝!

陳中平的回復:

robots.txt是在網(wǎng)站空間根目錄里面. 給樓主提供一篇文章看看:

網(wǎng)站能不能被搜索引擎索引到,除了看有沒(méi)有向搜索引擎入口提交、有否與其他站點(diǎn)交換鏈接等之外,還得看根目錄底下的robots.txt文件有沒(méi)有禁止搜索引擎的收錄,這里摘錄一些關(guān)于robots.txt文件的寫(xiě)法備忘.

什么是robots.txt文件

搜索引擎通過(guò)一種爬蟲(chóng)spider程序(又稱(chēng)搜索蜘蛛、robot、搜索機器人等),自動(dòng)搜集互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取相關(guān)信息.

鑒于網(wǎng)絡(luò )安全與隱私的考慮,搜索引擎遵循robots.txt協(xié)議.通過(guò)在根目錄中創(chuàng )建的純文本文件robots.txt,網(wǎng)站可以聲明不想被robots訪(fǎng)問(wèn)的部分.每個(gè)網(wǎng)站都可以自主控制網(wǎng)站是否愿意被搜索引擎收錄,或者指定搜索引擎只收錄指定的內容.當一個(gè)搜索引擎的爬蟲(chóng)訪(fǎng)問(wèn)一個(gè)站點(diǎn)時(shí),上海SEO,它會(huì )首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果該文件不存在,那么爬蟲(chóng)就沿著(zhù)鏈接抓取,如果存在,爬蟲(chóng)就會(huì )按照該文件中的內容來(lái)確定訪(fǎng)問(wèn)的范圍.

robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫(xiě).

robots.txt文件的寫(xiě)法

robots.txt文件的格式

User-agent: 定義搜索引擎的類(lèi)型

Disallow: 定義禁止搜索引擎收錄的地址

Allow: 定義允許搜索引擎收錄的地址

我們常用的搜索引擎類(lèi)型有:

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛: slurp

robots.txt文件的寫(xiě)法

User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符

Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

Disallow: /ABC 這里定義是禁止爬尋ABC整個(gè)目錄

Disallow: /cgi-bin/*.htm 禁止訪(fǎng)問(wèn)/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄).

Disallow: /*?* 禁止訪(fǎng)問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面

Disallow: .jpg$ 禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片

Disallow:/ab/adc.html 禁止爬尋ab文件夾下面的adc.html所有文件

User-agent: * 這里的*代表的所有的搜索引擎種類(lèi),*是一個(gè)通配符

Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄

Allow: .htm$ 僅允許訪(fǎng)問(wèn)以".htm"為后綴的URL.

Allow: .gif$ 允許抓取網(wǎng)頁(yè)和gif格式圖片

robots.txt文件用法舉例

例1. 禁止所有搜索引擎訪(fǎng)問(wèn)網(wǎng)站的任何部分

User-agent: *

Disallow: /

實(shí)例分析:淘寶網(wǎng)的 Robots.txt文件

User-agent: Baiduspider

Disallow: /

很顯然淘寶不允許百度的機器人訪(fǎng)問(wèn)其網(wǎng)站下其所有的目錄.

例2. 允許所有的robot訪(fǎng)問(wèn) (或者也可以建一個(gè)空文件 "/robots.txt" file)

User-agent: *

Disallow:

例3. 禁止某個(gè)搜索引擎的訪(fǎng)問(wèn)

User-agent: BadBot

Disallow: /

例4. 允許某個(gè)搜索引擎的訪(fǎng)問(wèn)

User-agent: baiduspider

Disallow: User-agent: *

Disallow: /

例5.一個(gè)簡(jiǎn)單例子

在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對搜索引擎的訪(fǎng)問(wèn)做了限制,即搜索引擎不會(huì )訪(fǎng)問(wèn)這三個(gè)目錄.

需要注意的是對每一個(gè)目錄必須分開(kāi)聲明,而不要寫(xiě)成 "Disallow: /cgi-bin/ /tmp/".

欧美一区二区三区四区视频|久久久久久88色偷偷|国产精品视频一区二区三区w|国产综合色在线视频|久久久久久综合七次郎|好硬好紧好湿进去了好爽

瘋狗微信

手機網(wǎng)站

網(wǎng)站地圖

幫助中心

備案登錄

首頁(yè)

關(guān)于

服務(wù)

案例

優(yōu)惠

互聯(lián)網(wǎng)課堂

資訊

評價(jià)

聯(lián)系

解析robots.txt的正確使用方法