在網(wǎng)站的SEO優(yōu)化過(guò)程中,并不是說(shuō)所有的站點(diǎn)問(wèn)題都可以直接從站長(cháng)工具上得到信息,在憶五看來(lái),往往站長(cháng)工具上得到的信息都是在站點(diǎn)出現問(wèn)題后才能察覺(jué)到。
作為一名SEOer,我們更需要學(xué)會(huì )如何查看網(wǎng)站的隱性信息,例如,這幾天做的外鏈效果怎樣?我們的內容那些方面更加容易受到搜索引擎蜘蛛的喜愛(ài)?搜索引擎蜘蛛對于我們站點(diǎn)的爬行積極度如何? ,這些都是隱藏在站點(diǎn)內部的一些關(guān)鍵信息。
雖說(shuō)這些信息通過(guò)站長(cháng)工具很難分析出來(lái)什么結果,可這些信息恰恰可以從我們的站點(diǎn)IIS日志上找到答案,那么,我們該如何通過(guò)IIS日志分析網(wǎng)站的隱形信息呢?
一、為何IIS日志在分析站點(diǎn)隱性信息中如此重要
1、通過(guò)IIS日記的記錄我們可以更加清楚的分析出搜索引擎蜘蛛在網(wǎng)站上的爬行信息,這些信息包含有蜘蛛的爬行路線(xiàn)以及爬行深度。
通過(guò)這一些數據信息,我們可以分析近期我們建設的外鏈效果如何?因為我們知道外鏈就像是引導蜘蛛爬行的蜘蛛絲,如果外鏈建設的好的話(huà),蜘蛛爬行的自然而然頻繁,而且我們可以記錄下從哪一個(gè) 入口 進(jìn)入蜘蛛的頻率高。
2、網(wǎng)站的內容更新與蜘蛛爬行存在一定的關(guān)系,一般只要我們更新穩定頻繁,蜘蛛的就會(huì )爬行得更加的勤,對此,憶五建議你可以借助日志中的蜘蛛來(lái)訪(fǎng)頻率對網(wǎng)站內容的更新頻率做一個(gè)細調。
3、通過(guò)日志我們可以發(fā)現空間存在的一些故障,這些故障可能是一些站長(cháng)工具無(wú)法察覺(jué)到的。
比如曾經(jīng)很火的美橙空間因為技術(shù)員誤操作robots文件導致空間屏蔽了百度了蜘蛛事件,假如站長(cháng)們事先分析一下分析一下空間日志,或許可以發(fā)現這一錯誤。
二、如何獲得日志文件以及應注意的事項
1、IIS日志,它是一個(gè)文件文件,擴展名為.log,在默認狀態(tài)下,服務(wù)器每天都會(huì )在這些目錄下創(chuàng )建日志文件,并用日期給日志文件命名(例如,exYYMMDD.log)。我們查看他的方法很簡(jiǎn)單,就是將其從FTP中下載下來(lái),然后放到桌面,用記事本文件就可以打開(kāi)了。
2、要獲得該日志文件我們的空間需要有iis日志記錄的功能,假如我們的空間有這一功能的話(huà),一般該日志文件會(huì )記錄在weblog或Logfiles文件夾中,有的也叫log文件夾中,我們可以直接從這一文件夾中下載我們站點(diǎn)的日志文件。
3、在使用這一功能時(shí)我們需要注意日志的生成時(shí)間設置,憶五的建議是如果站點(diǎn)是一個(gè)小型的站點(diǎn)可以讓它一天生成一次,假如是比較大的站點(diǎn)我們可以讓其每小時(shí)更新,以免生成的文件出現過(guò)大的情況。
三、如何分析解讀蜘蛛行為
那找到并下載了IIS日志文件,這個(gè)時(shí)候我們該怎么查看呢?有些朋友會(huì )抱怨不知道怎么去查看,看不懂代碼,不知道如何去分析,事實(shí)上IIS的日志代碼分析很簡(jiǎn)單的,都是一些固定的東西,接下來(lái),憶五就為你簡(jiǎn)單的介紹一下:
1、如何查看IIS日志文件?
我們可以記事本的方式打開(kāi)我們站點(diǎn)的日志文件,使用記事本的搜索功能搜索百度和谷歌的蜘蛛,分別是BaiduSpider和Googlebot(更多的搜索引擎蜘蛛標識可通過(guò)憶五博客的《》相關(guān)介紹來(lái)查詢(xún))。
(1)、查看百度蜘蛛的記錄
(2)、查看谷歌蜘蛛的記錄
我們可以分段對這個(gè)IIS日志進(jìn)行分析:
2012-04-5 00:47:10 是在這一個(gè)事件點(diǎn)蜘蛛爬進(jìn)了我們的站點(diǎn)。
116.255.169.37 這個(gè)ip是指我們的站點(diǎn)。
GET緊跟其后的就是蜘蛛爬行的頁(yè)面,從這邊我們可以了解近期我們的什么頁(yè)面被爬行過(guò)。
200 0 0代表的是網(wǎng)頁(yè)正常的狀態(tài)碼,當然還有其他不同數值的狀態(tài)碼,如500表示服務(wù)器超時(shí)等等。我們可以借由這些狀態(tài)碼來(lái)分析站點(diǎn)空間近來(lái)的表現情況。
220.187.51.144這一IP搜索引擎蜘蛛的ip地址,當然這邊就可能會(huì )出現真假兩種地址。
2、如何識別這一個(gè)地址是真的蜘蛛還是偽裝的呢?
憶五也為大家分享一個(gè)自己的小方法,我們可以打開(kāi)命令窗口,在窗口中執行nslookup+這一個(gè)所謂蜘蛛的地址。加入是貨真價(jià)實(shí)的蜘蛛,那么就會(huì )有自己的服務(wù)器,反之則是無(wú)法找到信息。
(1)、真蜘蛛
(2)、假蜘蛛
3、為什么IIS日志中會(huì )有偽造的蜘蛛呢?
原因就是有其他站點(diǎn)偽造成假蜘蛛來(lái)爬行抓取你的站點(diǎn)內容,如果任由這些假蜘蛛橫行的話(huà),會(huì )對站點(diǎn)的服務(wù)器消耗造成一定的影響。
對此,我們需要通過(guò)一些方法找到并屏蔽他們,當然我們還需要細心處理,否則把真蜘蛛拒之門(mén)外就不好了!
最后,我們可以分析日志文件中蜘蛛最常光顧的幾個(gè)頁(yè)面,記錄下來(lái),并且找到為何會(huì )受到蜘蛛青睞的內外部原因。