用戶(hù)提問(wèn):我們有一個(gè)網(wǎng)頁(yè)3000多行中文+英文,快照顯示不完整,通過(guò)站長(cháng)平臺模擬抓?。ㄗⅲ哼@位同學(xué)指的是抓取診斷工具:http://zhanzhang.baidu.com/crawltools/index),文字也顯示不完整,對網(wǎng)站影響會(huì )不會(huì )很大?
百度工程師進(jìn)問(wèn)答:
第一個(gè)問(wèn)題:百度對網(wǎng)頁(yè)內容多少大小有限制嗎?
答:對內容文字多少沒(méi)有限制,但源碼大小上有一定的防制,過(guò)長(cháng)的話(huà),會(huì )取前面一部分,所以,源碼還是越簡(jiǎn)潔越好
第二個(gè)問(wèn)題:如果快照顯示網(wǎng)頁(yè)不完整,是不是說(shuō)明BaiduSpider沒(méi)有完整收錄網(wǎng)頁(yè)?
答:不是的,快照的成生涉及很多環(huán)節,顯示不完整的原因會(huì )很多,不能簡(jiǎn)單地認為沒(méi)有收錄完整。
第三個(gè)問(wèn)題:使用平臺抓取斷工具也不能完整顯示,是不是就可以認為沒(méi)有收錄完整了?
答:不是的,工具只展示前200K。我們設計工具的時(shí)候對網(wǎng)頁(yè)做過(guò)調研,一般來(lái)說(shuō)展示前100K就夠用了。
第四個(gè)問(wèn)題:百度是否要求網(wǎng)頁(yè)上不能有什么特殊字符?
答:沒(méi)有這個(gè)限制。