相信大家在分析百度蜘蛛日志的時(shí)候經(jīng)常會(huì)發(fā)現(xiàn)一個(gè)問題,那就是百度蜘蛛經(jīng)常會(huì)抓取一些不存在的目錄。例如,我的網(wǎng)站沒有這些目錄,但是百度蜘蛛一直在爬行,或者你會(huì)發(fā)現(xiàn)百度蜘蛛在爬行他們自己的私有目錄或php文件。這是為什么?今天就給大家詳細(xì)分析一下,并說明相應(yīng)的解決方法。這篇文章干貨多,建議仔細(xì)閱讀。
1、如果蜘蛛只爬首頁,不爬內(nèi)頁,是什么情況!
很簡(jiǎn)單,域名有問題。一般來說,如果出現(xiàn)這種情況,域名目前可能處于審查期,也就是說你從事過非法行業(yè),或者你的程序有作弊嫌疑,但域名占比很大。如果程序有問題,百度蜘蛛一開始會(huì)抓取一些。
2.如果百度蜘蛛抓取一些私人文件,如php,zip和rar,會(huì)發(fā)生什么?
在這種情況下,你要判斷當(dāng)前的ip是否是假的蜘蛛文件,因?yàn)楝F(xiàn)在很多Ips都會(huì)自動(dòng)改變自己的UA,就像百度蜘蛛一樣,你無法從蜘蛛日志中分辨出來,你可以通過ip138識(shí)別出這個(gè)Ip,看看是不是蜘蛛Ip,如果不是,果斷屏蔽掉,如果太多,按照Ip段屏蔽掉。
3.如果百度的蜘蛛爬上一些私有目錄,如果是真的蜘蛛該怎么辦?
如果你確認(rèn)這是一只真正的百度蜘蛛,百度可能正在抓取你頁面的內(nèi)部程序,檢查你使用的程序版本,等等。這些百度將有獨(dú)特的戰(zhàn)略。一般來說,百度會(huì)優(yōu)先考慮自己寫的節(jié)目。為了防止蜘蛛抓取我們的私有目錄,我們通常使用robots.txt來屏蔽它。記?。河行r(shí)間約為24小時(shí)。
4.如果蜘蛛抓取一些不存在的目錄和一些不存在的文件怎么辦?
首先還是要判斷它是不是真的蜘蛛。如果它是一個(gè)真正的蜘蛛,百度抓取一些不存在的目錄,因?yàn)槟阍谶@個(gè)域名之前已經(jīng)做了一些網(wǎng)站,現(xiàn)在你又開始做了。百度將根據(jù)以前的分?jǐn)?shù)和網(wǎng)址爬行,看看以前的網(wǎng)站是否再次恢復(fù)。一般來說,這種爬行會(huì)在30天內(nèi)自動(dòng)消失。如果30天之后還存在,就要屏蔽這種鏈接??傊?,這種爬行對(duì)你的網(wǎng)站沒有太大的傷害,只是檢查而已。
此外,如果你把其他網(wǎng)站301放在你當(dāng)前的域名上,蜘蛛會(huì)根據(jù)其他網(wǎng)站的網(wǎng)址抓取你的網(wǎng)站。這個(gè)時(shí)候,你也會(huì)發(fā)現(xiàn)百度在爬一些不存在的目錄,但是不要害怕,這不會(huì)傷害你的網(wǎng)站。
5.蜘蛛抓取的時(shí)候狀態(tài)碼301、304、200、403、404、444呢?
首先我們要明白301狀態(tài)碼是重定向。如果你的頂級(jí)域名,比如daidaiseo.com-,抓取daidaiseo.com上面的資源,301重定向代碼就會(huì)出現(xiàn)。如果上面的資源被抓取,將是200狀態(tài)碼,這意味著抓取成功。
搶304狀態(tài)碼是為什么?如果在日志中看到304狀態(tài)碼,說明你的資源一直沒有變化,屬于靜態(tài)頁面資源。304狀態(tài)碼對(duì)網(wǎng)站影響不大。一般來說,如果你做一個(gè)百度CDN,有緩存,304狀態(tài)碼很容易出現(xiàn),但只要你每天提交資源給百度,并保持不時(shí)更新,就沒問題了。
403是權(quán)限問題,禁止訪問。你的服務(wù)器已經(jīng)設(shè)置了,而444是一個(gè)空頁面。這一頁丟失了。這三個(gè)狀態(tài)代碼表明網(wǎng)站有問題。記?。翰灰尵W(wǎng)站有大量的404,你可以把狀態(tài)碼改成403只是為了限制訪問。如果都是404,就意味著網(wǎng)站大量頁面不可用,百度評(píng)分會(huì)降低。好的。
文章來源:SEO博客代代相傳
源地址:/seoti/10949.html