記憶盒子

把記憶裝進(jìn)灰色的盒子,封裝起來,那年那月,重新拾起。

首頁搜索目錄
search
當(dāng)前主題: 互聯(lián)網(wǎng)絡(luò)

cnzz統(tǒng)計不準(zhǔn)!流量包含了百度蜘蛛的訪問量

作者:Kaka    時間:2015-3-31 15:12:26    瀏覽:    評論:6

前段時間發(fā)現(xiàn)流量有點異常,于是查看了訪問明細(xì),發(fā)現(xiàn)某些IP段有異常,例如出現(xiàn)很多123.125.71.*這種IP,而這種IP有個共同的特點,就是都是直接訪問網(wǎng)頁,并且只訪問一頁,地點都是北京市。

訪問明細(xì)

訪問明細(xì)(點擊上圖放大)

通過日志檢查訪問異常

我后來打開日志檢查,發(fā)現(xiàn)一個比較奇怪的現(xiàn)象,那就是日志里這樣的每個IP只有訪問網(wǎng)頁文件的記錄,而沒有訪問css、js和圖片等其他文件的記錄,這完全不同正常的訪客打開一張網(wǎng)頁的日志。

異常的訪問日志

異常的訪問日志(點擊上圖放大)

123.125.71.106這個IP只訪問了default.html這個文件。

正常的訪客訪問網(wǎng)頁時,日志里不但記錄了網(wǎng)頁的訪問記錄,還記錄了網(wǎng)頁里關(guān)聯(lián)的圖片、js、css等文件的訪問記錄。

正常的訪問日志

正常的訪問日志(點擊上圖放大)

218.22.69.142這個IP不但訪問了default.html這個文件,還訪問了css、js和圖片文件。

我再看看異常的日志記錄,發(fā)現(xiàn)了“Baiduspider”的字樣,這顯然是百度蜘蛛抓取網(wǎng)頁的記錄。

百度蜘蛛訪問記錄

百度蜘蛛訪問記錄(點擊上圖放大)

我再查詢這個IP的地址,確實顯示是百度蜘蛛的IP。

IP地址查詢

IP地址查詢

至此,就明白為什么流量異常了,原來是CNZZ把百度蜘蛛的抓取也算入了流量。

網(wǎng)站流量需要減去百度蜘蛛的訪問量

通過跟蹤,發(fā)現(xiàn)百度蜘蛛使用的瀏覽器是火狐瀏覽器。

百度蜘蛛使用的瀏覽器是火狐瀏覽器

百度蜘蛛使用的瀏覽器是火狐瀏覽器(點擊圖片放大)

所以,可以在“終端詳情”-“瀏覽器”那里減去一部分火狐瀏覽器的訪問量(只能是大概),從而知道網(wǎng)站的真正訪問量。

火狐瀏覽器的訪問量

火狐瀏覽器的訪問量

CNZZ統(tǒng)計可以過濾百度蜘蛛IP

針對此問題,據(jù)官方的意見,是叫用戶在CNZZ設(shè)置里過濾百度的蜘蛛IP,這樣就不會把百度蜘蛛的訪問量也統(tǒng)計進(jìn)來了。不過,百度蜘蛛IP有哪些呢?我想很多人都不知道吧,這個方法貌似不太可行。為此,我搜查了百度的一些蜘蛛IP,以下是常見的百度蜘蛛IP(來自互聯(lián)網(wǎng),僅供參考):

123.125.68.*這個蜘蛛經(jīng)常來,別的來的少,表示網(wǎng)站可能要進(jìn)入沙盒了,或被者降權(quán)。
220.181.68.*每天這個IP 段只增不減很有可能進(jìn)沙盒或K站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準(zhǔn)備抓取你東西。
121.14.89.*這個ip段作為度過新站考察期。
203.208.60.*這個ip段出現(xiàn)在新站及站點有不正?,F(xiàn)象后。
210.72.225.*這個ip段不間斷巡邏各站。
125.90.88.* 廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過站長工具,或SEO綜合檢測造成的。
220.181.108.95這個是百度抓取首頁的專用IP,如是220.181.108段的話,基本來說你的網(wǎng)站會天天隔夜快照,絕對錯不了的,我保證。
220.181.108.92 同上98%抓取首頁,可能還會抓取其他 (不是指內(nèi)頁)220.181段屬于權(quán)重IP段此段爬過的文章或首頁基本24小時放出來。
123.125.71.106 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.91屬于綜合的,主要抓取首頁和內(nèi)頁或其他,屬于權(quán)重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.75重點抓取更新文章的內(nèi)頁達(dá)到90%,8%抓取首頁,2%其他。權(quán)重IP 段,爬過的文章或首頁基本24小時放出來。
220.181.108.86專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.95 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
123.125.71.97 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.89專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.94專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.97專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.80專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.77 專用抓首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.117 抓取內(nèi)頁收錄的,權(quán)重較低,爬過此段的內(nèi)頁文章不會很快放出來,因不是原創(chuàng)或采集文章。
220.181.108.83專用抓取首頁IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。

據(jù)網(wǎng)友介紹,以上IP尾數(shù)還有很多,但段位一樣的123.125.71.*段IP 代表抓取內(nèi)頁收錄的權(quán)重比較低,可能由于你采集文章或拼文章暫時被收錄但不放出來(意思也就是說待定)。
220.181.108.*段IP主要是抓取首頁占80%,內(nèi)頁占30%,這此爬過的文章或首頁,24小時內(nèi)放出來和隔夜快照的。
一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網(wǎng)站沒更新,蜘蛛來過,如果是 200 0 64別擔(dān)心這不是K站,可能是網(wǎng)站是動態(tài)的,所以返回就是這個代碼。

您可能對如下文章也感興趣

小心!51la統(tǒng)計代碼noscript標(biāo)簽出現(xiàn)外鏈

CNZZ新版功能強(qiáng)大 但訪問明細(xì)用戶體驗仍不及51la

CNZZ統(tǒng)計來路域名和來路頁面問題凸顯

我為什么不再使用百度統(tǒng)計

x

標(biāo)簽: Internet  

※ 網(wǎng)站速度慢?試試網(wǎng)站自動優(yōu)化工具 ※

上一篇: 修改gif圖片閃動頻率,F(xiàn)ireworks輕松搞定
下一篇: 百度統(tǒng)計的子目錄流量分析填補(bǔ)了CNZZ統(tǒng)計的缺陷

發(fā)表評論:

◎歡迎參與討論,請在這里發(fā)表您的看法、交流您的觀點。

訂閱博客                   QQ交流群(312716741)

  • 通過Google訂閱本站 通過鮮果訂閱本站 通過抓蝦訂閱本站
  • 通過QQ郵箱訂閱本站 通過Yahoo訂閱本站 通過有道訂閱本站

Search

最新評論及回復(fù)

最近留言

網(wǎng)站分類

Powered By Z-Blog 1.8 Walle Build 91204 Designed by Han'space

Copyright @2009-2024 All Rights Reserved. 粵ICP備14028160號-1

Powered By Z-Blog 1.8 Walle Build 91204
Copyright @2009-2024 All Rights Reserved.