今天登陸百度資源平臺(tái)看看,發(fā)現(xiàn)在“抓取異常”那里有一些錯(cuò)誤,顯示是“響應(yīng)代碼”522。
“響應(yīng)代碼”522
522是什么意思?看解釋?zhuān)@是“服務(wù)器錯(cuò)誤”的響應(yīng)代碼。
我試試點(diǎn)擊鏈接,都能正常打開(kāi)。
我想,這是某一時(shí)刻,百度爬蟲(chóng)抓取網(wǎng)頁(yè)時(shí),失敗了,可能原因是當(dāng)時(shí)服務(wù)器資源耗盡,到了瓶頸的地步,這個(gè)時(shí)候,任何外部訪問(wèn),都會(huì)返回“服務(wù)器錯(cuò)誤”,響應(yīng)代碼常見(jiàn)的是500。而百度的解釋是,5XX都代表是“服務(wù)器錯(cuò)誤”。
5XX都代表是“服務(wù)器錯(cuò)誤”
抓取異常對(duì)網(wǎng)站有哪些影響
百度認(rèn)為:
對(duì)于大量?jī)?nèi)容無(wú)法正常抓取的網(wǎng)站,搜索引擎會(huì)認(rèn)為網(wǎng)站存在用戶(hù)體驗(yàn)上的缺陷,并降低對(duì)網(wǎng)站的評(píng)價(jià),在抓取、索引、權(quán)重上都會(huì)受到一定程度的負(fù)面影響,最終影響到網(wǎng)站從百度獲取的流量。
如果,對(duì)于有幾千幾萬(wàn)張網(wǎng)頁(yè)的網(wǎng)站來(lái)說(shuō),百度一天抓幾千次,一天只有幾條抓取異常,我想那應(yīng)該不受影響的,畢竟比例太低。
但是,如果正如百度說(shuō)的若有“大量?jī)?nèi)容”無(wú)法正常抓取,則很大原因是服務(wù)器或機(jī)房網(wǎng)絡(luò)線路真的出問(wèn)題了,那種情況就要及時(shí)處理了,不然持續(xù)下去,很快網(wǎng)站就被百度降低權(quán)重,沒(méi)有排名了。
知識(shí)擴(kuò)展
什么是抓取異常
Baiduspider無(wú)法正常抓取,就是抓取異常。
抓取異常的原因有哪些
一、網(wǎng)站異常
1、dns異常
當(dāng)Baiduspider無(wú)法解析您網(wǎng)站的IP時(shí),會(huì)出現(xiàn)DNS異常??赡苁悄木W(wǎng)站IP地址錯(cuò)誤,或者域名服務(wù)商把Baiduspider封禁。請(qǐng)使用WHOIS或者h(yuǎn)ost查詢(xún)自己網(wǎng)站IP地址是否正確且可解析,如果不正確或無(wú)法解析,請(qǐng)與域名注冊(cè)商聯(lián)系,更新您的IP地址。
2、連接超時(shí)
抓取請(qǐng)求連接超時(shí),可能原因服務(wù)器過(guò)載,網(wǎng)絡(luò)不穩(wěn)定
3、抓取超時(shí)
抓取請(qǐng)求連接建立后,下載頁(yè)面速度過(guò)慢,導(dǎo)致超時(shí),可能原因服務(wù)器過(guò)載,帶寬不足
4、連接錯(cuò)誤
無(wú)法連接或者連接建立后對(duì)方服務(wù)器拒絕
二、鏈接異常
1、訪問(wèn)被拒絕
爬蟲(chóng)發(fā)起抓取,httpcode返回碼是403
2、找不到頁(yè)面
爬蟲(chóng)發(fā)起抓取,httpcode返回碼是404
3、服務(wù)器錯(cuò)誤
爬蟲(chóng)發(fā)起抓取,httpcode返回碼是5XX
4、其他錯(cuò)誤
爬蟲(chóng)發(fā)起抓取,httpcode返回碼是4XX,不包括403和404