|
|
|
|
|
一些爬蟲不斷的訪問網(wǎng)站,占用網(wǎng)站帶寬,對網(wǎng)站運行產(chǎn)生不利的影響。為此,我們可以屏蔽某些陌生的爬蟲訪問網(wǎng)站,杜絕其抓取網(wǎng)站內(nèi)容,從而節(jié)省帶寬,減輕服務器壓力。為達到這個目的,我們可以使用.htaccess文件來實現(xiàn)。
使用.htaccess阻止某些機器人爬蟲抓取網(wǎng)站
下面代碼檢查用戶代理字符串(即是UA),如果包含UptimeRobot關鍵詞,則返回403的禁止訪問提示。
#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*UptimeRobot.* [NC]
RewriteRule .* - [F]
上述代碼中,#號開頭表示這行是注釋行,[NC]是忽略字符大小寫的意思,[F]是Forbidden的首字母,即是禁止的意思。
如果要阻止多個機器人,則使用以下代碼:
#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Robot1.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot2.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot3.* [NC,OR]
RewriteRule .* - [F]
這將阻止3個不同的機器人,即“ Robot1”,“ Robot2”,“ Robot3”。用你要屏蔽的Robot UA關鍵詞替換它們,不要從列表中刪除“ [OR]”,它告訴服務器列表中還有更多。
本文介紹了如何使用.htaccess阻止某些機器人爬蟲訪問網(wǎng)站,如果想要阻止某IP(段)訪問網(wǎng)站,則可以看看此文使用.htaccess禁止某IP地址(段)訪問網(wǎng)站。