技術頻道導航
HTML/CSS
.NET技術
IIS技術
PHP技術
Js/JQuery
Photoshop
Fireworks
服務器技術
操作系統(tǒng)
網(wǎng)站運營

贊助商

分類目錄

贊助商

最新文章

搜索

使用.htaccess阻止某些機器人爬蟲訪問網(wǎng)站

作者:admin    時間:2021-3-13 0:22:25    瀏覽:

一些爬蟲不斷的訪問網(wǎng)站,占用網(wǎng)站帶寬,對網(wǎng)站運行產(chǎn)生不利的影響。為此,我們可以屏蔽某些陌生的爬蟲訪問網(wǎng)站,杜絕其抓取網(wǎng)站內(nèi)容,從而節(jié)省帶寬,減輕服務器壓力。為達到這個目的,我們可以使用.htaccess文件來實現(xiàn)。

 使用.htaccess阻止某些機器人爬蟲抓取網(wǎng)站

使用.htaccess阻止某些機器人爬蟲抓取網(wǎng)站

下面代碼檢查用戶代理字符串(即是UA),如果包含UptimeRobot關鍵詞,則返回403的禁止訪問提示。

#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*UptimeRobot.* [NC]
RewriteRule .* - [F]

上述代碼中,號開頭表示這行是注釋行,[NC]是忽略字符大小寫的意思,[F]是Forbidden的首字母,即是禁止的意思。

如果要阻止多個機器人,則使用以下代碼:

#get rid of the bad bot
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Robot1.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot2.* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Robot3.* [NC,OR]
RewriteRule .* - [F]

這將阻止3個不同的機器人,即“ Robot1”,“ Robot2”,“ Robot3”。用你要屏蔽的Robot UA關鍵詞替換它們,不要從列表中刪除“ [OR]”,它告訴服務器列表中還有更多。

本文介紹了如何使用.htaccess阻止某些機器人爬蟲訪問網(wǎng)站,如果想要阻止某IP(段)訪問網(wǎng)站,則可以看看此文使用.htaccess禁止某IP地址(段)訪問網(wǎng)站。

標簽: htaccess  
x
  • 站長推薦
/* 左側(cè)顯示文章內(nèi)容目錄 */