Archiwa tagu: cpu
FAQ: Jak zablokować konkretnym robotom dostęp do katalogu ?
Katalog stron ze względu na dużą ilość podstron i dosyć sporą ilość połączeń z bazą danych jest szczególnie narażony na bezmyślne ataki spam-robotów. Często takie akcje kończą się blokadą serwera za zbyt duże przekroczenie obciążenia CPU. Aby uchronić nasz katalog przed takimi sytuacjami możemy:
- włączyć Cache stron w PA -> Konfiguracja -> Cache
- zablokować niechciane roboty po ich nazwie i IP w pliku .htaccess
Aby to zrobić wystarczy w pliku .htaccess dodać kod:
SetEnvIfNoCase User-Agent .*Twiceler.* bad_bot SetEnvIfNoCase User-Agent .*VoilaBot BETA 1.2.* bad_bot SetEnvIfNoCase User-Agent .*libwww-perl/5.805.* bad_bot SetEnvIfNoCase User-Agent .*Java/1.5.0_11.* bad_bot SetEnvIfNoCase User-Agent .*Sogou web spider/3.0.* bad_bot SetEnvIfNoCase User-Agent .*psbot.* bad_bot SetEnvIfNoCase User-Agent .*Exabot.* bad_bot SetEnvIfNoCase User-Agent .*Charlotte/1.0b.* bad_bot SetEnvIfNoCase User-Agent .*boitho.com-dc.* bad_bot SetEnvIfNoCase User-Agent .*ajSitemap.* bad_bot SetEnvIfNoCase User-Agent .*bot/1.0.* bad_bot SetEnvIfNoCase User-Agent .*panscient.com.* bad_bot SetEnvIfNoCase User-Agent .*Java/1.6.0_11.* bad_bot SetEnvIfNoCase User-Agent .*WebDataCentreBot/1.0.* bad_bot SetEnvIfNoCase User-Agent .*Java.* bad_bot SetEnvIfNoCase User-Agent .*SapphireWebCrawler.* bad_bot SetEnvIfNoCase User-Agent .*Yandex.* bad_bot SetEnvIfNoCase User-Agent .*Baiduspider.* bad_bot SetEnvIfNoCase User-Agent .*Rankivabot.* bad_bot SetEnvIfNoCase User-Agent .*DBLBot/1.0.* bad_bot order allow,deny deny from env=bad_bot allow from all order allow,deny deny from 196.207.208.8 deny from 41.214.120.182 deny from 41.214.112.207 allow from all
Instrukcja:
Roboty po IP (znamy je np. ze statystyk) blokujemy w sekcji:
order allow,deny deny from 196.207.208.8 deny from 41.214.120.182 deny from 41.214.112.207 allow from all
Roboty po nazwie blokujemy w sekcji SetEnvIfNoCase User-Agent np:
SetEnvIfNoCase User-Agent .*DTS Agent.* bad_bot