Siguiendo con mi cruzada contra los robots molestos que usan inadecuadamente los recursos de mi servidor, hago un listado de la formas que hay para evitar su ingreso a los sites alojados en un servidor:
- Usar el archivo robots.txt: esta clase de robot suelen ignorar a este archivo.
- Identificar las IPs de estos robots y banearla manualmente en el archivo .htaccess o el la lista de IP deny del firewall del servidor (si es que se tiene acceso al mismo).
- Identificar el user agent y usar una regla en el archivo .htaccess o en el mod_security de apache.
Sobre este punto quiero detenerme, me pareció muy interesante hacer una regla en mod_security de apache para que cuando una ip intente ingresar a una página usando cierto user agent el sistema le denegue el acceso y además al hacer tres intentos la ip se incluya en la lista ip deny del firewall del servidor.
La regla para la familia de robots Nutch sería:
SecRule HTTP_User-Agent “Nutch-1.0-dev”
Se trata de un sistema con REDHAT Enterprise 4 i686, Cpanel y ConfigServer Security & Firewall, con apache 2 y php 5, y por supuesto con mod_security instalado.
Esta sería la regla para robot molesto que detecté en los últimos días:
SecRule HTTP_User-Agent “MJ12bot”
En este último caso se trata del Majestic 12.
No sé si son scappers o son bots de buscadores nuevos, pero son muy exhaustivos en el uso de los recursos de mis servidores.

Comentarios recientes