Baneando robots molestos

By Luigi Keynes on marzo 26th, 2009

Siguiendo con mi cruzada contra los robots molestos que usan inadecuadamente los recursos de mi servidor, hago un listado de la formas que hay para evitar su ingreso a los sites alojados en un servidor:

  1. Usar el archivo robots.txt: esta clase de robot suelen ignorar a este archivo.
  2. Identificar las IPs de estos robots y banearla manualmente en el archivo .htaccess o el la lista de IP deny del firewall del servidor (si es que se tiene acceso al mismo).
  3. Identificar el user agent y usar una regla en el archivo .htaccess o en el mod_security de apache.

Sobre este punto quiero detenerme, me pareció muy interesante hacer una regla en mod_security de apache para que cuando una ip intente ingresar a una página usando cierto user agent el sistema le denegue el acceso y además al hacer tres intentos la ip se incluya en la lista ip deny del firewall del servidor.

La regla para la familia de robots Nutch sería:

SecRule HTTP_User-Agent “Nutch-1.0-dev”

Se trata de un sistema con REDHAT Enterprise 4 i686, Cpanel y ConfigServer Security & Firewall, con apache 2 y php 5, y por supuesto con mod_security instalado.

Esta sería la regla para robot molesto que detecté en los últimos días:

SecRule HTTP_User-Agent “MJ12bot”

En este último caso se trata del Majestic 12.

No sé si son scappers o son bots de buscadores nuevos, pero son muy exhaustivos en el uso de los recursos de mis servidores.

Comparte:
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • BarraPunto
  • Bitacoras.com
  • LinkedIn
  • Meneame
  • MySpace
  • Twitter
  • Yahoo! Bookmarks
  • email
  • Live
  • RSS
  • Technorati

Posts Relacionados:

  1. SimilarPages/Nutch-1.0-dev: Un robot inútil y molesto
  2. Obama lanza una clara advertencia a los robots


Tags: , , , , ,
No Comments

Leave a Reply

You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Acceder con Facebook