SimilarPages/Nutch-1.0-dev: Un robot inútil y molesto

By Luigi Keynes on marzo 12th, 2009

No se que es lo que pasa con el servicio de Hosting y Servidores dedicados de Amazon (AmazonAws), pero cada vez noto una mayor cantidad de robot inútiles y molestos alojados en esos servidores. Seguramente se trata de scrappers o basuras de esas clases.

En los últimos días IPs identificadas con el robot SimilarPages/Nutch-1.0-dev, han estado saturando mi servidor y consumiendo una cantidad considerable de ancho de banda.

logohometemp

Probé configurando los archivos robots.txt para evitarle el acceso a las webs a este robot, pero fue imposible, el robot seguía molestando. Además, estas ips no tienen el comportamiento de un “robot bueno” ya que hace un uso demasiado abusivo de los recursos del servidor, por medio de consultas con gran frecuencia y recurrencia. Para rematar, ingreso a la web de estos robots la cual encontré en el encabezado de las ips (User Agent Details for “SimilarPages/Nutch-1.0-dev (SimilarPages Nutch Crawler; http://www.similarpages.com; info at similarpages dot com)”) y me encuentro sólo con un logo, y no hay ningún servicio de búsqueda ni nada que se le parezca, evidentemente este robot anda en algo raro y probablemente malo, no es un buscador, eso está claro.

Ante esto, la única solución era banear las ips mediante .htaccess o firewall, personalmente prefiero la segunda opción, además de que me resulta mucho mas rápido de implementar. Pero tenía un poco miedo de estar baneando los webservices de Amazon, que uso en algunas páginas para mostrar productos de esta empresa.

Pero investigué mas a fondo, y vi que esta empresa también brinda servicios de alojamiento web a terceros, y estos robots molestos utilizan estos servidores. Así que podía banearlos sin problemas. Confeccioné una lista con las ips correspondientes a estos robots que encontré en esta página y la agregué al listado de ips que tienen acceso denegado a mi servidor, aunque antes me preocupé en agregar luego de cada ip lo siguiente ” # SimilarPages bot”, quedando algo así: “xxx.xxx.xxx.xx # SimilarPages bot”, esto a los efectos de identificar fácilmente a las ips en caso de tener que volverles a otorgar acceso al servidor.

Por ahora, problema solucionado.

Comparte:
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • BarraPunto
  • Bitacoras.com
  • LinkedIn
  • Meneame
  • MySpace
  • Twitter
  • Yahoo! Bookmarks
  • email
  • Live
  • RSS
  • Technorati

Posts Relacionados:

  1. Baneando robots molestos
  2. Obama lanza una clara advertencia a los robots


Tags: , , ,
3 Comments
  1. 23 marzo 2009 en 13:26

    Yo también recibí su visita pero no me causó ningún problema que yo sepa.

    Estuve investigando y sólo averigüé que estaban buscando financiación.
    http://blogdetecnologias.com/2009/03/11/similarpagescom/

    Si me causa problemas los banearía por htaccess a mi me resulta más cómoda esa forma.

  2. 24 marzo 2009 en 15:02

    [...] unos días les comentaba que un bot, con su comportamiento molesto y abusivo, estaba generando problemas en uno de mis [...]

  3. 26 marzo 2009 en 17:18

    [...] con mi cruzada contra los robots molestos que usan inadecuadamente los recursos de mi servidor, hago un listado de la formas que hay para [...]

Leave a Reply

You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Acceder con Facebook