Posts Tagged ‘similarpages’

SimilarPages/Nutch-1.0-dev: Un robot inútil y molesto

By Luigi Keynes

No se que es lo que pasa con el servicio de Hosting y Servidores dedicados de Amazon (AmazonAws), pero cada vez noto una mayor cantidad de robot inútiles y molestos alojados en esos servidores. Seguramente se trata de scrappers o basuras de esas clases.

En los últimos días IPs identificadas con el robot SimilarPages/Nutch-1.0-dev, han estado saturando mi servidor y consumiendo una cantidad considerable de ancho de banda.

logohometemp

Probé configurando los archivos robots.txt para evitarle el acceso a las webs a este robot, pero fue imposible, el robot seguía molestando. Además, estas ips no tienen el comportamiento de un “robot bueno” ya que hace un uso demasiado abusivo de los recursos del servidor, por medio de consultas con gran frecuencia y recurrencia. Para rematar, ingreso a la web de estos robots la cual encontré en el encabezado de las ips (User Agent Details for “SimilarPages/Nutch-1.0-dev (SimilarPages Nutch Crawler; http://www.similarpages.com; info at similarpages dot com)”) y me encuentro sólo con un logo, y no hay ningún servicio de búsqueda ni nada que se le parezca, evidentemente este robot anda en algo raro y probablemente malo, no es un buscador, eso está claro.

Ante esto, la única solución era banear las ips mediante .htaccess o firewall, personalmente prefiero la segunda opción, además de que me resulta mucho mas rápido de implementar. Pero tenía un poco miedo de estar baneando los webservices de Amazon, que uso en algunas páginas para mostrar productos de esta empresa.

Pero investigué mas a fondo, y vi que esta empresa también brinda servicios de alojamiento web a terceros, y estos robots molestos utilizan estos servidores. Así que podía banearlos sin problemas. Confeccioné una lista con las ips correspondientes a estos robots que encontré en esta página y la agregué al listado de ips que tienen acceso denegado a mi servidor, aunque antes me preocupé en agregar luego de cada ip lo siguiente ” # SimilarPages bot”, quedando algo así: “xxx.xxx.xxx.xx # SimilarPages bot”, esto a los efectos de identificar fácilmente a las ips en caso de tener que volverles a otorgar acceso al servidor.

Por ahora, problema solucionado.

Comparte:
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • BarraPunto
  • Bitacoras.com
  • LinkedIn
  • Meneame
  • MySpace
  • Twitter
  • Yahoo! Bookmarks
  • email
  • Live
  • RSS
  • Technorati