Posts Tagged ‘robots’

Obama lanza una clara advertencia a los robots

By Luigi Keynes

Seguramente lo dijo en un tono de broma. Pero es muy interesante que un presidente tenga en cuenta estas cuestiones aunque sea para bromear. Creo que Obama es un presidente “buena onda” aunque su política económica sea realmente un desastre.

500x_obama-bots

La traducción sería algo así:

Como presidente, yo creo que la robótica puede inspirar a la gente joven a dedicarse a la ciencia y la ingeniería.

Y además, yo prestaré atención a esos robots en caso de que intenten algo.

Dijo estas palabras en la presentación de la campaña Educar para innovar.

Me hace acordar a Will Smith en “Yo, robot”.

Fuente: Gizmodo

Comparte:
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • BarraPunto
  • Bitacoras.com
  • LinkedIn
  • Meneame
  • MySpace
  • Twitter
  • Yahoo! Bookmarks
  • email
  • Live
  • RSS
  • Technorati

Baneando robots molestos

By Luigi Keynes

Siguiendo con mi cruzada contra los robots molestos que usan inadecuadamente los recursos de mi servidor, hago un listado de la formas que hay para evitar su ingreso a los sites alojados en un servidor:

  1. Usar el archivo robots.txt: esta clase de robot suelen ignorar a este archivo.
  2. Identificar las IPs de estos robots y banearla manualmente en el archivo .htaccess o el la lista de IP deny del firewall del servidor (si es que se tiene acceso al mismo).
  3. Identificar el user agent y usar una regla en el archivo .htaccess o en el mod_security de apache.

Sobre este punto quiero detenerme, me pareció muy interesante hacer una regla en mod_security de apache para que cuando una ip intente ingresar a una página usando cierto user agent el sistema le denegue el acceso y además al hacer tres intentos la ip se incluya en la lista ip deny del firewall del servidor.

La regla para la familia de robots Nutch sería:

SecRule HTTP_User-Agent “Nutch-1.0-dev”

Se trata de un sistema con REDHAT Enterprise 4 i686, Cpanel y ConfigServer Security & Firewall, con apache 2 y php 5, y por supuesto con mod_security instalado.

Esta sería la regla para robot molesto que detecté en los últimos días:

SecRule HTTP_User-Agent “MJ12bot”

En este último caso se trata del Majestic 12.

No sé si son scappers o son bots de buscadores nuevos, pero son muy exhaustivos en el uso de los recursos de mis servidores.

Comparte:
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • BarraPunto
  • Bitacoras.com
  • LinkedIn
  • Meneame
  • MySpace
  • Twitter
  • Yahoo! Bookmarks
  • email
  • Live
  • RSS
  • Technorati

Cuil, un nuevo buscador

By Luigi Keynes

Desde hoy hay un nuevo gran buscador en internet: Cuil, al menos eso prometen sus fundadores. Pero ya empezamos mal, en estos momentos no puedo acceder a la web, muchas consultas?

Se puede decir en cierta forma que se trata de un buscador familiar, ya que fue fundado por los esposos: Tom Costello (un profesor en la universidad de Stanford) y Anna Patterson (una ex empleada de Google).

El buscador promete dar mejores resultados que Google y cualquier otro servicio de búsqueda del mercado.

La gran diferencia entre Google y Cuil, es la forma de ordenar los resultados, mientras el primero utiliza un sistema basado principalmente en los links entrantes a cada página, el segundo analiza el contenido y es este el factor mas tenido en cuenta en este caso para ordenar los resultados.

Según Costello, el buscador es lanzado con 120 mil millones de páginas indexadas, muy por arriba de las 40 mil millones de Google, además afirma que Cuil es 3 veces más rápido que Google para indexar páginas.

Y acá me quiero detener un poco. Hace ya más de un año que sus robots estaban indexando la web, y son tan intensivos en sus acciones que me saturaron mis servidores varias veces, yo estaba dispuesto a “bancarlos”, les tenía Fe por decirlo de alguna forma, y le escribí a los encargados de la indexación, recuerdo que me contestaron y me dijeron que el problema estaba solucionado. Como sea, los problemas siguieron, sus robots eran tan rápidos que saturaban mis servidores con tantas consultas, finalmente decidí banear mediante los firewalls las ips de sus robots, ahora me toca analizar si doy marcha atrás con esta medida.

Veremos que pasa con Cuil, espero que mejoren el problema que comentaba arriba, porque sinceramente el mercado de las búsquedas online necesita urgente competencia de verdad.

Más info en WebmasterWorld

Comparte:
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • BarraPunto
  • Bitacoras.com
  • LinkedIn
  • Meneame
  • MySpace
  • Twitter
  • Yahoo! Bookmarks
  • email
  • Live
  • RSS
  • Technorati