Pasar al contenido principal

Barinas: Google te visita con su "GoogleBot"

Es conocido que Google utiliza un programa automático, que recorre las redes y registra e indexa las páginas que encuentra. Registra páginas de diversos orígenes, pdf, doc, html, htm, php, asp, aspx, xml, swf, etc.


El robot de Google, Googlebot, no revisa todos los aspectos del sitio a la vez, sino que reparte sus tareas y en cada visita revisará un aspecto de la página que no había revisado antes.


Esta actividad se puede comprobar fácilmente haciendo el seguimiento, por unos meses de los informes que Google indica sobre un sitio. Informa en una fecha sobre determinado error o realiza alguna advertencia, aún cuando se corrigen, la próxima visita del robot, no indica ningún cambio en la advertencia, evidentemente porque ha pasado a realizar otro tipo de comprobación, luego de un tiempo, en visitas futuras, notaremos que registra el cambio que hemos realizado.

Esa esta demora en la comprobación de procedimientos penalizables es lo que aprovechan algunos SEO posicionamiento para sus técnicas BlackHat, mientras el robot está “distraído” con otras comprobaciones, aprovechan para cometer algunas actividades que saben que están expresamente prohibidas por Google. Algunos informes respecto al análisis de la frecuencia con que Google visita una página indican que se vería beneficiado por un indicador llamado PageRank. A mayor PageRank, mayor es la cantidad de visitas que recibe la página, tal indicación no parece ser comprobable, de manera que lo tomo como una opinión con reservas.


Una forma de comprobación es accediendo al “cache” de una página cuando aparece en una búsqueda, sin embargo tiendo a creer que las posibilidades de investigación de una persona está sesgada por el rubro, el tema o el volumen de posible investigación. Sobre todo con la tendencia del diseño de sitios dinámicos, en donde tanto lo que se muestra en el cache, como la página misma salvo el cambio de archivos, en cuanto a contenidos, mostrarán lo mismo. Por otra parte los sitios en Flash que permanecen con un diseño estable, tampoco se ven diferentes en las páginas cache, ya que esas páginas muestran lo mismo que el propio sitio.  Otro método es simplemente incorporar un contador a la página que se quiere hacer el seguimiento y registrar fecha y hora del paso del GoogleBot por el sitio.


Entre las actividades del robot, se encuentra la de rastrear las páginas, los cambios en las mismas o las páginas agregadas, para facilitar  la actividad, se puede construir un archivo de nombre robot.txt en el cual se le indica al robot las páginas nuevas, e incluso se puede agregar áreas del sitio que no queremos que sean clasificadas por el Google.


Aspectos sobre la construcción de ese archivo se puede consultar en: www.robotstxt.org.

Últimamente he recibido consultas sobre los sitios Web 2.0, por ser un tipo de sitio que contiene muchos temas, y cuya actividad es caótica en el tiempo, en lo referente a ese tipo de sitio, cuyos cambios son asíduos e impredecibles, hay procesos especiales para su clasificación, este proceso se denomina: FreshBot, y lo que hace es rastrear con mayor frecuencia los sitios webs con las noticia, no sólo por Web 2.0, sino por webs de diarios y sitios de noticias.

Ana Abregú
Argentina

Nota:  Gracias Anita por tu interesante artículo de tecnología y felicitaciones por tus excelentes sitios Web desde Argentina. ¡Bienvenida a esta familia virtual!

Añadir nuevo comentario

El contenido de este campo se mantiene privado y no se mostrará públicamente.

Plain text

  • No se permiten etiquetas HTML.
  • Saltos automáticos de líneas y de párrafos.
  • Las direcciones de correos electrónicos y páginas web se convierten en enlaces automáticamente.