Click acá para ir directamente al contenido
¿Qué es robots.txt y cómo debo usarlo en mi sitio web?

¿Qué es robots.txt y cómo debo usarlo en mi sitio web?

El archivo robots.txt entrega instrucciones a los bots que rastrean páginas web, para indicarles a qué pueden acceder y a qué no. Entre los bots más importantes están los de motores de búsqueda como Google, que permiten que los contenidos del sitio aparezcan en los resultados de búsqueda.

<

El archivo robots.txt es un documento con instrucciones para los bots que visitan tu sitio web. Este archivo está diseñado para indicar a los bots rastreadores cómo comportarse en el sitio, indicando las reglas que se deben cumplir. Es un archivo de tipo consultivo, es decir, no puede obligar a los bots a comportarse de cierta manera, sino que se espera que los bots que provienen de lugares respetables sigan las reglas estipuladas en el documento. Sin embargo, puede haber bots perjudiciales que decidan no acatarlas.

¿Qué es un bot?

Un bot es un programa automatizado que realiza ciertas tareas predefinidas. Hay bots con fines benévolos, y otros que son maliciosos, que pueden tener fines perjudiciales como realizar spam o plagiar contenidos, por ejemplo.

Entre los bots beneficiosos están los que corresponden a los motores de búsqueda, como Google. En este caso, Google envía muchos bots a visitar sitios web para obtener información sobre ellos y determinar si esos contenidos deberían aparecer en los resultados de búsqueda. Los bots rastrean las páginas y agregan la información contenida en ellas a su índice, en un proceso conocido como indexación.

El archivo robots.txt puede moderar las actividades de los bots para evitar que sobrecarguen al servidor que aloja al sitio, o evitar que se indexen páginas que son privadas y no deberían ser vistas por el público.

¿Cómo funciona robots.txt?

El archivo robots.txt es un archivo de texto (txt) y se aloja en el servidor donde está el sitio web. Es un archivo público que se puede ver normalmente escribiendo "robots.txt" a continuación de la dirección de un sitio, por ejemplo /robots.txt. El archivo no es de utilidad para las personas que visitan un sitio, pero los bots rastreadores saben ubicarlo antes de comenzar a hacer su trabajo de rastreo.

El archivo robots.txt no puede obligar a los bots a cumplir con sus instrucciones, pero se espera que estos las respeten. Un bot que opera correctamente buscará el documento y revisará las instrucciones antes de visitar cualquier otra página de un sitio web. Un bot malicioso ignorará el archivo y ejecutará sus tareas programadas sin tomar en cuenta lo que diga el archivo.

Protocolos de robots.txt

Los protocolos son formatos utilizados para entregar las instrucciones a los bots. El principal protocolo utilizado por robots.txt es el "Protocolo de exclusión de bots", que indica a los bots qué páginas o recursos debe evitar. El otro protocolo utilizado es Sitemaps, que indica a los bots dónde se puede encontrar el archivo con las páginas que sí puede rastrear.

Un sitio web puede tener uno o más sitemaps o mapas de sitio. Se trata de archivos XML que incluyen un listado de todas las páginas del sitio que queremos que los bots rastreen. Esto facilita la tarea a los bots para encontrar todas las páginas importantes del sitio.

Instrucciones en robots.txt

  • User Agent: El "agente de usuario" o user agent se refiere al nombre asignado a los bots, lo que permite a los administradores de un sitio web saber qué tipo de bots están rastreando el sitio. En el archivo robots.txt, los administradores pueden entregar instrucciones para determinados bots, agregando su nombre. Por ejemplo, para Google deberá decir "User-agent: Googlebot", y luego la lista de instrucciones que daremos para ese bot específico.
    Si se quiere dar instrucciones generales, se puede utilizar "User-agent: *". El asterisco es utilizado para referirse a "cualquiera".
  • Disallow: Es el comando más habitual, e indica a los bots que no accedan a ciertas páginas o conjuntos de páginas. Disallow se puede utilizar para bloquear páginas específicas o directorios completos. Las páginas incluidas en este listado no necesariamente están ocultas, solo se indica que no son útiles para que aparezcan en Google o Bing, por ejemplo. Si quieres ocultar información que puede ser sensible, es mejor que utilices otros métodos de bloqueo, como por ejemplo proteger con una contraseña los archivos privados.
  • Allow: Al revés del comando anterior, indica que las páginas o directorio del sitio web a las que los bots pueden acceder, bloqueando lo demás. Es menos utilizado y no todos los motores de búsqueda lo reconocen.
  • Crawl-delay: Permite solicitar a los bots que esperen una cantidad de tiempo entre una solicitud y otra. La idea es evitar que el servidor se sobrecargue con solicitudes de bots. Google no reconoce este comando, aunque sí lo hacen otros rastreadores. En el caso de Google, se puede especificar esta información a través de Google Search Console.
    Tampoco será muy útil para gestionar tráfico de bots maliciosos, que no respetarán el archivo robots.txt. En estos casos, se requiere de herramientas especiales que bloqueen este tipo de actividad.

Comencemos a trabajar juntos

Cotiza tu proyecto con nosotros. Podemos acompañarte en el proceso y llevar tus ideas a la web.

Contáctanos