Contactos

Cómo editar el archivo txt de robots. Cómo editar un archivo txt de robots Crear un archivo txt de robot

Este artículo contiene un ejemplo del código óptimo, en mi opinión, para el archivo robots.txt para WordPress, que puede utilizar en sus sitios web.

Para empezar, recordemos ¿Por qué necesitas robots.txt?- el archivo robots.txt es necesario exclusivamente para que los robots de búsqueda “les indiquen” qué secciones/páginas del sitio visitar y cuáles no. Las páginas cuyas visitas están cerradas no se incluirán en el índice de los motores de búsqueda (Yandex, Google, etc.).

Opción 1: código robots.txt óptimo para WordPress

Agente de usuario: * No permitir: /cgi-bin # clásico... No permitir: /? # todos los parámetros de consulta en la página principal No permitir: /wp- # todos los archivos WP: /wp-json/, /wp-includes, /wp-content/plugins No permitir: *?s= # búsqueda No permitir: *&s= # búsqueda No permitir: /search # buscar No permitir: /author/ # archivo de autor No permitir: */embed # todas las incrustaciones No permitir: */page/ # todos los tipos de paginación Permitir: */uploads # cargas abiertas Permitir: /*/*.js # dentro de /wp - (/*/ - para prioridad) Permitir: /*/*.css # dentro de /wp- (/*/ - para prioridad) Permitir: /wp-*.png # imágenes en complementos, carpeta de caché, etc. . Permitir: /wp-*.jpg # imágenes en complementos, carpeta de caché, etc. Permitir: /wp-*.jpeg # imágenes en complementos, carpeta de caché, etc. Permitir: /wp-*.gif # imágenes en complementos, carpeta de caché, etc. Permitir: /wp-*.svg # imágenes en complementos, carpeta de caché, etc. Permitir: /wp-*.pdf # archivos en complementos, carpeta de caché, etc. Permitir: /wp-admin/admin-ajax.php #Disallow: /wp/ # cuando WP está instalado en el subdirectorio wp Mapa del sitio: http://example.com/sitemap.xml Mapa del sitio: http://example.com/ sitemap2.xml # otro archivo #Sitemap: http://example.com/sitemap.xml.gz # versión comprimida (.gz) # Versión del código: 1.1 # No olvides cambiar `site.ru` a tu sitio.

Análisis de código:

    En la línea User-agent: * indicamos que todas las reglas siguientes funcionarán para todos los robots de búsqueda *. Si necesita que estas reglas funcionen solo para un robot específico, en lugar de * indicamos el nombre del robot (Agente de usuario: Yandex, Agente de usuario: Googlebot).

    En la línea Permitir: */uploads, permitimos intencionalmente que se indexen páginas que contienen /uploads. Esta regla es obligatoria, porque arriba prohibimos indexar páginas que comiencen con /wp-, y /wp- incluido en /wp-content/subidas. Por lo tanto, para anular la regla Disallow: /wp-, necesita la línea Allow: */uploads, porque para enlaces como /wp-content/subidas/... Es posible que tengamos imágenes que deban indexarse ​​y también puede que haya algunos archivos descargados que no es necesario ocultar. Permitir: puede ser "antes" o "después" No permitir: .

    Las líneas restantes prohíben a los robots "seguir" enlaces que comienzan con:

    • No permitir: /cgi-bin: cierra el directorio de scripts en el servidor
    • Disallow: /feed - cierra la fuente RSS del blog
    • No permitir: /trackback - cierra notificaciones
    • No permitir: ?s= o No permitir: *?s= - cierra las páginas de búsqueda
    • Disallow: */page/ - cierra todos los tipos de paginación
  1. La regla del mapa del sitio: http://example.com/sitemap.xml apunta al robot a un archivo con un mapa del sitio en formato XML. Si tiene un archivo de este tipo en su sitio, escriba la ruta completa. Puede haber varios archivos de este tipo, luego indicamos la ruta a cada uno por separado.

    En la línea Host: site.ru indicamos el espejo principal del sitio. Si un sitio tiene espejos (copias del sitio en otros dominios), para que Yandex los indexe todos por igual, debe especificar el espejo principal. Directiva del anfitrión: ¡solo Yandex entiende, Google no entiende! Si el sitio opera bajo el protocolo https, entonces se debe especificar en Host: Host: http://example.com

    De la documentación de Yandex: "El host es una directiva independiente y funciona en cualquier parte del archivo (interseccional)". Por tanto, lo colocamos en la parte superior o al final del archivo, a través de una línea vacía.

Porque la presencia de feeds abiertos es necesaria, por ejemplo, para Yandex Zen, cuando es necesario conectar un sitio a un canal (gracias al comentarista "Digital"). Quizás se necesiten feeds abiertos en otros lugares.

Al mismo tiempo, los feeds tienen su propio formato en los encabezados de respuesta, gracias a lo cual los motores de búsqueda entienden que no se trata de una página HTML, sino un feed y, obviamente, lo procesan de alguna manera diferente.

La directiva Host ya no es necesaria para Yandex

Yandex abandona por completo la directiva Host y la reemplaza por una redirección 301. El host se puede eliminar de forma segura del archivo robots.txt. Sin embargo, es importante que todos los espejos del sitio tengan una redirección 301 al sitio principal (espejo principal).

Esto es importante: reglas de clasificación antes del procesamiento.

Yandex y Google procesan las directivas Permitir y No permitir no en el orden en que se especifican, sino que primero las clasifican de regla corta a larga y luego procesan la última regla coincidente:

Agente de usuario: * Permitir: */uploads No permitir: /wp-

se leerá como:

Agente de usuario: * No permitir: /wp- Permitir: */uploads

Para comprender y aplicar rápidamente la función de clasificación, recuerde esta regla: “cuanto más larga sea la regla en robots.txt, mayor prioridad tendrá. Si la longitud de las reglas es la misma, entonces se da prioridad a la directiva Allow."

Opción 2: robots.txt estándar para WordPress

¡No sé por qué, pero estoy a favor de la primera opción! Porque es más lógico: no es necesario duplicar completamente la sección para indicar la directiva Host para Yandex, que es interseccional (el robot lo entiende en cualquier parte de la plantilla, sin indicar a qué robot se refiere). En cuanto a la directiva Permitir no estándar, funciona para Yandex y Google, y si no abre la carpeta de carga para otros robots que no la entienden, en el 99% de los casos esto no implicará nada peligroso. Todavía no me he dado cuenta de que los primeros robots no funcionan como deberían.

El código anterior es un poco incorrecto. Gracias al comentarista " " por señalar la incorrección, aunque tuve que descubrir qué era yo mismo. Y esto es lo que se me ocurrió (podría estar equivocado):

    Algunos robots (no Yandex ni Google) no comprenden más de 2 directivas: Agente de usuario: y No permitir:

  1. La directiva Yandex Host: debe usarse después de Disallow:, porque es posible que algunos robots (no Yandex ni Google) no la comprendan y generalmente rechacen el archivo robots.txt. A Yandex, a juzgar por la documentación, no le importa en absoluto dónde y cómo usar Host:, incluso si generalmente crea robots.txt con una sola línea Host: www.site.ru para unir todos los espejos del sitio.

3. Mapa del sitio: una directiva interseccional para Yandex y Google y aparentemente también para muchos otros robots, por lo que lo escribimos al final con una línea vacía y funcionará para todos los robots a la vez.

Según estas modificaciones, el código correcto debería verse así:

Agente de usuario: Yandex No permitir: /wp-admin No permitir: /wp-includes No permitir: /wp-content/plugins No permitir: /wp-json/ No permitir: /wp-login.php No permitir: /wp-register.php No permitir: */embed No permitir: */page/ No permitir: /cgi-bin No permitir: *?s= Permitir: /wp-admin/admin-ajax.php Host: site.ru Agente de usuario: * No permitir: /wp-admin No permitir : /wp-includes No permitir: /wp-content/plugins No permitir: /wp-json/ No permitir: /wp-login.php No permitir: /wp-register.php No permitir: */embed No permitir: */page/ No permitir: / cgi-bin No permitir: *?s= Permitir: /wp-admin/admin-ajax.php Mapa del sitio: http://example.com/sitemap.xml

Agreguémoslo por nosotros mismos

Si necesita bloquear otras páginas o grupos de páginas, puede agregar una regla (directiva) a continuación Rechazar:. Por ejemplo, necesitamos cerrar todas las entradas de una categoría para que no se indexen. noticias, entonces antes Mapa del sitio: agregar una regla:

No permitir: /noticias

Impide que los robots sigan dichos enlaces:

  • http://ejemplo.com/noticias
  • http://example.com/news/drugoe-nazvanie/

Si necesita cerrar cualquier aparición de /news, escriba:

No permitir: */noticias

  • http://ejemplo.com/noticias
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Puede estudiar las directivas de robots.txt con más detalle en la página de ayuda de Yandex (pero tenga en cuenta que no todas las reglas descritas allí funcionan para Google).

Verificación y documentación de Robots.txt

Puede comprobar si las reglas prescritas funcionan correctamente utilizando los siguientes enlaces:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • En Google esto se hace en Consola de búsqueda. Necesita autorización y la presencia del sitio en el panel de webmaster...
  • Servicio para crear un archivo robots.txt: http://pr-cy.ru/robots/
  • Servicio para crear y verificar robots.txt: https://seolib.ru/tools/generate/robots/

Le pregunté a Yandex...

Hice una pregunta en tecnología. Soporte de Yandex con respecto al uso interseccional de las directivas Host y Sitemap:

Pregunta:

¡Hola!
Estoy escribiendo un artículo sobre robots.txt en mi blog. Me gustaría recibir respuesta a esta pregunta (no encontré un “sí” claro en la documentación):

Si necesito pegar todos los espejos y para ello uso la directiva Host al principio del archivo robots.txt:

Anfitrión: site.ru Usuario-agente: * No permitir: /asd

¿Host: site.ru funcionará correctamente en este ejemplo? ¿Indicará esto a los robots que site.ru es el espejo principal? Aquellos. Utilizo esta directiva no en una sección, sino por separado (al principio del archivo) sin indicar a qué agente de usuario se refiere.

También quería saber si la directiva Sitemap debe usarse dentro de una sección o puede usarse fuera: por ejemplo, a través de una línea vacía, después de la sección.

Agente de usuario: Yandex No permitir: /asd Agente de usuario: * No permitir: /asd Mapa del sitio: http://example.com/sitemap.xml

¿Entenderá el robot la directiva Sitemap en este ejemplo?

Espero recibir una respuesta tuya que acabe con mis dudas.

Respuesta:

¡Hola!

Las directivas Host y Sitemap son interseccionales, por lo que el robot las utilizará independientemente del lugar del archivo robots.txt donde se especifiquen.

--
Atentamente, Platón Shchukin
Servicio de soporte Yandex

Conclusión

Es importante recordar que los cambios en el archivo robots.txt en un sitio que ya funciona solo se notarán después de varios meses (2-3 meses).

Hay rumores de que Google a veces puede ignorar las reglas del archivo robots.txt y incluir una página en el índice si considera que es única y útil y simplemente debe estar en el índice. Sin embargo, otros rumores refutan esta hipótesis porque los optimizadores sin experiencia pueden especificar incorrectamente las reglas en robots.txt y, por lo tanto, cerrar las páginas necesarias para que no se indexen y dejar las innecesarias. Me inclino más por la segunda suposición...

Robots dinámicos.txt

En WordPress, la solicitud del archivo robots.txt se procesa por separado y no es necesario crear físicamente un archivo robots.txt en la raíz del sitio; además, esto no se recomienda, porque con este enfoque será Es muy difícil para los complementos cambiar este archivo y, a veces, esto es necesario.

Lea sobre cómo funciona la creación dinámica de un archivo robots.txt en la descripción de la función y, a continuación, le daré un ejemplo de cómo puede cambiar el contenido de este archivo sobre la marcha, a través de un gancho.

Para hacer esto, agregue el siguiente código a su archivo funciones.php:

Add_action("do_robotstxt", "mi_robotstxt"); function my_robotstxt())( $lines = [ "Agente de usuario: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // finalizar el trabajo de PHP)

Agente de usuario: * No permitir: /wp-admin/ No permitir: /wp-includes/

Retraso de rastreo: tiempo de espera para robots locos (no se tiene en cuenta desde 2018)

yandex

Después de analizar las cartas enviadas a nuestro soporte durante los últimos dos años sobre problemas de indexación, descubrimos que una de las razones principales de la descarga lenta de documentos es una directiva de retraso de rastreo configurada incorrectamente en robots.txt […] Para que los propietarios de sitios ya no Tenemos que preocuparnos por esto y para garantizar que todas las páginas del sitio web realmente necesarias aparezcan y se actualicen rápidamente en la búsqueda, decidimos abandonar la directiva Crawl-delay.

Cuando el robot Yandex escanea el sitio como loco y esto crea una carga innecesaria en el servidor. Puedes pedirle al robot que "reduzca la velocidad".

Para hacer esto, necesita usar la directiva Crawl-delay. Indica el tiempo en segundos que el robot debe estar inactivo (esperar) para escanear cada página posterior del sitio.

Para compatibilidad con robots que no siguen bien el estándar robots.txt, se debe especificar el retraso de rastreo en el grupo (en la sección Usuario-Agente) inmediatamente después de No permitir y Permitir.

Yandex Robot comprende valores fraccionarios, por ejemplo, 0,5 (medio segundo). Esto no garantiza que el robot de búsqueda visite su sitio cada medio segundo, pero le permite acelerar el rastreo del sitio.

Agente de usuario: Yandex No permitir: /wp-admin No permitir: /wp-includes Retraso de rastreo: 1,5 # tiempo de espera 1,5 segundos Agente de usuario: * No permitir: /wp-admin No permitir: /wp-includes Permitir: /wp-* . gif Retraso de rastreo: 2 # tiempo de espera 2 segundos

Google

El robot de Google no comprende la directiva de retraso de rastreo. El tiempo de espera de sus robots se puede especificar en el panel del webmaster.

En el servicio avi1.ru ahora puede comprar la promoción SMM en más de 7 de las redes sociales más populares. Al mismo tiempo, preste atención al costo bastante bajo de todos los servicios del sitio.

Navegación rápida en esta página:

La realidad moderna es que en RuNet, ningún sitio que se precie puede prescindir de un archivo llamado robots.txt, incluso si no tiene nada que prohíba la indexación (aunque casi todos los sitios tienen páginas técnicas y contenido duplicado que requieren cerrarse de la indexación). ), entonces, como mínimo, definitivamente vale la pena registrar una directiva con www y sin www para Yandex; para esto existen las reglas para escribir robots.txt, que se analizarán a continuación.

¿Qué es robots.txt?

Un archivo con este nombre data de 1994, cuando el consorcio W3C decidió introducir un estándar de este tipo para que los sitios pudieran proporcionar instrucciones de indexación a los motores de búsqueda.

Un archivo con este nombre debe guardarse en el directorio raíz del sitio; no se permite colocarlo en ninguna otra carpeta.

El archivo realiza las siguientes funciones:

  1. prohíbe la indexación de páginas o grupos de páginas
  2. permite indexar cualquier página o grupo de páginas
  3. indica al robot Yandex qué espejo del sitio es el principal (con www o sin www)
  4. muestra la ubicación del archivo del mapa del sitio

Los cuatro puntos son extremadamente importantes para la optimización de motores de búsqueda de sitios web. El bloqueo de la indexación le permite bloquear la indexación de páginas que contienen contenido duplicado, por ejemplo, páginas de etiquetas, archivos, resultados de búsqueda, páginas con versiones imprimibles, etc. La presencia de contenido duplicado (cuando el mismo texto, incluso en el tamaño de varias frases, está presente en dos o más páginas) es un punto negativo para el sitio en el ranking de los motores de búsqueda, por lo que debe haber la menor cantidad de duplicados posible.

La directiva permitir no tiene un significado independiente, ya que de forma predeterminada todas las páginas ya están disponibles para indexar. Funciona junto con Disallow, cuando, por ejemplo, una determinada categoría está completamente cerrada de los motores de búsqueda, pero le gustaría abrir esta o una página separada en ella.

Señalar el espejo principal del sitio es también uno de los elementos más importantes en la optimización: los motores de búsqueda ven los sitios www.yoursite.ru y yoursite.ru como dos recursos diferentes, a menos que usted les indique directamente lo contrario. El resultado es una duplicación del contenido: la aparición de duplicados, una disminución en la fuerza de los enlaces externos (los enlaces externos se pueden colocar tanto con www como sin www) y, como resultado, esto puede conducir a una clasificación más baja en los resultados de búsqueda.

Para Google, el espejo principal está registrado en las Herramientas para webmasters (http://www.google.ru/webmasters/), pero para Yandex estas instrucciones solo se pueden registrar en el mismo robots.tkht.

Apuntar a un archivo xml con un mapa del sitio (por ejemplo, sitemap.xml) permite a los motores de búsqueda detectar este archivo.

Reglas para especificar el agente de usuario

El usuario-agente en este caso es el motor de búsqueda. Al escribir instrucciones, debe indicar si se aplicarán a todos los motores de búsqueda (en cuyo caso se indica con un asterisco - *) o si están destinados a un motor de búsqueda específico, por ejemplo, Yandex o Google.

Para configurar un agente de usuario que indique todos los robots, escriba la siguiente línea en su archivo:

Agente de usuario: *

Para Yandex:

Agente de usuario: Yandex

Para Google:

Agente de usuario: GoogleBot

Reglas para especificar no permitir y permitir

En primer lugar, cabe señalar que el archivo robots.txt debe contener al menos una directiva disallow para que sea válido. Ahora veamos la aplicación de estas directivas usando ejemplos específicos.

Con este código, permite la indexación de todas las páginas del sitio:

Agente de usuario: * No permitir:

Y con este código, por el contrario, se cerrarán todas las páginas:

Agente de usuario: * No permitir: /

Para prohibir la indexación de un directorio específico llamado carpeta, especifique:

Agente de usuario: * No permitir: /carpeta

También puedes utilizar asteriscos para sustituir un nombre arbitrario:

Agente de usuario: * No permitir: *.php

Importante: el asterisco reemplaza el nombre completo del archivo, es decir, no puede especificar el archivo*.php, solo *.php (pero todas las páginas con la extensión .php estarán prohibidas; para evitar esto, puede especificar una dirección de página específica) .

La directiva permitir, como se indicó anteriormente, se usa para crear excepciones en no permitir (de lo contrario, no tiene significado, ya que las páginas ya están abiertas de forma predeterminada).

Por ejemplo, prohibiremos que se indexen las páginas de la carpeta de archivo, pero dejaremos abierta la página index.html de este directorio:

Permitir: /archive/index.html No permitir: /archive/

Especifique el host y el mapa del sitio

El host es el espejo principal del sitio (es decir, el nombre de dominio más www o el nombre de dominio sin este prefijo). El host se especifica solo para el robot Yandex (en este caso, debe haber al menos un comando de no permitir).

Para especificar un host, robots.txt debe contener la siguiente entrada:

Agente de usuario: Yandex No permitir: Anfitrión: www.yoursite.ru

En cuanto al mapa del sitio, en robots.txt el mapa del sitio se indica simplemente escribiendo la ruta completa al archivo correspondiente, indicando el nombre del dominio:

Mapa del sitio: http://yoursite.ru/sitemap.xml

Está escrito sobre cómo hacer un mapa del sitio para WordPress.

Ejemplo de robots.txt para WordPress

Para WordPress, las instrucciones deben especificarse de tal manera que se cierren todos los directorios técnicos (wp-admin, wp-includes, etc.) para la indexación, así como las páginas duplicadas creadas por etiquetas, archivos RSS, comentarios y búsqueda.

Como ejemplo de robots.txt para wordpress, puedes tomar el archivo de nuestro sitio web:

Agente de usuario: Yandex No permitir: /wp-admin No permitir: /wp-includes No permitir: /wp-login.php No permitir: /wp-register.php No permitir: /xmlrpc.php No permitir: /search No permitir: */trackback No permitir: */feed/ No permitir: */feed No permitir: */comments/ No permitir: /?feed= No permitir: /?s= No permitir: */page/* No permitir: */comment No permitir: */tag/* No permitir: */ adjunto/* Permitir: /wp-content/uploads/ Host: www..php No permitir: /wp-register.php No permitir: /xmlrpc.php No permitir: /search No permitir: */trackback No permitir: */feed/ No permitir: * /feed No permitir: */comments/ No permitir: /?feed= No permitir: /?s= No permitir: */page/* No permitir: */comment No permitir: */tag/* No permitir: */attachment/* Permitir: /wp -content/uploads/ User-agent: * No permitir: /wp-admin No permitir: /wp-includes No permitir: /wp-login.php No permitir: /wp-register.php No permitir: /xmlrpc.php No permitir: /search No permitir: */trackback No permitir: */feed/ No permitir: */feed No permitir: */comments/ No permitir: /?feed= No permitir: /?s= No permitir: */page/* No permitir: */comment No permitir: */tag/ * No permitir: */attachment/* Permitir: /wp-content/uploads/ Mapa del sitio: https://www..xml

Puede descargar el archivo robots.txt desde nuestro sitio web usando .

Si después de leer este artículo aún tienes alguna duda, ¡pregunta en los comentarios!

Casi todos los proyectos que nos llegan para auditoría o promoción tienen un archivo robots.txt incorrecto y, a menudo, falta por completo. Esto sucede porque al crear un archivo, cada uno se guía por su imaginación y no por las reglas. Averigüemos cómo redactar correctamente este archivo para que los robots de búsqueda trabajen con él de forma eficaz.

¿Por qué necesitas configurar robots.txt?

Robots.txt es un archivo ubicado en el directorio raíz de un sitio que le dice a los robots de los motores de búsqueda a qué secciones y páginas del sitio pueden acceder y a cuáles no.

Configurar robots.txt es una parte importante en los resultados de los motores de búsqueda; los robots configurados correctamente también aumentan el rendimiento del sitio. La falta de Robots.txt no impedirá que los motores de búsqueda rastreen e indexen su sitio, pero si no tiene este archivo, puede tener dos problemas:

    El robot de búsqueda leerá todo el sitio, lo que "socavará" el presupuesto de rastreo. El presupuesto de rastreo es la cantidad de páginas que un robot de búsqueda puede rastrear en un período de tiempo determinado.

    Sin un archivo robots, el motor de búsqueda tendrá acceso a páginas borradores y ocultas, a cientos de páginas utilizadas para administrar el CMS. Las indexará y, cuando se trate de las páginas necesarias que proporcionen contenido directo a los visitantes, el presupuesto de rastreo se "agotará".

    El índice puede incluir la página de inicio de sesión del sitio y otros recursos del administrador, por lo que un atacante puede rastrearlos fácilmente y llevar a cabo un ataque DDOS o piratear el sitio.

Cómo ven los robots de búsqueda un sitio con y sin robots.txt:


Sintaxis de robots.txt

Antes de comenzar a comprender la sintaxis y configurar robots.txt, veamos cómo debería verse el "archivo ideal":


Pero no deberías usarlo de inmediato. Cada sitio suele requerir su propia configuración, ya que todos tenemos una estructura de sitio diferente y un CMS diferente. Veamos cada directiva en orden.

Agente de usuario

Agente de usuario: define un robot de búsqueda que debe seguir las instrucciones descritas en el archivo. Si necesita dirigirse a todos a la vez, utilice el icono *. También puedes contactar con un robot de búsqueda específico. Por ejemplo, Yandex y Google:


Con esta directiva, el robot comprende qué archivos y carpetas tienen prohibido indexar. Si desea que todo su sitio esté abierto para la indexación, deje el valor No permitir vacío. Para ocultar todo el contenido del sitio después de No permitir, escriba "/".

Podemos impedir el acceso a una carpeta, archivo o extensión de archivo específica. En nuestro ejemplo, contactamos a todos los robots de búsqueda y bloqueamos el acceso a Bitrix, a la carpeta de búsqueda y a la extensión PDF.


Permitir

Permitir obliga a indexar páginas y secciones del sitio. En el ejemplo anterior, contactamos al robot de búsqueda de Google, bloqueamos el acceso a Bitrix, a la carpeta de búsqueda y a la extensión PDF. Pero en la carpeta bitrix forzamos la apertura de 3 carpetas para indexar: componentes, js, herramientas.


Anfitrión: espejo del sitio

Un sitio espejo es un duplicado del sitio principal. Los espejos se utilizan para diversos fines: cambiar la dirección, seguridad, reducir la carga en el servidor, etc.

El anfitrión es una de las reglas más importantes. Si se anota esta regla, el robot comprenderá cuál de los espejos del sitio debe tenerse en cuenta para la indexación. Esta directiva es necesaria para los robots Yandex y Mail.ru. Otros robots ignorarán esta regla. ¡El anfitrión se registra solo una vez!

Para los protocolos “https://” y “http://”, la sintaxis en el archivo robots.txt será diferente.

Mapa del sitio - mapa del sitio

Un mapa del sitio es una forma de navegación del sitio que se utiliza para informar a los motores de búsqueda sobre nuevas páginas. Usando la directiva del mapa del sitio, mostramos "a la fuerza" al robot dónde se encuentra el mapa.


Símbolos en robots.txt

Símbolos utilizados en el archivo: “/, *, $, #”.


Comprobación de la funcionalidad después de configurar robots.txt

Una vez que haya colocado Robots.txt en su sitio web, debe agregarlo y verificarlo en el webmaster de Yandex y Google.

Comprobación de Yandex:

  1. Siga este enlace .
  2. Seleccione: Configuración de indexación - Análisis de Robots.txt.

Comprobación de Google:

  1. Siga este enlace .
  2. Seleccione: Escanear - Herramienta de inspección de archivos Robots.txt.

De esta manera podrás comprobar tu robots.txt en busca de errores y realizar los ajustes necesarios si es necesario.

  1. El contenido del fichero deberá escribirse en mayúsculas.
  2. Solo es necesario especificar un archivo o directorio en la directiva Disallow.
  3. La línea "Usuario-agente" no debe estar vacía.
  4. El agente de usuario siempre debe ir antes de Disallow.
  5. No olvide incluir una barra diagonal si necesita deshabilitar la indexación de un directorio.
  6. Antes de cargar un archivo en el servidor, asegúrese de revisarlo para detectar errores de sintaxis y ortografía.

¡Te deseo éxito!

Revisión en video de 3 métodos para crear y personalizar el archivo Robots.txt

Primero, te diré qué es robots.txt.

Robots.txt– un archivo que se encuentra en la carpeta raíz del sitio, donde están escritas instrucciones especiales para los robots de búsqueda. Estas instrucciones son necesarias para que al ingresar al sitio el robot no tenga en cuenta la página/sección, es decir cerremos la página de la indexación.

¿Por qué necesitas robots.txt?

El archivo robots.txt se considera un requisito clave para la optimización SEO de absolutamente cualquier sitio web. La ausencia de este archivo puede afectar negativamente a la carga de los robots y a una indexación lenta y, además, el sitio no quedará completamente indexado. En consecuencia, los usuarios no podrán acceder a las páginas a través de Yandex y Google.

¿Impacto de robots.txt en los motores de búsqueda?

Los motores de búsqueda(especialmente Google) indexará el sitio, pero si no hay un archivo robots.txt, entonces, como dije, no todas las páginas. Si existe dicho archivo, los robots se guían por las reglas especificadas en este archivo. Además, existen varios tipos de robots de búsqueda; algunos pueden tener en cuenta la regla, mientras que otros la ignoran. En particular, el robot GoogleBot no tiene en cuenta las directivas Host y Crawl-Delay, el robot YandexNews recientemente dejó de tener en cuenta la directiva Crawl-Delay y los robots YandexDirect y YandexVideoParser ignoran las directivas generalmente aceptadas en robots.txt (pero tener en cuenta aquellos que están escritos específicamente para ellos).

El sitio se carga más mediante robots que cargan contenido de su sitio. En consecuencia, si le decimos al robot qué páginas indexar y cuáles ignorar, así como en qué intervalos de tiempo cargar contenido de las páginas (esto se aplica más a sitios grandes que tienen más de 100.000 páginas en el índice del motor de búsqueda). Esto hará que sea mucho más fácil para el robot indexar y descargar contenido del sitio.


Los archivos que no son necesarios para los motores de búsqueda incluyen archivos que pertenecen al CMS, por ejemplo, en Wordpress – /wp-admin/. Además, los scripts ajax y json son responsables de los formularios emergentes, pancartas, salida de captcha, etc.

Para la mayoría de los robots, también recomiendo bloquear la indexación de todos los archivos Javascript y CSS. Pero para GoogleBot y Yandex, es mejor indexar dichos archivos, ya que los motores de búsqueda los utilizan para analizar la conveniencia del sitio y su clasificación.

¿Qué es una directiva robots.txt?



Directivas– estas son las reglas para los robots de búsqueda. Los primeros estándares para escribir robots.txt y, en consecuencia, aparecieron en 1994, y el estándar ampliado en 1996. Sin embargo, como ya sabes, no todos los robots admiten determinadas directivas. Por lo tanto, a continuación describo por qué se guían los principales robots al indexar las páginas de un sitio web.

¿Qué significa usuario-agente?

Esta es la directiva más importante que determina qué robots de búsqueda seguirán otras reglas.

Para todos los robots:

Para un robot específico:

Agente de usuario: robot de Google

El registro en robots.txt no es importante, puedes escribir tanto Googlebot como googlebot

robots de búsqueda de Google







Robots de búsqueda Yandex

El principal robot de indexación de Yandex

Utilizado en el servicio Yandex.Images

Utilizado en el servicio Yandex.Video

datos multimedia

búsqueda de blogs

Un robot de búsqueda accediendo a una página al agregarla a través del formulario “Agregar URL”

robot que indexa iconos de sitios web (favicons)

Yandex.Directo

Yandex.Metrica

Utilizado en el servicio Yandex.Catalog

Utilizado en el servicio Yandex.News

YandexImageResizer

Robot de búsqueda de servicios móviles

Robots de búsqueda Bing, Yahoo, Mail.ru, Rambler

Directivas no permitir y permitir

No permitir que bloquee la indexación de secciones y páginas de su sitio. En consecuencia, Permitir, por el contrario, los abre.

Hay algunas peculiaridades.

Primero, los operadores adicionales son *, $ y #. ¿Para qué se usan?

“*” – se trata de cualquier número de personajes y su ausencia. Por defecto ya está al final de la línea, por lo que no tiene sentido volver a ponerlo.

“$” – indica que el carácter anterior debe ser el último.

“#” – comenta, el robot no tiene en cuenta todo lo que viene después de este símbolo.

Ejemplos de uso de No permitir:

No permitir: *?s=

No permitir: /categoría/

En consecuencia, el robot de búsqueda cerrará páginas como:

Pero páginas como esta estarán abiertas para indexación:

Ahora necesitas entender cómo se ejecutan las reglas de anidamiento. El orden en el que se escriben las directivas es absolutamente importante. La herencia de reglas está determinada por qué directorios se especifican, es decir, si queremos bloquear la indexación de una página/documento, basta con escribir una directiva. Veamos un ejemplo

Este es nuestro archivo robots.txt

No permitir: /plantilla/

Esta directiva también se puede especificar en cualquier lugar y se pueden especificar varios archivos de mapa del sitio.

Directiva de host en robots.txt

Esta directiva es necesaria para indicar el espejo principal del sitio (a menudo con o sin www). Tenga en cuenta que la directiva de host se especifica sin el protocolo http://, pero con el protocolo https://. La directiva sólo la tienen en cuenta los robots de búsqueda Yandex y Mail.ru, y otros robots, incluido GoogleBot, no tendrán en cuenta la regla. El host debe especificarse una vez en el archivo robots.txt

Ejemplo con http://

Anfitrión: sitio web.ru

Ejemplo con https://

Directiva de retraso de rastreo

Establece el intervalo de tiempo para que un robot de búsqueda indexe las páginas del sitio. El valor se indica en segundos y milisegundos.

Ejemplo:

Se utiliza principalmente en grandes tiendas en línea, sitios de información y portales, donde el tráfico del sitio es de 5000 por día. Es necesario que el robot de búsqueda realice una solicitud de indexación dentro de un período de tiempo determinado. Si no se especifica esta directiva, puede crear una carga importante en el servidor.

El valor óptimo de retraso de rastreo es diferente para cada sitio. Para los motores de búsqueda Mail, Bing, Yahoo, el valor se puede establecer en un valor mínimo de 0,25, 0,3, ya que estos robots de motores de búsqueda pueden rastrear su sitio una vez al mes, 2 meses, etc. (muy raramente). Para Yandex, es mejor establecer un valor más alto.


Si la carga en su sitio es mínima, entonces no tiene sentido especificar esta directiva.

Directiva de parámetros limpios

La regla es interesante porque le dice al rastreador que no es necesario indexar las páginas con ciertos parámetros. Se especifican dos argumentos: URL de la página y parámetro. Esta directiva es compatible con el motor de búsqueda Yandex.

Ejemplo:

No permitir: /admin/

No permitir: /complementos/

No permitir: /buscar/

No permitir: /carrito/

No permitir: *ordenar=

No permitir: *ver=

Agente de usuario: GoogleBot

No permitir: /admin/

No permitir: /complementos/

No permitir: /buscar/

No permitir: /carrito/

No permitir: *ordenar=

No permitir: *ver=

Permitir: /plugins/*.css

Permitir: /plugins/*.js

Permitir: /plugins/*.png

Permitir: /plugins/*.jpg

Permitir: /plugins/*.gif

Agente de usuario: Yandex

No permitir: /admin/

No permitir: /complementos/

No permitir: /buscar/

No permitir: /carrito/

No permitir: *ordenar=

No permitir: *ver=

Permitir: /plugins/*.css

Permitir: /plugins/*.js

Permitir: /plugins/*.png

Permitir: /plugins/*.jpg

Permitir: /plugins/*.gif

Parámetro limpio: utm_source&utm_medium&utm_campaign

En el ejemplo, escribimos las reglas para 3 bots diferentes.

¿Dónde agregar robots.txt?

Agregado a la carpeta raíz del sitio. Además, para que puedas seguir el enlace:

¿Cómo comprobar robots.txt?

Webmaster de Yandex

En la pestaña Herramientas, seleccione Análisis de Robots.txt y luego haga clic en verificar

Consola de búsqueda de Google

en la pestaña Exploración elegir Herramienta de inspección de archivos Robots.txt y luego haga clic en verificar.

Conclusión:

El archivo robots.txt debe estar presente en cada sitio web promocionado, y sólo su correcta configuración permitirá obtener la indexación necesaria.

Y finalmente, si tiene alguna pregunta, hágala en los comentarios debajo del artículo y yo también me pregunto, ¿cómo se escribe robots.txt?

Explicación de valores:

  • Agente de usuario: *: accede a todos los motores de búsqueda a la vez, Yandex, solo Yandex.
  • No permitir: enumera carpetas y archivos cuya indexación está prohibida
  • Anfitrión: ingrese el nombre de su sitio sin www.
  • Mapa del sitio: enlace al mapa del sitio XML.

Coloque el archivo en el directorio raíz del sitio usando Filezilla o mediante el sitio de alojamiento. Publíquelo en el directorio principal para que esté disponible a través del enlace: your_site.ru/robots.txt

Es adecuado sólo para aquellos que tienen máquinas CNC (los enlaces están escritos en palabras, no en el formato p=333). Simplemente vaya a Configuración – Enlaces permanentes, seleccione la opción inferior e ingrese /%postname% en el campo.

Algunas personas prefieren crear este archivo ellos mismos:

Para comenzar, cree un bloc de notas en su computadora y asígnele el nombre robots (no use mayúsculas). Al final de la configuración, su tamaño no debe superar los 500 kb.

Agente de usuario– nombre del motor de búsqueda (Yandex, Googlebot, StackRambler). Si quieres atraer a todos a la vez, pon una estrella *

Y luego especifique las páginas o carpetas que este robot no debe indexar usando Rechazar:

Primero, se enumeran tres directorios y luego un archivo específico.

Para permitir la indexación de todo y de todos, es necesario escribir:

Agente de usuario: *
Rechazar:

Configurar robots.txt para Yandex y Google

Para Yandex Definitivamente necesitas agregar la directiva host para evitar páginas duplicadas. Esta palabra solo la entiende el bot Yandex, así que escriba las instrucciones por separado.

Para Google no hay extras. Lo único que necesitas saber es cómo acceder a él. En la sección Usuario-agente debes escribir:

  • robot de Google;
  • Googlebot-Image: si limita la indexación de imágenes;
  • Googlebot-Mobile: para la versión móvil del sitio.

Cómo comprobar la funcionalidad del archivo robots.txt

Esto se puede hacer en la sección "Herramientas para webmasters" del motor de búsqueda de Google o en el sitio web Yandex.Webmaster en la sección Verificar robots.txt.

Si hay errores, corríjalos y verifique nuevamente. Consiga un buen resultado, luego no olvide copiar el código correcto en robots.txt y subirlo al sitio.

Ahora tienes una idea de cómo crear robots.txt para todos los motores de búsqueda. Para los principiantes, recomiendo utilizar un archivo ya preparado, sustituyendo el nombre de su sitio.



¿Te gustó el artículo? Compártelo