¿Cómo “ven” el mundo los robots? Cómo actualizar a una nueva versión de Search Console Los sistemas CMS más pagos
Buenas tardes lectores. Siempre recibo muchas preguntas de webmasters, propietarios de sitios y blogueros sobre errores y mensajes que aparecen en Yandex.Webmaster. Mucha gente se asusta ante mensajes de este tipo.
Pero quiero decir que no todos los mensajes son críticos para el sitio. Y en los próximos artículos intentaré cubrir de la forma más completa posible todas las posibles dudas que puedan tener los webmasters. Este artículo discutirá las secciones:
- Diagnóstico: diagnóstico del sitio
- Indexación: páginas en búsqueda
Escribí sobre por qué y por qué es necesario hace unos años. Si no está familiarizado con esta herramienta, lea primero el artículo en el enlace.
Diagnóstico del sitio
Posibles problemas
1. La directiva Host no está especificada en el archivo robots.txt.
Esta observación de Yandex es notable porque la directiva Host no es una directiva estandarizada, solo es compatible con el motor de búsqueda Yandex. Es necesario si Yandex identifica incorrectamente el espejo del sitio.
Como regla general, Yandex determina automáticamente el espejo del sitio en función de las URL que genera el propio CMS y de los enlaces externos que conducen al sitio. Para especificar el espejo principal del sitio, no es necesario indicarlo en el archivo robots.txt. La forma principal es utilizar una redirección 301, que se configura automáticamente en el CMS o se agrega el código necesario al archivo .htachess.
Tenga en cuenta que debe especificar una directiva en el archivo robots.txt en los casos en que Yandex determine incorrectamente el espejo principal del sitio y no pueda influir en esto de ninguna otra manera.
El CMS con el que he trabajado recientemente, WordPress, Joomla, ModX, redirige de forma predeterminada la dirección de www a sin, si la configuración del sistema especifica la dirección del sitio sin prefijo. Estoy seguro de que todos los CMS modernos tienen esta característica. Incluso mi querido Blogger redirige correctamente la dirección de un blog ubicado en su propio dominio.
2. Faltan metaetiquetas
El problema no es crítico, no hay que temerle, pero si es posible, es mejor solucionarlo que no prestarle atención. Si su CMS no proporciona la creación de metaetiquetas de forma predeterminada, comience a buscar un complemento, complemento, extensión o como se llame en su CMS para poder configurar manualmente una descripción de la página o tener la descripción. generado automáticamente a partir de las primeras palabras del artículo.
3. No hay archivos de mapas del sitio utilizados por el robot.
Por supuesto, es mejor corregir este error. Pero tenga en cuenta que el problema puede ocurrir tanto en los casos en que hay un archivo sitemap.xml como en aquellos casos en los que realmente no existe. Si tiene un archivo, pero Yandex no lo ve, simplemente vaya a la sección Indexación - Archivos de mapas del sitio. Y agregue manualmente el archivo a Yandex.Webmaster. Si no tiene ningún archivo de este tipo, dependiendo del CMS que utilice, busque soluciones.
El archivo sitemap.xml se encuentra en http://your-domain.ru/sitemap.xml
4. Archivo robots.txt no encontrado
Aún así, este archivo debe existir y, si tienes la oportunidad de conectarlo, es mejor que lo hagas. Y preste atención al elemento con la directiva del Anfitrión.
El archivo robots.txt se encuentra en http://vash-domen.ru/robots.txt
En este punto, la fuente de errores en la pestaña Diagnóstico del sitio se ha secado.
Indexación
Páginas en búsqueda
Empecemos desde este punto. Esto facilitará la estructuración de la información.
Seleccionar en el filtro “Todas las páginas”
Vaya abajo, en el lado derecho de la página "Descargar tabla", seleccione XLS y abra el archivo en Excel.
Obtenemos una lista de páginas que están en la búsqueda, es decir. Yandex los conoce, los clasifica y se los muestra a los usuarios.
Veamos cuántos registros hay en la tabla. Tengo 289 páginas.
¿Cómo sabes cuánto debería ser? Cada sitio es único y sólo tú puedes saber cuántas páginas tienes publicadas. Te lo mostraré usando mi blog de WordPress como ejemplo.
El blog al momento de escribir este artículo contiene:
- Entradas - 228
- Páginas — 17
- Encabezados - 4
- Etiquetas - 41
- + página de inicio del sitio
En total tenemos 290 páginas que deberían estar en el índice. En comparación con los datos de la tabla, la diferencia es de solo 1 página. Podemos considerarlo con seguridad como un muy buen indicador. Pero es demasiado pronto para alegrarse. Sucede que matemáticamente todo coincide, pero cuando te pones a analizar aparecen inconsistencias.
Hay dos formas de encontrar esa página que no está en la búsqueda. Veamos ambos.
Método uno. En la misma tabla que descargué, dividí la búsqueda en varias etapas. Primero seleccioné las páginas de las Rúbricas. Sólo tengo 4 categorías. Para optimizar su trabajo, utilice filtros de texto en Excel.
Luego excluí las etiquetas de la búsqueda y dejé solo los artículos en la tabla. Y aquí, por muchos artículos que haya, tendrás que repasar cada uno para encontrar el que no está en el índice.
Tenga en cuenta que cada CMS tiene su propia estructura. Cada webmaster tiene su propio archivo robots.txt canónico y SEO.
Nuevamente, usando WordPress como ejemplo, preste atención a qué secciones de su sitio están indexadas y cuáles están cerradas. También puede haber páginas de Archivo por mes y año, páginas de Autor y paginación de páginas. Tengo todas estas secciones cerradas con la configuración de metaetiquetas de robots. Puede que para usted sea diferente, así que considere todo lo que no esté prohibido para la indexación.
Si tomamos Blogger como ejemplo, los propietarios de blogs solo necesitan contar las publicaciones, las páginas y el inicio publicados. Todas las demás páginas de archivos y etiquetas están cerradas para indexación según la configuración.
Método dos. Volvemos a Webmaster, seleccionamos “Páginas excluidas” en el filtro.
Ahora tenemos una lista de páginas que están excluidas de la búsqueda. La lista puede ser grande, mucho más grande que con las páginas incluidas en la búsqueda. No hay necesidad de temer que algo ande mal con el sitio.
Al escribir el artículo, intenté trabajar en la interfaz para webmasters, pero no obtuve la funcionalidad deseada, quizás sea un fenómeno temporal. Por lo tanto, como en la versión anterior, trabajaré con datos tabulares, también puedes descargar la tabla al final de la página.
Nuevamente, usando mi blog de WordPress como ejemplo, analizaré las razones típicas de excepción.
En la tabla resultante, la columna más importante para nosotros es "httpCode". Para aquellos que no saben qué son las respuestas del servidor, lea Wikipedia. Esto le facilitará la comprensión del material adicional.
Comencemos con el código 200. Si puede acceder a alguna página de Internet sin autorización, dicha página tendrá el estado 200. Todas estas páginas pueden excluirse de la búsqueda por los siguientes motivos:
- Prohibido por la metaetiqueta robots
- Prohibido indexar en el archivo robots.txt
- No son canónicos, la metaetiqueta canónica está configurada
Usted, como propietario del sitio, necesita saber qué páginas tienen qué configuraciones. Por lo tanto, comprender la lista de páginas excluidas no debería resultar difícil.
Configurar filtros, seleccionar en la columna D - 200
Ahora nos interesa la columna E - "estado", ordenémosla.
Estado BAD_QUALITY- No es de calidad suficiente. El estado más desagradable de todos. Analicémoslo.
En mi tabla solo había 8 URL con el estado Calidad insuficiente. Los numeré en la columna de la derecha.
URL 1, 5, 7: páginas de feeds, 2,3,4,5,8: páginas de servicio en el directorio del sitio wp-json. Todas estas páginas no son documentos HTML y, en principio, no deberían estar en esta lista.
Por lo tanto, revise cuidadosamente su lista de páginas y resalte sólo las páginas HTML.
Estado META_NO_INDEX. Las páginas de paginación y la página del autor están excluidas del índice debido a la configuración de la metaetiqueta robots.
Pero hay una página en esta lista que no debería estar ahí. Resalté la URL en azul.
Estado NOT_CANONICAL. El nombre habla por sí solo. Página no canónica. En cualquier página del sitio puede instalar la metaetiqueta canónica, en la que indica la URL canónica.