Comment les robots « voient » le monde ? Comment passer à une nouvelle version de la Search Console Systèmes CMS les plus payants
Bonjour, lecteurs. Je reçois toujours beaucoup de questions de la part des webmasters, des propriétaires de sites et des blogueurs sur les erreurs et les messages qui apparaissent dans Yandex.Webmaster. Beaucoup de gens sont effrayés par de tels messages.
Mais je tiens à dire que tous les messages ne sont pas critiques pour le site. Et dans les prochains articles, j'essaierai de couvrir aussi complètement que possible toutes les questions possibles que les webmasters peuvent se poser. Cet article abordera les sections :
- Diagnostic – Diagnostic de chantier
- Indexation – Pages dans la recherche
J'ai écrit sur pourquoi et pourquoi c'est nécessaire il y a quelques années. Si vous n'êtes pas familier avec cet outil, veuillez d'abord lire l'article sur le lien.
Diagnostic des chantiers
Problèmes possibles
1. La directive Host n'est pas spécifiée dans le fichier robots.txt
Cette remarque de Yandex est remarquable dans la mesure où la directive Host n'est pas une directive standardisée, elle n'est prise en charge que par le moteur de recherche Yandex. Ceci est nécessaire si Yandex identifie de manière incorrecte le miroir du site.
En règle générale, un miroir de site est déterminé automatiquement par Yandex sur la base des URL générées par le CMS lui-même et sur la base de liens externes menant au site. Pour préciser le miroir principal du site, il n'est pas nécessaire de l'indiquer dans le fichier robots.txt. Le moyen principal consiste à utiliser une redirection 301, qui est soit configurée automatiquement dans le CMS, soit le code nécessaire est ajouté au fichier .htachess.
Veuillez noter que vous devez spécifier une directive dans le fichier robots.txt dans les cas où Yandex détermine de manière incorrecte le miroir principal du site, et vous ne pouvez pas l'influencer d'une autre manière.
Les CMS avec lesquels j'ai travaillé récemment, WordPress, Joomla, ModX, redirigent par défaut l'adresse de www vers sans, si les paramètres système spécifient l'adresse du site sans préfixe. Je suis sûr que tous les CMS modernes disposent de cette fonctionnalité. Même mon bien-aimé Blogger redirige correctement l'adresse d'un blog situé sur son propre domaine.
2. Balises méta manquantes
Le problème n'est pas critique, il ne faut pas en avoir peur, mais si possible, il vaut mieux le résoudre que de ne pas y prêter attention. Si votre CMS ne propose pas la création de balises méta par défaut, alors commencez à chercher un plugin, un module complémentaire, une extension ou quel que soit son nom dans votre CMS pour pouvoir définir manuellement une description de page, ou pour avoir la description généré automatiquement à partir des premiers mots de l'article.
3. Aucun fichier Sitemap n'est utilisé par le robot
Bien entendu, il vaut mieux corriger cette erreur. Mais veuillez noter que le problème peut survenir à la fois dans les cas où il existe un fichier sitemap.xml et dans les cas où il n'existe vraiment pas. Si vous avez un fichier mais que Yandex ne le voit pas, accédez simplement à la section Indexation - Fichiers de plan du site. Et ajoutez manuellement le fichier à Yandex.Webmaster. Si vous ne disposez pas du tout d’un tel fichier, recherchez des solutions en fonction du CMS que vous utilisez.
Le fichier sitemap.xml se trouve à l'adresse http://your-domain.ru/sitemap.xml
4. Fichier Robots.txt introuvable
Pourtant, ce fichier doit exister, et si vous avez la possibilité de le connecter, il vaut mieux le faire. Et faites attention à l'élément avec la directive Host.
Le fichier robots.txt se trouve sur http://vash-domen.ru/robots.txt
À ce stade, la fontaine d’erreurs sur l’onglet Diagnostics du site s’est tarie pour moi.
Indexage
Pages en recherche
Commençons par ce point. Cela facilitera la structuration des informations.
Sélectionnez dans le filtre « Toutes les pages »
Descendez en bas, à droite de la page « Télécharger le tableau », sélectionnez XLS et ouvrez le fichier dans Excel.
Nous obtenons une liste des pages qui sont dans la recherche, c'est-à-dire Yandex les connaît, les classe et les montre aux utilisateurs.
Voyons combien d'enregistrements il y a dans la table. J'ai 289 pages.
Comment savoir combien cela devrait être ? Chaque site est unique et vous seul pouvez savoir combien de pages vous avez publiées. Je vais vous montrer en utilisant mon blog WordPress comme exemple.
Le blog au moment de la rédaction contient :
- Entrées - 228
- Pages — 17
- Rubriques - 4
- Mots-clés - 41
- + page d'accueil du site
Au total, nous avons 290 pages qui devraient figurer dans l'index. Par rapport aux données du tableau, la différence n'est que d'une page. Nous pouvons considérer cela comme un très bon indicateur. Mais il est trop tôt pour se réjouir. Il arrive que mathématiquement tout coïncide, mais lorsque l'on commence à analyser, des incohérences apparaissent.
Il existe deux façons de trouver la page qui ne figure pas dans la recherche. Regardons les deux.
Première méthode. Dans le même tableau que j'ai téléchargé, j'ai divisé la recherche en plusieurs étapes. J'ai d'abord sélectionné les pages des rubriques. Je n'ai que 4 catégories. Pour optimiser votre travail, utilisez des filtres de texte dans Excel.
Ensuite, j'ai exclu les balises de la recherche, ne laissant que les articles dans le tableau. Et ici, peu importe le nombre d’articles, il faudra parcourir chacun d’eux pour trouver celui qui ne figure pas dans l’index.
Veuillez noter que chaque CMS a sa propre structure. Chaque webmaster possède son propre fichier SEO, canonique, robots.txt.
Encore une fois, en utilisant WordPress comme exemple, faites attention aux sections de votre site qui sont indexées et à celles qui sont fermées. Il peut également y avoir des pages d'archives par mois et par année, des pages d'auteur et des pages de pagination. J'ai toutes ces sections fermées avec les paramètres de la balise méta des robots. Cela peut être différent pour vous, alors considérez tout ce qui n'est pas interdit à l'indexation.
Si nous prenons Blogger comme exemple, les propriétaires de blogs n'ont qu'à compter les articles, les pages et l'accueil publiés. Toutes les autres pages d'archives et de balises sont fermées pour indexation par paramètres.
Deuxième méthode. Nous revenons au Webmaster, sélectionnons « Pages exclues » dans le filtre.
Nous avons maintenant une liste de pages exclues de la recherche. La liste peut être longue, beaucoup plus grande qu'avec les pages incluses dans la recherche. Il n’y a pas lieu d’avoir peur que quelque chose ne va pas avec le site.
Lors de la rédaction de l'article, j'ai essayé de travailler dans l'interface Webmaster, mais je n'ai pas obtenu la fonctionnalité souhaitée, il s'agit peut-être d'un phénomène temporaire. Par conséquent, comme dans la version précédente, je travaillerai avec des données tabulaires ; vous pouvez également télécharger le tableau en bas de page.
Encore une fois, en utilisant mon blog WordPress comme exemple, j'examinerai les raisons d'exception typiques.
Dans le tableau résultant, la colonne la plus importante pour nous est « httpCode ». Pour ceux qui ne savent pas quelles sont les réponses du serveur, lisez Wikipédia. Cela vous permettra de mieux comprendre d’autres documents.
Commençons par le code 200. Si vous pouvez accéder à une page sur Internet sans autorisation, alors une telle page aura un statut de 200. Toutes ces pages peuvent être exclues de la recherche pour les raisons suivantes :
- Interdit par la balise méta des robots
- Interdit d'indexation dans le fichier robots.txt
- Sont non canoniques, la balise méta canonique est définie
En tant que propriétaire du site, vous devez savoir quelles pages ont quels paramètres. Par conséquent, comprendre la liste des pages exclues ne devrait pas être difficile.
Configurer les filtres, sélectionner dans la colonne D - 200
Nous nous intéressons maintenant à la colonne E - "statut", trions-la.
État BAD_QUALITY- Pas de qualité suffisante. Le statut le plus désagréable de tous. Décomposons-le.
Dans mon tableau, il n'y avait que 8 URL avec le statut Qualité insuffisante. Je les ai numérotés dans la colonne de droite.
URL 1, 5, 7 — Pages de flux, 2,3,4,5,8 — pages de service dans le répertoire du site wp-json. Toutes ces pages ne sont pas des documents HTML et, en principe, ne devraient pas figurer sur cette liste.
Par conséquent, examinez attentivement votre liste de pages et mettez en surbrillance uniquement les pages HTML.
Statut META_NO_INDEX. Les pages de pagination et la page de l'auteur sont exclues de l'index en raison des paramètres de la balise méta des robots
Mais il y a une page sur cette liste qui ne devrait pas s’y trouver. J'ai surligné l'URL en bleu.
Statut NOT_CANONICAL. Le nom parle de lui-même. Page non canonique. Sur n'importe quelle page du site, vous pouvez installer la balise méta canonique, dans laquelle vous indiquez l'URL canonique.