Comment modifier le fichier txt des robots. Comment modifier un fichier txt de robots Créer un fichier txt de robot

Cet article contient un exemple du code optimal, à mon avis, pour le fichier robots.txt pour WordPress, que vous pouvez utiliser dans vos sites Web.

Pour commencer, rappelons-nous pourquoi as-tu besoin de robots.txt- le fichier robots.txt est nécessaire exclusivement aux robots de recherche pour leur « indiquer » quelles sections/pages du site visiter et lesquelles ils ne doivent pas visiter. Les pages fermées à la visite ne seront pas incluses dans l'index des moteurs de recherche (Yandex, Google, etc.).

Option 1 : Code robots.txt optimal pour WordPress

Agent utilisateur : * Interdire : /cgi-bin # classique... Interdire : /? # tous les paramètres de requête sur la page principale Interdire : /wp- # tous les fichiers WP : /wp-json/, /wp-includes, /wp-content/plugins Interdire : *?s= # recherche Interdire : *&s= # recherche Interdire : /search # search Interdire : /author/ # archive d'auteur Interdire : */embed # toutes les intégrations Interdire : */page/ # tous les types de pagination Autoriser : */uploads # téléchargements ouverts Autoriser : /*/*.js # inside /wp - (/*/ - pour la priorité) Autoriser : /*/*.css # inside /wp- (/*/ - pour la priorité) Autoriser : /wp-*.png # images dans les plugins, le dossier cache, etc. . Autoriser : /wp-*.jpg # images dans les plugins, le dossier cache, etc. Autoriser : /wp-*.jpeg # images dans les plugins, le dossier cache, etc. Autoriser : /wp-*.gif # images dans les plugins, le dossier cache, etc. Autoriser : /wp-*.svg # images dans les plugins, le dossier cache, etc. Autoriser : /wp-*.pdf # fichiers dans les plugins, le dossier cache, etc. Autoriser : /wp-admin/admin-ajax.php #Disallow : /wp/ # lorsque WP est installé dans le sous-répertoire wp Plan du site : http://example.com/sitemap.xml Plan du site : http://example.com/ sitemap2.xml # un autre fichier #Sitemap : http://example.com/sitemap.xml.gz # version compressée (.gz) # Version du code : 1.1 # N'oubliez pas de remplacer `site.ru` par votre site.

Analyse des codes :

Dans la ligne User-agent: * nous indiquons que toutes les règles ci-dessous fonctionneront pour tous les robots de recherche *. Si vous avez besoin que ces règles ne fonctionnent que pour un robot spécifique, alors au lieu de *, nous indiquons le nom du robot (User-agent : Yandex, User-agent : Googlebot).

Dans la ligne Allow: */uploads, nous autorisons intentionnellement l'indexation des pages contenant /uploads. Cette règle est obligatoire, car ci-dessus nous interdisons l’indexation des pages commençant par /wp- , et /wp- inclus dans /wp-content/uploads. Par conséquent, afin de remplacer la règle Disallow: /wp-, vous avez besoin de la ligne Allow: */uploads , car pour des liens comme /wp-content/uploads/... Nous pouvons avoir des images qui doivent être indexées, et il peut également y avoir des fichiers téléchargés qu'il n'est pas nécessaire de masquer. Autoriser : peut être "avant" ou "après" Interdire : .

Les lignes restantes interdisent aux robots de « suivre » les liens commençant par :

Interdire : /cgi-bin - ferme le répertoire des scripts sur le serveur
Disallow: /feed - ferme le flux RSS du blog
Interdire : /trackback - ferme les notifications
Interdire : ?s= ou Interdire : *?s= - ferme les pages de recherche
Interdire : */page/ - ferme tous les types de pagination

La règle Sitemap : http://example.com/sitemap.xml pointe le robot vers un fichier avec un sitemap au format XML. Si vous avez un tel fichier sur votre site, écrivez-y le chemin complet. Il peut y avoir plusieurs fichiers de ce type, nous indiquons alors le chemin d'accès à chacun séparément.

Dans la ligne Hôte : site.ru, nous indiquons le miroir principal du site. Si un site dispose de miroirs (copies du site sur d'autres domaines), alors pour que Yandex les indexe tous de la même manière, vous devez spécifier le miroir principal. Directive hôte : seul Yandex comprend, Google ne comprend pas ! Si le site fonctionne sous le protocole https, alors il faut le préciser dans Host : Host : http://example.com

Extrait de la documentation Yandex : "Host est une directive indépendante et fonctionne n'importe où dans le fichier (intersectionnel)." On le met donc en haut ou à la toute fin du fichier, via une ligne vide.

Car la présence de flux ouverts est requise, par exemple, pour Yandex Zen, lorsqu'il faut connecter un site à une chaîne (grâce au commentateur « Digital »). Peut-être que des flux ouverts sont nécessaires ailleurs.

Dans le même temps, les flux ont leur propre format dans les en-têtes de réponse, grâce auquel les moteurs de recherche comprennent qu'il ne s'agit pas d'une page HTML, mais d'un flux et, évidemment, le traitent d'une manière ou d'une autre.

La directive Host n'est plus nécessaire pour Yandex

Yandex abandonne complètement la directive Host et la remplace par une redirection 301. L'hôte peut être supprimé en toute sécurité du fichier robots.txt. Cependant, il est important que tous les miroirs de sites disposent d'une redirection 301 vers le site principal (miroir principal).

C'est important : règles de tri avant traitement

Yandex et Google traitent les directives Allow et Disallow dans un ordre différent de celui dans lequel elles sont spécifiées, mais les trient d'abord de la règle courte à la règle longue, puis traitent la dernière règle correspondante :

Agent utilisateur : * Autoriser : */uploads Interdire : /wp-

sera lu comme :

Agent utilisateur : * Interdire : /wp- Autoriser : */uploads

Pour comprendre et appliquer rapidement la fonctionnalité de tri, retenez cette règle : « plus la règle dans robots.txt est longue, plus elle a une priorité élevée. Si la longueur des règles est la même, alors la priorité est donnée à la directive Allow."

Option 2 : robots.txt standard pour WordPress

Je ne sais pas pourquoi, mais je suis pour la première option ! Parce que c'est plus logique - il n'est pas nécessaire de dupliquer complètement la section pour indiquer la directive Host pour Yandex, qui est intersectionnelle (comprise par le robot n'importe où dans le modèle, sans indiquer à quel robot il fait référence). Quant à la directive Allow non standard, elle fonctionne pour Yandex et Google, et si elle n'ouvre pas le dossier de téléchargement pour d'autres robots qui ne la comprennent pas, alors dans 99% des cas, cela n'entraînera rien de dangereux. Je n'ai pas encore remarqué que les premiers robots ne fonctionnent pas comme il se doit.

Le code ci-dessus est un peu incorrect. Merci au commentateur " " d'avoir signalé l'inexactitude, même si j'ai dû découvrir moi-même de quoi il s'agissait. Et voici ce que j'ai trouvé (je peux me tromper) :

Certains robots (pas Yandex et Google) ne comprennent pas plus de 2 directives : User-agent : et Disallow :

La directive Yandex Host: doit être utilisée après Disallow :, car certains robots (pas Yandex et Google) peuvent ne pas la comprendre et rejeter généralement le fichier robots.txt. Yandex lui-même, à en juger par la documentation, ne se soucie absolument pas de savoir où et comment utiliser Host :, même si vous créez généralement un fichier robots.txt avec une seule ligne Host : www.site.ru afin de coller tous les miroirs du site ensemble.

3. Plan du site : une directive intersectionnelle pour Yandex et Google et apparemment pour de nombreux autres robots aussi, donc nous l'écrivons à la fin avec une ligne vide et cela fonctionnera pour tous les robots à la fois.

Sur la base de ces modifications, le code correct devrait ressembler à ceci :

Agent utilisateur : Yandex Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-json/ Interdire : /wp-login.php Interdire : /wp-register.php Interdire : */embed Interdire : */page/ Interdire : /cgi-bin Interdire : *?s= Autoriser : /wp-admin/admin-ajax.php Hôte : site.ru Agent utilisateur : * Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-content/plugins Interdire : /wp-json/ Interdire : /wp-login.php Interdire : /wp-register.php Interdire : */embed Interdire : */page/ Interdire : / cgi-bin Interdire : *?s= Autoriser : /wp-admin/admin-ajax.php Plan du site : http://example.com/sitemap.xml

Ajoutons-le pour nous-mêmes

Si vous devez bloquer d'autres pages ou groupes de pages, vous pouvez ajouter une règle (directive) ci-dessous Refuser:. Par exemple, nous devons fermer toutes les entrées d'une catégorie de l'indexation nouvelles, puis avant Plan du site : ajouter une règle :

Interdire : /news

Il empêche les robots de suivre de tels liens :

http://exemple.com/news
http://example.com/news/drugoe-nazvanie/

Si vous devez fermer des occurrences de /news , écrivez :

Interdire : */actualités

http://exemple.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Vous pouvez étudier plus en détail les directives robots.txt sur la page d'aide de Yandex (mais gardez à l'esprit que toutes les règles qui y sont décrites ne fonctionnent pas pour Google).

Vérification et documentation du fichier Robots.txt

Vous pouvez vérifier si les règles prescrites fonctionnent correctement en utilisant les liens suivants :

Yandex : http://webmaster.yandex.ru/robots.xml.
Chez Google, cela se fait dans Console de recherche. Il faut une autorisation et la présence du site dans le panel webmaster...
Service de création d'un fichier robots.txt : http://pr-cy.ru/robots/
Service de création et de vérification de robots.txt : https://seolib.ru/tools/generate/robots/

J'ai demandé à Yandex...

J'ai posé une question en technologie. Prise en charge de Yandex concernant l'utilisation intersectionnelle des directives Host et Sitemap :

Question:

Bonjour!
J'écris un article sur robots.txt sur mon blog. J'aimerais recevoir une réponse à cette question (je n'ai pas trouvé de « oui » clair dans la documentation) :

Si j'ai besoin de coller tous les miroirs et pour cela j'utilise la directive Host au tout début du fichier robots.txt :
Hôte : site.ru Agent utilisateur : * Interdire : /asd
Est-ce que Host: site.ru fonctionnera correctement dans cet exemple ? Cela indiquera-t-il aux robots que site.ru est le miroir principal ? Ceux. J'utilise cette directive non pas dans une section, mais séparément (au début du fichier) sans indiquer à quel User-agent elle fait référence.

Je voulais aussi savoir si la directive Sitemap doit être utilisée à l'intérieur d'une section ou peut-elle être utilisée à l'extérieur : par exemple, via une ligne vide, après une section ?
Agent utilisateur : Yandex Interdire : /asd Agent utilisateur : * Interdire : /asd Plan du site : http://example.com/sitemap.xml
Le robot comprendra-t-il la directive Sitemap dans cet exemple ?

J'espère recevoir une réponse de votre part qui mettra fin à mes doutes.

Répondre:

Bonjour!

Les directives Host et Sitemap sont intersectionnelles, elles seront donc utilisées par le robot quel que soit l'endroit dans le fichier robots.txt où elles sont spécifiées.

--
Cordialement, Platon Chtchoukine
Service d'assistance Yandex

Conclusion

Il est important de se rappeler que les modifications apportées au fichier robots.txt sur un site déjà fonctionnel ne seront perceptibles qu'après plusieurs mois (2-3 mois).

Il y a des rumeurs selon lesquelles Google peut parfois ignorer les règles du fichier robots.txt et insérer une page dans l'index s'il considère que la page est très unique et utile et qu'elle doit simplement être dans l'index. Cependant, d'autres rumeurs réfutent cette hypothèse selon laquelle des optimiseurs inexpérimentés peuvent spécifier de manière incorrecte les règles dans robots.txt et ainsi fermer les pages nécessaires à l'indexation et laisser celles inutiles. Je suis plus enclin à la deuxième hypothèse...

Robots dynamiques.txt

Dans WordPress, la demande du fichier robots.txt est traitée séparément et il n'est pas du tout nécessaire de créer physiquement un fichier robots.txt à la racine du site, de plus, cela n'est pas recommandé, car avec cette approche ce sera très difficile pour les plugins de modifier ce fichier, et cela est parfois nécessaire.

Découvrez comment fonctionne la création dynamique d'un fichier robots.txt dans la description de la fonction, et ci-dessous je donnerai un exemple de la façon dont vous pouvez modifier le contenu de ce fichier à la volée, via un hook.

Pour ce faire, ajoutez le code suivant à votre fichier function.php :

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // termine le travail PHP)

Agent utilisateur : * Interdire : /wp-admin/ Interdire : /wp-includes/

Crawl-delay - timeout pour les robots fous (non pris en compte depuis 2018)

Yandex

Après avoir analysé les lettres adressées à notre support au cours des deux dernières années concernant des problèmes d'indexation, nous avons découvert que l'une des principales raisons du téléchargement lent des documents est une directive Crawl-delay mal configurée dans robots.txt […] Pour que les propriétaires de sites ne devons nous en soucier et pour garantir que toutes les pages du site Web vraiment nécessaires apparaissent et sont mises à jour rapidement dans la recherche, nous avons décidé d'abandonner la directive Crawl-delay.

Lorsque le robot Yandex scanne le site comme un fou, cela crée une charge inutile sur le serveur. Vous pouvez demander au robot de « ralentir ».

Pour ce faire, vous devez utiliser la directive Crawl-delay. Il indique le temps en secondes pendant lequel le robot doit rester inactif (attendre) pour analyser chaque page suivante du site.

Pour une compatibilité avec les robots qui ne suivent pas bien le standard robots.txt, Crawl-delay doit être spécifié dans le groupe (dans la section User-Agent) immédiatement après Disallow et Allow.

Yandex Robot comprend les valeurs fractionnaires, par exemple 0,5 (une demi-seconde). Cela ne garantit pas que le robot de recherche visitera votre site toutes les demi-secondes, mais cela vous permet d'accélérer l'exploration du site.

Agent utilisateur : Yandex Interdire : /wp-admin Interdire : /wp-includes Délai d'exploration : 1,5 # timeout 1,5 secondes Agent utilisateur : * Interdire : /wp-admin Interdire : /wp-includes Autoriser : /wp-* . gif Délai d'exploration : 2 # délai d'attente 2 secondes

Google

Googlebot ne comprend pas la directive Crawl-delay. Le délai d'attente de ses robots peut être spécifié dans le panneau du webmaster.

Sur le service avi1.ru, vous pouvez désormais acheter une promotion SMM sur plus de 7 des réseaux sociaux les plus populaires. Dans le même temps, faites attention au coût assez bas de tous les services du site.

Navigation rapide sur cette page :

La réalité moderne est que dans RuNet, pas un seul site qui se respecte ne peut se passer d'un fichier appelé robots.txt - même si vous n'avez rien à interdire l'indexation (bien que presque tous les sites aient des pages techniques et du contenu en double qui nécessitent la fermeture de l'indexation ), alors au minimum, cela vaut vraiment la peine d'enregistrer une directive avec www et sans www pour Yandex - c'est à cela que servent les règles d'écriture de robots.txt, qui seront discutées ci-dessous.

Qu'est-ce que robots.txt ?

Un fichier portant ce nom remonte à 1994, lorsque le consortium W3C a décidé d'introduire une telle norme afin que les sites puissent fournir des instructions d'indexation aux moteurs de recherche.

Un fichier portant ce nom doit être enregistré dans le répertoire racine du site ; son placement dans d'autres dossiers n'est pas autorisé.

Le fichier remplit les fonctions suivantes :

interdit l'indexation de pages ou de groupes de pages
permet d'indexer n'importe quelle page ou groupe de pages
indique au robot Yandex quel miroir de site est le principal (avec www ou sans www)
montre l'emplacement du fichier de plan du site

Ces quatre points sont extrêmement importants pour l’optimisation des moteurs de recherche de sites Web. Le blocage de l'indexation vous permet de bloquer l'indexation des pages contenant du contenu en double - par exemple, baliser des pages, des archives, des résultats de recherche, des pages avec des versions imprimables, etc. La présence de contenu en double (lorsque le même texte, même de la taille de plusieurs phrases, est présent sur deux pages ou plus) est un inconvénient pour le site dans les classements des moteurs de recherche, il doit donc y avoir le moins de doublons possible.

La directive Allow n'a aucune signification indépendante, puisque par défaut toutes les pages sont déjà disponibles pour l'indexation. Cela fonctionne en conjonction avec l'interdiction - lorsque, par exemple, une certaine catégorie est complètement fermée des moteurs de recherche, mais que vous souhaitez ouvrir cette page ou une page distincte.

Pointer vers le miroir principal du site est également l'un des éléments les plus importants de l'optimisation : les moteurs de recherche considèrent les sites www.yoursite.ru et yoursite.ru comme deux ressources différentes, sauf indication contraire de votre part. Le résultat est un doublement du contenu - l'apparition de doublons, une diminution de la force des liens externes (les liens externes peuvent être placés aussi bien avec www que sans www) et par conséquent, cela peut conduire à un classement inférieur dans les résultats de recherche.

Pour Google, le miroir principal est enregistré dans les outils pour les webmasters (http://www.google.ru/webmasters/), mais pour Yandex, ces instructions ne peuvent être enregistrées que dans le même robots.tkht.

Pointer vers un fichier XML avec un plan du site (par exemple, sitemap.xml) permet aux moteurs de recherche de détecter ce fichier.

Règles de spécification de l'agent utilisateur

L’agent utilisateur dans ce cas est le moteur de recherche. Lors de la rédaction des instructions, vous devez indiquer si elles s'appliqueront à tous les moteurs de recherche (auquel cas un astérisque est indiqué - *) ou si elles sont destinées à un moteur de recherche spécifique - par exemple, Yandex ou Google.

Afin de paramétrer un User-agent indiquant tous les robots, écrivez la ligne suivante dans votre fichier :

Agent utilisateur: *

Pour Yandex :

Agent utilisateur : Yandex

Pour Google :

Agent utilisateur : GoogleBot

Règles pour spécifier l'interdiction et l'autorisation

Tout d'abord, il convient de noter que le fichier robots.txt doit contenir au moins une directive d'interdiction pour être valide. Examinons maintenant l'application de ces directives à l'aide d'exemples précis.

A l'aide de ce code, vous autorisez l'indexation de toutes les pages du site :

Agent utilisateur : * Interdire :

Et avec ce code, au contraire, toutes les pages seront fermées :

Agent utilisateur : * Interdire : /

Pour interdire l'indexation d'un répertoire spécifique appelé dossier, précisez :

Agent utilisateur : * Interdire : /dossier

Vous pouvez également utiliser des astérisques pour remplacer un nom arbitraire :

Agent utilisateur : * Interdire : *.php

Important : l'astérisque remplace le nom complet du fichier, c'est-à-dire que vous ne pouvez pas spécifier fichier*.php, seulement *.php (mais toutes les pages avec l'extension .php seront interdites ; pour éviter cela, vous pouvez spécifier une adresse de page spécifique) .

La directive permit, comme indiqué ci-dessus, est utilisée pour créer des exceptions dans disallow (sinon elle n'a aucune signification, puisque les pages sont déjà ouvertes par défaut).

Par exemple, nous interdirons l'indexation des pages du dossier archive, mais nous laisserons la page index.html de ce répertoire ouverte :

Autoriser : /archive/index.html Interdire : /archive/

Spécifiez l'hébergeur et le plan du site

L'hébergeur est le miroir principal du site (c'est-à-dire le nom de domaine plus www ou le nom de domaine sans ce préfixe). L'hôte est spécifié uniquement pour le robot Yandex (dans ce cas, il doit y avoir au moins une commande d'interdiction).

Pour spécifier un hôte, robots.txt doit contenir l'entrée suivante :

Agent utilisateur : Yandex Interdire : Hébergeur : www.yoursite.ru

Quant au plan du site, dans robots.txt le plan du site est indiqué en écrivant simplement le chemin complet vers le fichier correspondant, en indiquant le nom de domaine :

Plan du site : http://yoursite.ru/sitemap.xml

Il explique comment créer un plan de site pour WordPress.

Exemple de fichier robots.txt pour WordPress

Pour WordPress, les instructions doivent être précisées de manière à fermer tous les répertoires techniques (wp-admin, wp-includes, etc.) pour l'indexation, ainsi que les pages en double créées par les balises, les fichiers RSS, les commentaires et la recherche.

A titre d'exemple de robots.txt pour wordpress, vous pouvez prendre le fichier de notre site Web :

Agent utilisateur : Yandex Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /search Interdire : */trackback Interdire : */feed/ Interdire : */feed Interdire : */comments/ Interdire : /?feed= Interdire : /?s= Interdire : */page/* Interdire : */comment Interdire : */tag/* Interdire : */ attachment/* Autoriser : /wp-content/uploads/ Hôte : www..php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /search Interdire : */trackback Interdire : */feed/ Interdire : * /feed Interdire : */comments/ Interdire : /?feed= Interdire : /?s= Interdire : */page/* Interdire : */comment Interdire : */tag/* Interdire : */attachment/* Autoriser : /wp -content/uploads/ Agent utilisateur : * Interdire : /wp-admin Interdire : /wp-includes Interdire : /wp-login.php Interdire : /wp-register.php Interdire : /xmlrpc.php Interdire : /search Interdire : */trackback Interdire : */feed/ Interdire : */feed Interdire : */comments/ Interdire : /?feed= Interdire : /?s= Interdire : */page/* Interdire : */comment Interdire : */tag/ * Interdire : */attachment/* Autoriser : /wp-content/uploads/ Plan du site : https://www..xml

Vous pouvez télécharger le fichier robots.txt depuis notre site Web en utilisant .

Si après avoir lu cet article vous avez encore des questions, posez-les dans les commentaires !

Presque tous les projets qui nous sont soumis pour audit ou promotion comportent un fichier robots.txt incorrect, et il est souvent complètement absent. Cela se produit parce que lors de la création d'un fichier, chacun est guidé par son imagination, et non par les règles. Voyons comment composer correctement ce fichier afin que les robots de recherche l'utilisent efficacement.

Pourquoi devez-vous configurer robots.txt ?

Robots.txt est un fichier situé dans le répertoire racine d'un site qui indique aux robots des moteurs de recherche à quelles sections et pages du site ils peuvent accéder et celles auxquelles ils ne peuvent pas accéder.

La configuration du fichier robots.txt est un élément important dans les résultats des moteurs de recherche ; des robots correctement configurés augmentent également les performances du site. Le fichier Robots.txt manquant n'empêchera pas les moteurs de recherche d'explorer et d'indexer votre site, mais si vous ne disposez pas de ce fichier, vous pourriez rencontrer deux problèmes :

Le robot de recherche lira l'intégralité du site, ce qui « sapera » le budget d'exploration. Le budget d'exploration est le nombre de pages qu'un robot de recherche est capable d'explorer sur une certaine période de temps.

Sans fichier robots, le moteur de recherche aura accès à des brouillons et des pages cachées, à des centaines de pages utilisées pour administrer le CMS. Il les indexera, et lorsqu'il s'agira des pages nécessaires qui fournissent du contenu direct aux visiteurs, le budget d'exploration « s'épuisera ».

L'index peut inclure la page de connexion du site et d'autres ressources de l'administrateur, afin qu'un attaquant puisse facilement les suivre et mener une attaque ddos ou pirater le site.

Comment les robots de recherche voient un site avec et sans robots.txt :

Syntaxe du fichier Robots.txt

Avant de commencer à comprendre la syntaxe et à configurer le fichier robots.txt, regardons à quoi devrait ressembler le « fichier idéal » :

Mais il ne faut pas l’utiliser tout de suite. Chaque site nécessite le plus souvent ses propres paramétrages, puisque nous avons tous une structure de site et un CMS différents. Examinons chaque directive dans l'ordre.

Agent utilisateur

Agent utilisateur - définit un robot de recherche qui doit suivre les instructions décrites dans le fichier. Si vous devez vous adresser à tout le monde en même temps, utilisez l’icône *. Vous pouvez également contacter un robot de recherche spécifique. Par exemple, Yandex et Google :

Grâce à cette directive, le robot comprend quels fichiers et dossiers ne peuvent pas être indexés. Si vous souhaitez que l'intégralité de votre site soit ouvert à l'indexation, laissez la valeur Interdire vide. Pour masquer tout le contenu du site après Disallow, mettez « / ».

Nous pouvons empêcher l’accès à un dossier, un fichier ou une extension de fichier spécifique. Dans notre exemple, nous contactons tous les robots de recherche et bloquons l'accès au bitrix, au dossier de recherche et à l'extension pdf.

Permettre

Autoriser force l’indexation des pages et sections du site. Dans l'exemple ci-dessus, nous contactons le robot de recherche Google, bloquons l'accès au bitrix, au dossier de recherche et à l'extension pdf. Mais dans le dossier bitrix on force l'ouverture de 3 dossiers pour l'indexation : composants, js, outils.

Hôte - miroir du site

Un site miroir est une copie du site principal. Les miroirs sont utilisés à diverses fins : changement d'adresse, sécurité, réduction de la charge sur le serveur, etc.

L'hôte est l'une des règles les plus importantes. Si cette règle est écrite, le robot comprendra lequel des miroirs du site doit être pris en compte pour l’indexation. Cette directive est nécessaire pour les robots Yandex et Mail.ru. D'autres robots ignoreront cette règle. L'hôte n'est enregistré qu'une seule fois !

Pour les protocoles « https:// » et « http:// », la syntaxe du fichier robots.txt sera différente.

Plan du site - plan du site

Un plan du site est une forme de navigation sur un site utilisée pour informer les moteurs de recherche des nouvelles pages. À l’aide de la directive sitemap, nous montrons « de force » au robot où se trouve la carte.

Symboles dans robots.txt

Symboles utilisés dans le fichier : « /, *, $, # ».

Vérification de la fonctionnalité après la configuration de robots.txt

Après avoir placé Robots.txt sur votre site Web, vous devez l'ajouter et le vérifier dans le webmaster Yandex et Google.

Vérification Yandex :

Suivez ce lien .
Sélectionnez : Paramètres d'indexation - Analyse Robots.txt.

Vérification Google :

Suivez ce lien .
Sélectionnez : Analyser - Outil d'inspection de fichiers Robots.txt.

De cette façon, vous pouvez vérifier les erreurs dans votre fichier robots.txt et effectuer les ajustements nécessaires si nécessaire.

Le contenu du dossier doit être écrit en majuscules.
Un seul fichier ou répertoire doit être spécifié dans la directive Disallow.
La ligne "User-agent" ne doit pas être vide.
L'agent utilisateur doit toujours précéder Disallow.
N'oubliez pas d'inclure une barre oblique si vous devez désactiver l'indexation d'un répertoire.
Avant de télécharger un fichier sur le serveur, assurez-vous de vérifier s'il contient des erreurs de syntaxe et d'orthographe.

Je te souhaite du succès!

Revue vidéo de 3 méthodes de création et de personnalisation du fichier Robots.txt

Tout d’abord, je vais vous dire ce qu’est robots.txt.

Robots.txt– un fichier qui se trouve dans le dossier racine du site, où sont écrites des instructions spéciales pour les robots de recherche. Ces instructions sont nécessaires pour qu'en entrant sur le site, le robot ne tienne pas compte de la page/section ; autrement dit, nous fermons la page de l'indexation.

Pourquoi avons-nous besoin de robots.txt ?

Le fichier robots.txt est considéré comme une exigence clé pour l’optimisation du référencement de n’importe quel site Web. L'absence de ce fichier peut affecter négativement la charge des robots et ralentir l'indexation et, de plus, le site ne sera pas complètement indexé. En conséquence, les utilisateurs ne pourront pas accéder aux pages via Yandex et Google.

Impact du robots.txt sur les moteurs de recherche ?

Moteurs de recherche(surtout Google) indexera le site, mais s'il n'y a pas de fichier robots.txt, alors, comme je l'ai dit, pas toutes les pages. S'il existe un tel fichier, alors les robots sont guidés par les règles spécifiées dans ce fichier. Par ailleurs, il existe plusieurs types de robots de recherche ; certains peuvent prendre en compte la règle, tandis que d’autres l’ignorent. En particulier, le robot GoogleBot ne prend pas en compte les directives Host et Crawl-Delay, le robot YandexNews a récemment cessé de prendre en compte la directive Crawl-Delay, et les robots YandexDirect et YandexVideoParser ignorent les directives généralement acceptées dans robots.txt (mais prendre en compte ceux qui sont écrits spécifiquement pour eux).

Le site est le plus chargé par les robots qui chargent le contenu de votre site. En conséquence, si nous indiquons au robot quelles pages indexer et lesquelles ignorer, ainsi que à quels intervalles de temps charger le contenu des pages (cela s'applique davantage aux grands sites qui ont plus de 100 000 pages dans l'index du moteur de recherche). Cela permettra au robot d’indexer et de télécharger beaucoup plus facilement le contenu du site.

Les fichiers inutiles pour les moteurs de recherche incluent les fichiers appartenant au CMS, par exemple dans Wordpress – /wp-admin/. De plus, les scripts ajax, json sont responsables des formulaires contextuels, des bannières, de la sortie captcha, etc.

Pour la plupart des robots, je recommande également de bloquer l’indexation de tous les fichiers Javascript et CSS. Mais pour GoogleBot et Yandex, il est préférable d'indexer ces fichiers, car ils sont utilisés par les moteurs de recherche pour analyser la commodité du site et son classement.

Qu'est-ce qu'une directive robots.txt ?

Directives– ce sont les règles pour les robots de recherche. Les premières normes d'écriture de robots.txt sont apparues en 1994 et la norme étendue en 1996. Cependant, comme vous le savez déjà, tous les robots ne prennent pas en charge certaines directives. Par conséquent, j'ai décrit ci-dessous par quoi les principaux robots sont guidés lors de l'indexation des pages d'un site Web.

Que signifie User-Agent ?

Il s’agit de la directive la plus importante qui détermine quels robots de recherche suivront d’autres règles.

Pour tous les robots :

Pour un bot spécifique :

Agent utilisateur : Googlebot

Le registre dans robots.txt n'est pas important, vous pouvez écrire à la fois Googlebot et googlebot

Robots de recherche Google

Robots de recherche Yandex


	Le robot d'indexation principal de Yandex
	Utilisé dans le service Yandex.Images
	Utilisé dans le service Yandex.Video
	Données multimédia
	Recherche de blogs
	Un robot de recherche accédant à une page lors de son ajout via le formulaire « Ajouter une URL »
	robot qui indexe les icônes de sites Web (favicons)
	Yandex.Direct
	Yandex.Metrica
	Utilisé dans le service Yandex.Catalog
	Utilisé dans le service Yandex.News
YandexImageResizer	Robot de recherche de services mobiles

Robots de recherche Bing, Yahoo, Mail.ru, Rambler

Directives Interdire et Autoriser

Interdire l’indexation des sections et des pages de votre site. En conséquence, Allow, au contraire, les ouvre.

Il y a quelques particularités.

Premièrement, les opérateurs supplémentaires sont *, $ et #. Pour quoi sont-ils utilisés?

“*” – c'est n'importe quel nombre de personnages et leur absence. Par défaut, il est déjà en fin de ligne, cela ne sert donc à rien de le remettre.

“$” – indique que le caractère qui le précède doit venir en dernier.

“#” – commentaire, le robot ne prend pas en compte tout ce qui vient après ce symbole.

Exemples d'utilisation de Disallow :

Interdire : *?s=

Interdire : /catégorie/

En conséquence, le robot de recherche fermera des pages telles que :

Mais des pages comme celle-ci seront ouvertes à l’indexation :

Vous devez maintenant comprendre comment les règles d’imbrication sont exécutées. L’ordre dans lequel les directives sont rédigées est absolument important. L'héritage des règles est déterminé par les répertoires spécifiés, c'est-à-dire que si nous voulons bloquer l'indexation d'une page/d'un document, il suffit d'écrire une directive. Regardons un exemple

Ceci est notre fichier robots.txt

Interdire : /modèle/

Cette directive peut également être spécifiée n'importe où, et plusieurs fichiers de plan de site peuvent être spécifiés.

Directive hôte dans robots.txt

Cette directive est nécessaire pour indiquer le miroir principal du site (souvent avec ou sans www). Veuillez noter que la directive hôte est spécifiée sans le protocole http://, mais avec le protocole https://. La directive n'est prise en compte que par les robots de recherche Yandex et Mail.ru, et les autres robots, dont GoogleBot, ne prendront pas en compte la règle. L'hôte doit être spécifié une fois dans le fichier robots.txt

Exemple avec http://

Hébergeur : site web.ru

Exemple avec https://

Directive de délai d'exploration

Définit l'intervalle de temps d'indexation des pages du site par un robot de recherche. La valeur est indiquée en secondes et millisecondes.

Exemple:

Il est principalement utilisé dans les grandes boutiques en ligne, les sites d'information et les portails, où le trafic du site est de 5 000 par jour. Il est nécessaire que le robot de recherche fasse une demande d'indexation dans un certain délai. Si cette directive n'est pas spécifiée, cela peut créer une charge importante sur le serveur.

La valeur optimale du délai d'exploration est différente pour chaque site. Pour les moteurs de recherche Mail, Bing, Yahoo, la valeur peut être fixée à une valeur minimale de 0,25, 0,3, puisque ces robots des moteurs de recherche peuvent explorer votre site une fois par mois, 2 mois, etc. (très rarement). Pour Yandex, il est préférable de définir une valeur plus élevée.

Si la charge sur votre site est minime, alors cela ne sert à rien de spécifier cette directive.

Directive de paramétrage propre

La règle est intéressante car elle indique au robot que les pages avec certains paramètres n'ont pas besoin d'être indexées. Deux arguments sont spécifiés : l'URL de la page et le paramètre. Cette directive est prise en charge par le moteur de recherche Yandex.

Exemple:

Interdire : /admin/

Interdire : /plugins/

Interdire : /recherche/

Interdire : /cart/

Interdire : *trier=

Interdire : *view=

Agent utilisateur : GoogleBot

Interdire : /admin/

Interdire : /plugins/

Interdire : /recherche/

Interdire : /cart/

Interdire : *trier=

Interdire : *view=

Autoriser : /plugins/*.css

Autoriser : /plugins/*.js

Autoriser : /plugins/*.png

Autoriser : /plugins/*.jpg

Autoriser : /plugins/*.gif

Agent utilisateur : Yandex

Interdire : /admin/

Interdire : /plugins/

Interdire : /recherche/

Interdire : /cart/

Interdire : *trier=

Interdire : *view=

Autoriser : /plugins/*.css

Autoriser : /plugins/*.js

Autoriser : /plugins/*.png

Autoriser : /plugins/*.jpg

Autoriser : /plugins/*.gif

Clean-Param : utm_source&utm_medium&utm_campaign

Dans l’exemple, nous avons noté les règles de 3 robots différents.

Où ajouter robots.txt ?

Ajouté au dossier racine du site. De plus, pour que vous puissiez suivre le lien :

Comment vérifier le fichier robots.txt ?

Webmestre Yandex

Dans l'onglet Outils, sélectionnez Analyse Robots.txt, puis cliquez sur Vérifier.

Console de recherche Google

Sur l'onglet Balayage choisir Outil d'inspection de fichiers Robots.txt puis cliquez sur vérifier.

Conclusion:

Le fichier robots.txt doit être présent sur chaque site Internet promu, et seule sa configuration correcte vous permettra d'obtenir l'indexation nécessaire.

Et enfin, si vous avez des questions, posez-les dans les commentaires sous l'article et je me demande aussi, comment écrivez-vous robots.txt ?

Explication des valeurs :

Agent utilisateur : * - vous accédez à tous les moteurs de recherche en même temps, Yandex - uniquement Yandex.
Interdire : répertorie les dossiers et les fichiers dont l'indexation est interdite
Hôte – entrez le nom de votre site sans www.
Plan du site : lien vers le plan du site XML.

Placez le fichier dans le répertoire racine du site à l'aide de Filezilla ou via le site d'hébergement. Publiez-le dans le répertoire principal afin qu'il soit disponible via le lien : your_site.ru/robots.txt

Il ne convient qu'à ceux qui possèdent des machines CNC (les liens sont écrits en mots, pas sous la forme p=333). Allez simplement dans Paramètres – Permaliens, sélectionnez l’option du bas et entrez /%postname% dans le champ.

Certaines personnes préfèrent créer elles-mêmes ce fichier :

Pour commencer, créez un bloc-notes sur votre ordinateur et nommez-le robots (n'utilisez pas de majuscules). A la fin du paramétrage, sa taille ne doit pas dépasser 500 Ko.

Agent utilisateur– nom du moteur de recherche (Yandex, Googlebot, StackRambler). Si vous souhaitez plaire à tout le monde à la fois, mettez une étoile *

Et puis précisez les pages ou dossiers que ce robot ne doit pas indexer à l'aide Refuser:

Tout d'abord, trois répertoires sont répertoriés, puis un fichier spécifique.

Pour permettre l'indexation de tout et de tous, il faut écrire :

Agent utilisateur: *
Refuser:

Configuration de robots.txt pour Yandex et Google

Pour Yandex Vous devez absolument ajouter la directive host pour éviter les pages en double. Ce mot n'est compris que par le bot Yandex, alors notez les instructions séparément.

Pour Google il n'y a pas d'extras. La seule chose que vous devez savoir est comment y accéder. Dans la section User-agent, vous devez écrire :

Googlebot ;
Googlebot-Image – si vous limitez l'indexation des images ;
Googlebot-Mobile - pour la version mobile du site.

Comment vérifier la fonctionnalité du fichier robots.txt

Cela peut être fait dans la section « Outils pour les webmasters » du moteur de recherche Google ou sur le site Web Yandex.Webmaster dans la section Vérifier robots.txt.

S'il y a des erreurs, corrigez-les et vérifiez à nouveau. Obtenez un bon résultat, puis n'oubliez pas de copier le code correct dans robots.txt et de le télécharger sur le site.

Vous avez maintenant une idée sur la façon de créer un fichier robots.txt pour tous les moteurs de recherche. Pour les débutants, je recommande d'utiliser un fichier prêt à l'emploi, en remplaçant le nom de votre site.