Cum „văd” roboții lumea? Cum să faceți upgrade la o nouă versiune de Search Console Cele mai bune sisteme CMS plătite
Bună ziua, cititori. Primesc întotdeauna o mulțime de întrebări de la webmasteri, proprietari de site-uri și bloggeri despre erori și mesaje care apar în Yandex.Webmaster. Mulți oameni sunt speriați de astfel de mesaje.
Dar vreau să spun că nu toate mesajele sunt critice pentru site. Iar în articolele viitoare voi încerca să acopăr cât mai complet toate întrebările posibile pe care le pot avea webmasterii. Acest articol va discuta secțiunile:
- Diagnosticare – Diagnosticare site
- Indexare - Pagini în căutare
Am scris despre ce și de ce este nevoie de el acum câțiva ani. Dacă nu sunteți familiarizat cu acest instrument, vă rugăm să citiți mai întâi articolul de pe link.
Diagnosticarea site-ului
Probleme posibile
1. Directiva Gazdă nu este specificată în fișierul robots.txt
Această remarcă de la Yandex este demnă de remarcat prin faptul că directiva Gazdă nu este o directivă standardizată; este susținută numai de motorul de căutare Yandex. Este necesar dacă Yandex identifică incorect oglinda site-ului.
De regulă, o oglindă a site-ului este determinată automat de Yandex pe baza URL-urilor pe care CMS-ul însuși le generează și pe baza linkurilor externe care duc la site. Pentru a specifica oglinda principală a site-ului, nu este necesar să indicați acest lucru în fișierul robots.txt. Principala modalitate este de a folosi o redirecționare 301, care fie este configurată automat în CMS, fie codul necesar este adăugat la fișierul .htachess.
Vă rugăm să rețineți că trebuie să specificați o directivă în fișierul robots.txt în cazurile în care Yandex determină incorect oglinda principală a site-ului și nu puteți influența aceasta în niciun alt mod.
CMS-ul cu care am lucrat recent, WordPress, Joomla, ModX, redirecționează implicit adresa de la www la fără, dacă setările sistemului specifică adresa site-ului fără prefix. Sunt sigur că toate CMS-urile moderne au această caracteristică. Chiar și iubitul meu Blogger redirecționează corect adresa unui blog situat pe propriul său domeniu.
2. Lipsesc metaetichete
Problema nu este critică, nu trebuie să vă fie frică de ea, dar dacă este posibil, este mai bine să o remediați decât să nu acordați atenție. Dacă CMS-ul dvs. nu oferă crearea de metaetichete în mod implicit, atunci începeți să căutați un plugin, un supliment, o extensie sau orice se numește în CMS pentru a putea seta manual o descriere a paginii sau pentru a avea descrierea generate automat de la primele cuvinte ale articolului.
3. Nu există fișiere Sitemap utilizate de robot
Desigur, este mai bine să corectați această eroare. Dar vă rugăm să rețineți că problema poate apărea atât în cazurile în care există un fișier sitemap.xml, cât și în acele cazuri când acesta chiar nu există. Dacă aveți un fișier, dar Yandex nu îl vede, mergeți la secțiunea Indexare - Fișiere Sitemap. Și adăugați manual fișierul la Yandex.Webmaster. Dacă nu aveți deloc un astfel de fișier, atunci, în funcție de CMS-ul pe care îl utilizați, căutați soluții.
Fișierul sitemap.xml se află la http://your-domain.ru/sitemap.xml
4. Fișierul Robots.txt nu a fost găsit
Totuși, acest fișier trebuie să existe și, dacă aveți ocazia să îl conectați, este mai bine să faceți acest lucru. Și acordați atenție articolului cu directiva Gazdă.
Fișierul robots.txt se află la http://vash-domen.ru/robots.txt
În acest moment, izvorul erorilor din fila Diagnosticare site s-a secat pentru mine.
Indexarea
Pagini în căutare
Să începem de la acest punct. Acest lucru va facilita structurarea informațiilor.
Selectați în filtrul „Toate paginile”.
Mergeți mai jos, în partea dreaptă a paginii „Descărcare tabel”, Selectați XLS și deschideți fișierul în Excel.
Primim o listă de pagini care se află în căutare, de exemplu. Yandex știe despre ele, le clasifică și le arată utilizatorilor.
Să vedem câte înregistrări sunt în tabel. Am 289 de pagini.
De unde știi cât ar trebui să fie? Fiecare site este unic și doar tu poți ști câte pagini ai publicat. Vă voi arăta folosirea blogului meu WordPress ca exemplu.
Blogul la momentul scrierii contine:
- Intrări - 228
- Pagini - 17
- Titluri - 4
- Etichete - 41
- + pagina de start a site-ului
În total avem 290 de pagini care ar trebui să fie în index. În comparație cu datele din tabel, diferența este de doar 1 pagină. Putem considera acest lucru un indicator foarte bun. Dar este prea devreme să ne bucurăm. Se întâmplă ca matematic totul să coincidă, dar când începi să analizezi apar neconcordanțe.
Există două moduri de a găsi acea pagină care nu se află în căutare. Să ne uităm la amândouă.
Metoda unu. În același tabel pe care l-am descărcat, am împărțit căutarea în mai multe etape. Mai întâi am selectat paginile rubricilor. Am doar 4 categorii. Pentru a vă optimiza munca, utilizați filtre de text în Excel.
Apoi am exclus Tag-urile din căutare, lăsând doar articole în tabel. Și aici, indiferent câte articole ar fi, va trebui să te uiți prin fiecare pentru a-l găsi pe cel care nu se află în index.
Vă rugăm să rețineți că fiecare CMS are propria sa structură. Fiecare webmaster are propriul său fișier SEO, canonic, robots.txt.
Din nou, folosind WordPress ca exemplu, fiți atenți la care secțiuni ale site-ului dvs. sunt indexate și care sunt închise. Pot exista, de asemenea, pagini de arhivă în funcție de lună și an, pagini de autor și paginare de pagină. Am toate aceste secțiuni închise cu setările metaetichetei roboților. Poate fi diferit pentru dvs., așa că luați în considerare tot ceea ce nu este interzis pentru indexare.
Dacă luăm Blogger ca exemplu, atunci proprietarii blogului trebuie să numere doar Postările, Paginile și Pagina de pornire publicate. Toate celelalte pagini de arhive și etichete sunt închise pentru indexare după setări.
Metoda a doua. Revenim la webmaster, selectăm „Pagini excluse” în filtru.
Acum avem o listă de pagini care sunt excluse din căutare. Lista poate fi mare, mult mai mare decât cu paginile incluse în căutare. Nu trebuie să vă temeți că ceva este în neregulă cu site-ul.
Când am scris articolul, am încercat să lucrez în interfața pentru webmasteri, dar nu am obținut funcționalitatea dorită; poate că acesta este un fenomen temporar. Prin urmare, ca și în versiunea anterioară, voi lucra cu date tabelare; puteți descărca și tabelul din partea de jos a paginii.
Din nou, folosind blogul meu WordPress ca exemplu, voi analiza motivele tipice de excepție.
În tabelul rezultat, cea mai importantă coloană pentru noi este „httpCode”. Pentru cei care nu știu ce sunt răspunsurile serverului, citiți Wikipedia. Acest lucru vă va face mai ușor să înțelegeți mai multe materiale.
Să începem cu codul 200. Dacă puteți ajunge la o pagină de pe Internet fără autorizație, atunci o astfel de pagină va avea o stare de 200. Toate aceste pagini pot fi excluse din căutare din următoarele motive:
- Interzis de metaeticheta roboților
- Interzis pentru indexare în fișierul robots.txt
- Sunt non-canonice, metaeticheta canonică este setată
Tu, în calitate de proprietar al site-ului, trebuie să știi ce pagini au ce setări. Prin urmare, înțelegerea listei de pagini excluse nu ar trebui să fie dificilă.
Configurați filtre, selectați în coloana D - 200
Acum suntem interesați de coloana E - „stare”, să o sortăm.
Stare BAD_QUALITY- Nu este de calitate suficientă. Cel mai neplăcut statut dintre toate. Să-l descompunem.
În tabelul meu erau doar 8 URL-uri cu starea Calitate insuficientă. Le-am numerotat în coloana din dreapta.
URL 1, 5, 7 — Pagini de feed, 2,3,4,5,8 — pagini de serviciu din directorul site-ului wp-json. Toate aceste pagini nu sunt documente HTML și, în principiu, nu ar trebui să fie pe această listă.
Prin urmare, examinați cu atenție lista de pagini și evidențiați numai paginile HTML.
Stare META_NO_INDEX. Paginile de paginare și pagina autorului sunt excluse din index din cauza setărilor metaetichetei roboților
Dar există o pagină pe această listă care nu ar trebui să fie acolo. Am evidențiat adresa URL în albastru.
Stare NOT_CANONICAL. Numele vorbește de la sine. Pagina non-canonică. Pe orice pagină a site-ului puteți instala metaeticheta canonică, în care indicați URL-ul canonic.