Hogyan „látják” a világot a robotok? Hogyan frissíthet a Search Console legnépszerűbb fizetős CMS-rendszereinek új verziójára
Jó napot, olvasók. Mindig sok kérdést kapok webmesterektől, webhelytulajdonosoktól és bloggerektől a Yandex.Webmasterben megjelenő hibákkal és üzenetekkel kapcsolatban. Sokan megijednek az ilyen üzenetektől.
De azt akarom mondani, hogy nem minden üzenet kritikus az oldal számára. A következő cikkekben pedig igyekszem a lehető legteljesebb mértékben lefedni az összes lehetséges kérdést, amely a webmestereknek felmerülhet. Ez a cikk a következő részeket tárgyalja:
- Diagnosztika – Helyi diagnosztika
- Indexelés – Oldalak a Keresésben
Arról, hogy miért és miért van rá szükség, néhány éve írtam. Ha nem ismeri ezt az eszközt, kérjük, először olvassa el a linken található cikket.
Helyi diagnosztika
Lehetséges problémák
1. A Host direktíva nincs megadva a robots.txt fájlban
A Yandex ezen megjegyzése figyelemre méltó, mivel a Host direktíva nem szabványos irányelv, csak a Yandex keresőmotorja támogatja. Szükséges, ha a Yandex helytelenül azonosítja a webhelytükröt.
A webhelytükrözést általában a Yandex automatikusan határozza meg a CMS által generált URL-ek és a webhelyre mutató külső hivatkozások alapján. Az oldal főtükre megadásához ezt nem szükséges feltüntetni a robots.txt fájlban. A fő módszer a 301-es átirányítás használata, amely vagy automatikusan konfigurálódik a CMS-ben, vagy a szükséges kód hozzáadódik a .htachess fájlhoz.
Kérjük, vegye figyelembe, hogy meg kell adnia egy direktívát a robots.txt fájlban olyan esetekben, amikor a Yandex helytelenül határozza meg a webhely fő tükrét, és ezt más módon nem tudja befolyásolni.
A CMS, amellyel mostanában dolgoztam, a WordPress, a Joomla, a ModX alapértelmezés szerint átirányítja a címet www-ről a nélküle, ha a rendszerbeállítások előtag nélkül adják meg a webhely címét. Biztos vagyok benne, hogy minden modern CMS rendelkezik ezzel a funkcióval. Még a szeretett Bloggerem is helyesen irányítja át a saját domainjén található blog címét.
2. Hiányzó metacímkék
A probléma nem kritikus, nem kell megijedni tőle, de ha lehet, jobb javítani, mint nem figyelni. Ha az Ön CMS-je alapértelmezés szerint nem biztosítja a metacímkék létrehozását, akkor kezdjen el keresni egy beépülő modult, kiegészítőt, bővítményt vagy bármi mást a CMS-ben annak érdekében, hogy manuálisan beállíthassa az oldalleírást vagy a leírást. automatikusan generálódik a cikk első szavaiból.
3. A robot nem használ webhelytérkép fájlokat
Természetesen jobb ezt a hibát kijavítani. De kérjük, vegye figyelembe, hogy a probléma akkor fordulhat elő, ha van sitemap.xml fájl, és akkor is, ha valóban nem létezik. Ha van egy fájlja, de a Yandex nem látja, egyszerűen lépjen az Indexelés - Webhelytérkép-fájlok szakaszra. És manuálisan adja hozzá a fájlt a Yandex.Webmasterhez. Ha egyáltalán nem rendelkezik ilyen fájllal, akkor a használt CMS-től függően keressen megoldásokat.
A sitemap.xml fájl a http://your-domain.ru/sitemap.xml címen található
4. A Robots.txt fájl nem található
Ennek a fájlnak mégis léteznie kell, és ha van lehetősége csatlakoztatni, akkor jobb, ha megteszi. És figyeljen a Host direktívával rendelkező elemre.
A robots.txt fájl a http://vash-domen.ru/robots.txt címen található
Ezen a ponton a Webhelydiagnosztika lap hibaforrása kiszáradt számomra.
Indexelés
Keresésben lévő oldalak
Kezdjük ettől a ponttól. Ez megkönnyíti az információk strukturálását.
Válassza a „Minden oldal” szűrőben
Menjen lejjebb, a „Táblázat letöltése” oldal jobb oldalán, válassza ki az XLS-t, és nyissa meg a fájlt Excelben.
Kapunk egy listát azokról az oldalakról, amelyek a keresésben vannak, pl. A Yandex tud róluk, rangsorolja és megmutatja a felhasználóknak.
Nézzük meg, hány rekord van a táblázatban. 289 oldalam van.
Honnan tudod, hogy mennyi legyen? Minden webhely egyedi, és csak Ön tudhatja, hány oldalt tett közzé. Példaként a WordPress blogomat mutatom be.
A blog az írás idején a következőket tartalmazza:
- Bejegyzések - 228
- Oldalak – 17
- Címsorok – 4
- Címkék - 41
- + az oldal kezdőlapja
Összesen 290 oldalunk van az indexben. A táblázat adataihoz képest mindössze 1 oldal a különbség. Ezt nyugodtan tekinthetjük nagyon jó mutatónak. De még korai örülni. Előfordul, hogy matematikailag minden egybeesik, de amikor elkezdi elemezni, következetlenségek jelennek meg.
Kétféleképpen lehet megtalálni azt az oldalt, amely nem szerepel a keresésben. Nézzük mindkettőt.
1. módszer. Ugyanabban a táblázatban, amelyet letöltöttem, a keresést több szakaszra osztottam. Először a Rubrikák oldalait választottam ki. Csak 4 kategóriám van. A munka optimalizálásához használjon szövegszűrőket az Excelben.
Ezután kizártam a címkéket a keresésből, és csak a cikkeket hagytam a táblázatban. És itt, akárhány cikk van, mindegyiket át kell néznie, hogy megtalálja azt, amelyik nem szerepel az indexben.
Felhívjuk figyelmét, hogy minden CMS-nek megvan a maga szerkezete. Minden webmesternek saját SEO, kanonikus, robots.txt fájlja van.
Ismét a WordPress példaként való felhasználásával figyeljen arra, hogy webhelyének mely részei vannak indexelve és melyek zárva. Lehetnek még archív oldalak hónap és év szerint, szerzői oldalak és oldallapozás. Ezeket a részeket a robots metacímke beállításaival lezártam. Lehet, hogy az Ön számára más, ezért vegye figyelembe mindazt, ami nem tilos az indexelésben.
Ha a Bloggert vesszük példaként, akkor a blogtulajdonosoknak csak a közzétett bejegyzéseket, oldalakat és a kezdőlapokat kell számolniuk. Az archívumok és a címkék összes többi oldala be van zárva a beállítások szerinti indexelés céljából.
Második módszer. Visszatérünk a Webmesterhez, a szűrőben válassza ki a „Kizárt oldalak” lehetőséget.
Most megvan a keresésből kizárt oldalak listája. A lista lehet nagy, sokkal nagyobb, mint a keresésben szereplő oldalak esetében. Nem kell attól tartani, hogy valami nem stimmel az oldallal.
A cikk írásakor megpróbáltam a Webmester felületen dolgozni, de nem kaptam meg a kívánt funkcionalitást, ez talán átmeneti jelenség. Ezért az előző verzióhoz hasonlóan most is táblázatos adatokkal fogok dolgozni, az oldal alján található táblázat letölthető is.
Ismét a WordPress blogomat használva példaként, megvizsgálom a tipikus kivételes okokat.
A kapott táblázatban számunkra a legfontosabb oszlop a „httpCode”. Azok számára, akik nem tudják, mik a szerver válaszai, olvassák el a Wikipédiát. Ez megkönnyíti a további anyagok megértését.
Kezdjük a 200-as kóddal. Ha az interneten jogosulatlanul eljut egy oldalra, akkor egy ilyen oldal 200-as állapotú lesz. Minden ilyen oldal kizárható a keresésből a következő okok miatt:
- A robots meta tag tiltja
- Tilos az indexelés a robots.txt fájlban
- Ha nem kanonikus, a kanonikus metacímke be van állítva
Önnek, mint webhely tulajdonosának tudnia kell, hogy mely oldalak milyen beállításokkal rendelkeznek. Ezért a kizárt oldalak listájának megértése nem lehet nehéz.
Állítsa be a szűrőket, válassza ki a D - 200 oszlopban
Most az E oszlop érdekel - „állapot”, rendezzük.
Állapot BAD_QUALITY- Nem megfelelő minőségű. A legkellemetlenebb állapot az összes közül. Bontsuk szét.
A táblázatomban csak 8 URL volt elégtelen minőséggel. A jobb oldali oszlopba sorszámoztam őket.
URL 1, 5, 7 – hírcsatornaoldalak, 2,3,4,5,8 – szolgáltatási oldalak a wp-json webhelykönyvtárban. Mindezek az oldalak nem HTML-dokumentumok, és elvileg nem szerepelhetnek ezen a listán.
Ezért gondosan tekintse át oldallistáját, és csak a HTML-oldalakat emelje ki.
Állapot META_NO_INDEX. A lapozó oldalak és a szerző oldala a robots metatag beállításai miatt kimarad az indexből
De ezen a listán van egy oldal, aminek nem szabadna ott lennie. Kék színnel kiemeltem az url-t.
Állapot NOT_CANONICAL. A név magáért beszél. Nem kanonikus oldal. A webhely bármely oldalára telepítheti a kanonikus metacímkét, amelyben megadja a kanonikus URL-t.