Bár régóta létező eszköz, nagyon sokan nem ismerik, és nincsenek tisztában a jelentőségével, veszélyeivel, mivel helytelen használata biztonsági kockázatot jelent a weboldalra nézve. Mire való a robots.txt és hogyan kell használni? Mutatjuk, tarts velünk!
Mi a robots.txt fájl, és miért szükséges?
A robots.txt tulajdonképpen a webmesterek és a keresőmotorok közötti kommunikációs eszköz. Minden weboldalhoz egy, a gyökérkönyvtárban található, bárki számára nyilvános robots.txt tartozik, és az oldalt feltérképező robotok az ebben található direktívák szerint dolgoznak, térképezik fel a weboldalt és döntik el, hogy mit szabad és mit nem.
Ebben a fájlban tudunk:
- a weboldalhoz teljes hozzáférést adni, vagyis az összes robotnak megengedni az oldal feltérképezését,
- megtiltani robotoknak a weboldal feltérképezését,
- megtiltani bizonyos könyvtárak és fájlok feltérképezését,
valamint a fentieken túl még néhány hasznos funkciót beállítani a keresőrobotok munkájával kapcsolatban.
És bár a honlaptulajdonosok elsődleges célja, hogy oldaluk mindig elérhető legyen a felhasználói keresésekre, egyes esetekben kimondottan előny, ha nem jelenít meg bizonyos oldalakat, fájlokat a keresési listában a keresőmotor. Ilyen lehet bizonyos oldalak, landing-ek, admin-felület login oldalának elrejtése, vagy duplikált tartalmak indexelése.
A robots.txt fájl és a SEO kapcsolata
Viszonylag egyszerű fájlról van szó, amely azonban egy laikusnak elsőre nem sokat mond, pedig igen lényeges mezőket tartalmaz.
A user-agent segítségével kizárhatsz robotokat a feltérképezésből, míg a disallow-val egy mappa indexelését tilthatod meg.
A felhasználói élmény miatt a keresők korlátozzák a weboldalak feltérképezésének periodikusságát, vagyis korlátozzák az alacsony értékű URL-ek vizsgálatát, így azok nem kerülnek be az indexbe, így nem rontják az oldal rangsorolását. Ebből következik, hogy a webmestereknek viszont ki kell zárniuk az alacsony értékkel rendelkező URL-eket.
Milyen hibákat ne kövess el a robots.txt esetén?
Egy bonyolult weboldal szerteágazó struktúrával rendelkezik, emiatt a robots.txt sokszor követhetetlenné válik, ami megnöveli a hiba lehetőségét.
A fájl biztonsági kockázatot jelent, amennyiben rosszul használod. Soha ne tegyél be bizalmas könyvtárakat (logók, jelszavak, adatbázisok, fájlok), inkább jelszavas védelmet vagy IP-korlátozást használj. Ne keltsd fel a hackerek figyelmét, ne fájlt, inkább könyvtárat tilts, ne linkelj privát tartalomra.
Általánosságban a robots.txt létrehozására a webmester feladata, azonban WordPress használatával automatikus funkció.
A robots.txt ellenőrzésével, konkrét URL-ek tesztelésével minimalizálhatod annak az esélyét, hogy illetéktelenek feltörjék az oldaladat bizalmas adatok után kutatva.
Címkék: kereső, alhconsulting, robot, weboldal, reklám