SEO - Používame robots.txt

robots.txt Súbor robots.txt sa umiestňuje zvyčajne do koreňovej zložky stránky. Pomocou neho dokážete zakázať robotom prístup k určitým súborom alebo adresárom, ktoré nechcete aby vyhľadávač zaindexoval. Niekedy napríklad nejde ani o robotov ale skôr o ušetrenie prenesených dát vášho hostingu. Taký roboti prenesú vysoké číslo prenesených dát. Len si predstavte koľko to musí byť, pokiaľ navštívi každú URL na stránke.

Robots.txt musí mať ukončovanie riadkov typu UNIX (LF). Takže nezabudnite súbor uložiť v správnom formáte! Myslím, že nemusíte byť programátorom na to, aby ste si mohli dovoliť pracovať s týmto obyčajným textovým súborom. Ako prvé čo sa do robots.txt píše je text User-agent:. Určíme ním názov robota, napr.:

User-agent: googlebot

Samozrejme robotov máme na svete obrovské množstvo ale tých dôležitých je len niekoľko s nich. Ak chcete nastaviť robots.txt pre všetkých robotov, stačí ak zapíšete do User-agent: nasledujúci parameter:

User-agent: *

Pod názov robota napíšeme na nový riadok Disallow:. Tento zápis služí na zakázanie/povolenie prístupu robotov na celé stránky, či len určité zložky a súbory.

User-agent: *
Disallow:

Tento príklad špecifikuje zápis súboru, tak aby všetci roboti navštívili každý súbor alebo zložku na stránke.
Naopak nasledujúci zápis zakáže všetkým robotom prístup.

User-agent: *
Disallow: /

Zakázať robotom snoriť v zložkách môžete takto:

User-agent: *
Disallow: /zlozka1/
Disallow: /zlozka2/
Disallow: /zlozka3/

Žiadny robot teraz nebude navštevovať zložky zlozka1, zlozka2, zlozka3. V robots.txt máme ešte ďalšiu možnosť zápisu a je ňou Crawl-Delay:. Vďaka Crawl-Delay: môžeme nastaviť v sekundách dobu, ktorú robot strávi na stránke.

Na začiatku som písal ako možno ušetriť prenesené dáta. Teraz sa k tomu vrátim a napíšem riešenie, ktoré zabráni robotom čerpať veľké množstvo dát. Tento screenshot pochádza z mojích štatistík návštevnosti. Všimnite si koľko trafficu čerpajú "len" roboti.

Traffic robotov bez robots.txt

Všimnite si robota, ktorý čerpá najväčšie množstvo dát. Stránka sa mu páči natoľko, že na nej trávi neprimerane veľa času :-). V skutočnosti je to asi tým, že navštevuje stránku príliš často. Aby sme zabránili takémuto "vyžieraniu" dát, mali by sme robota obmezdiť maximálnou prístupovou dobou. Preto použijeme Crawl-delay:.

User-agent: Slurp
Crawl-delay: 15

Podľa zápisu si už teraz robot Slurp na stránke pobdie maximálne 15 sekúnd, čo predpokladám je dosť na to, aby nečerpal toľko dát koľko nemusí. Ak zapojíme trochu logiky, môžeme takéto opatrenie vykonať pre všetkých robotov takto:

User-agent: *
Crawl-delay: 15

Toto sa však neodporúča a preto by bolo lepšie keby ste to nepoužívali. Ak si chcete skontrolovať váš robots.txt validátorom, tak máte na výber validátor na stránke SearchEngineWorld, alebo vám pomože Google. Nenechajte sa hneď zmiasť, ak validátor vyhodí chybu napr. pri Crawl-delay. Crawl-delay validné nie je, avšak funkčné určite je (záleží od robota). Je to len mimo štandard. Taký Googlebot Crawl-delay ignoruje ale napoak Slurp či msnbot ho podporujú.

Ako každý správny skript (toto síce nie je skript), robots.txt ponúka možnosť zapísania komentárov. Komentáre sa zapisujú rovnako ako napr. pri úprave httpd.conf v Apache, čiže takto:

#Roboti sú na tejto stranke vitani
User-agent: *
Disallow:

Ako som sa na internete dočítal určite, nezakomentuje nič takýmto spôsobom:

User-agent: *
Disallow: nieco #tu mam subory

Väčšina robotov bude pracovať s komentármi v robots.txt správne ale dôvod prečo by ste nemali komentovať riadky takýmto spôsobom je ten, že niektorí roboti budú stránku indexovať takto:

User-agent: *
Disallow: nieco#tu mam subory

Dajte si na toto pozor! Nikdy neviete aký robot vás navštívi. Venujte pozornosť aj názvu súboru, pretože správne môže byť len robots.txt, a nie nejaké ROBOTS.txt, či ROBOTS.TXT. Proste case-sensitive.

Odkazy s ďalšími zdrojmi informácií:
Alternatívne verzie: Text PDF Voice
Autor: PaBi3 · Kategória: SEO, SEM · Dátum: 20.08.2005 17:09

Komentáre

#1 Matus Jancik E-mail
29.08.2006 12:21
Netreba nejak zabezpecit aby sa subor robots.txt nedal prezerat z vonku? Napriklad whitehouse.gov/robots.txt vam ukaze pekny zoznam zloziek zo stranky :)

#2 admin Web E-mail
01.09.2006 10:38
admin Tie zložky, ktoré na stránke nie sú zalinkované vyhľadávač neindexuje.

Čiže pokiaľ má niekto na stránke zložku admin/ a nikde na ňu nie je odkázané, tak nevidím dôvod prečo na ňu odkázať v súbore robots.txt.

Teoretickým riešením by však bolo povoliť iba IP adresy, ktoré patria robotom. Nie je však v ľudských silách dokázať udržovať zoznam takýchto adries [shy].

#3 Risho E-mail
16.11.2006 16:06
maly detajl ako ulozim subor vo formáte súboru UNIX[question] Thnx

#4 admin Web E-mail
18.11.2006 06:25
admin Mal by to vedieť ukladať každý lepší editor. Nájdete to v nastaveniach alebo pri ukladaní súboru budete mať dole na výber aké ukončovanie riadkov chcete zvoliť.

Napr. v PSPade to nájdete v menu Formát -> UNIX (LF).

Osobné údaje
Captcha
Odpíšte text z obrázku. Rozlišujú sa malé a veľké písmená.
Obsah
Možnosti