<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE html PUBLIC '-//W3C/DTD XHTML+Voice 1.2 /EN' 'http://www.voicexml.org/specs/multimodal/x+v/12/dtd/xhtml+voice12.dtd'>
<html xmlns='http://www.w3.org/1999/xhtml' xmlns:ev='http://www.w3.org/2001/xml-events'>
<head>
<link rel='stylesheet' href='http://pabi3.com/modules/items/voice.css' type='text/css' media='all' />
<form xmlns='http://www.w3.org/2001/vxml' id='title'>
<block>
The article SEO - Pouzivame robots.txt is written by PaBi3
</block>
</form>
<form xmlns='http://www.w3.org/2001/vxml' id='body'>
<block>


Subor robots.txt sa umiestnuje zvycajne do korenovej zlozky stranky. Pomocou neho dokazete zakazat robotom pristup k urcitym suborom alebo adresarom, ktore nechcete aby vyhladavac zaindexoval. Niekedy napriklad nejde ani o robotov ale skor o usetrenie prenesenych dat vasho hostingu. Taky roboti prenesu vysoke cislo prenesenych dat. Len si predstavte kolko to musi byt, pokial navstivi kazdu URL na stranke.
</block>
</form>
<form xmlns='http://www.w3.org/2001/vxml' id='full'>
<block>

Robots.txt musi mat ukoncovanie riadkov typu UNIX (LF). Takze nezabudnite subor ulozit v spravnom formate! Myslim, ze nemusite byt programatorom na to, aby ste si mohli dovolit pracovat s tymto obycajnym textovym suborom. Ako prve co sa do robots.txt pise je text User-agent:.
Urcime nim nazov robota, napr.:


User-agent: googlebot


Samozrejme robotov mame na svete obrovske mnozstvo ale tych dolezitych je len
niekolko s nich. Ak chcete nastavit robots.txt pre vsetkych robotov, staci ak zapisete do User-agent: nasledujuci parameter:


User-agent: *


Pod nazov robota napiseme na novy riadok Disallow:.
Tento zapis sluzi na zakazanie/povolenie pristupu robotov na cele stranky, ci len urcite zlozky a subory.


User-agent: *
Disallow:


Tento priklad specifikuje zapis suboru, tak aby vsetci roboti
navstivili kazdy subor alebo zlozku na stranke.
Naopak nasledujuci zapis zakaze vsetkym robotom pristup.


User-agent: *
Disallow: /


Zakazat robotom snorit v zlozkach mozete takto:


User-agent: *
Disallow: /zlozka1/
Disallow: /zlozka2/
Disallow: /zlozka3/


Ziadny robot teraz nebude navstevovat zlozky zlozka1, zlozka2, zlozka3.
V robots.txt mame este dalsiu moznost zapisu a je nou Crawl-Delay:.
Vdaka Crawl-Delay: mozeme nastavit v sekundach dobu, ktoru robot stravi
na stranke.



Na zaciatku som pisal ako mozno usetrit prenesene data. Teraz sa k tomu vratim a napisem riesenie, ktore zabrani robotom cerpat velke mnozstvo dat.
Tento screenshot pochadza z mojich statistik navstevnosti. Vsimnite si kolko trafficu cerpaju "len" roboti.







Vsimnite si robota, ktory cerpa najvacsie mnozstvo dat. Stranka sa mu paci natolko, ze na nej travi neprimerane vela casu :-). V skutocnosti je to asi tym, ze navstevuje stranku prilis casto. Aby sme zabranili takemuto "vyzieraniu" dat, mali by sme robota obmezdit maximalnou pristupovou dobou.
Preto pouzijeme Crawl-delay:.


User-agent: Slurp
Crawl-delay: 15


Podla zapisu si uz teraz robot Slurp na stranke pobdie maximalne 15 sekund, co predpokladam je dost na to, aby necerpal tolko dat kolko nemusi. Ak zapojime trochu logiky, mozeme taketo opatrenie vykonat pre vsetkych robotov takto:


User-agent: *
Crawl-delay: 15


Toto sa vsak neodporuca a preto by bolo lepsie keby ste to nepouzivali. Ak si chcete
skontrolovat vas robots.txt validatorom, tak mate na vyber validator na stranke
SearchEngineWorld, alebo vam pomoze Google.
Nenechajte sa hned zmiast, ak validator vyhodi chybu napr. pri Crawl-delay.
Crawl-delay validne nie je, avsak funkcne urcite je (zalezi od robota). Je to len mimo standard. Taky Googlebot Crawl-delay ignoruje ale napoak Slurp ci msnbot ho podporuju.



Ako kazdy spravny skript (toto sice nie je skript), robots.txt ponuka moznost zapisania komentarov. Komentare sa zapisuju rovnako ako napr. pri uprave httpd.conf v Apache, cize takto:


#Roboti su na tejto stranke vitani
User-agent: *
Disallow:


Ako som sa na internete docital urcite, nezakomentuje nic takymto sposobom:


User-agent: *
Disallow: nieco #tu mam subory


Vacsina robotov bude pracovat s komentarmi v robots.txt spravne ale
dovod preco by ste nemali komentovat riadky takymto sposobom je ten, ze niektori
roboti budu stranku indexovat takto:


User-agent: *
Disallow: nieco#tu mam subory


Dajte si na toto pozor! Nikdy neviete aky robot vas navstivi. Venujte pozornost aj nazvu suboru, pretoze spravne moze byt len robots.txt, a nie nejake ROBOTS.txt, ci ROBOTS.TXT. Proste case-sensitive.


Odkazy s dalsimi zdrojmi informacii:

http://www.webmasterworld.com/forum93/
http://www.searchengineworld.com/robots/robots_tutorial.htm
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
http://www.robotstxt.org/wc/robots.html
Google[Robots.txt]
</block>
</form>
<base href='http://pabi3.com/' />
<title>SEO - Používame robots.txt</title>
</head>
<body ev:event='load' ev:handler='#title'>
<a href='http://pabi3.com/blog/seo-pouzivame-robots-txt/' title='Návrat'>Návrat</a>
<h1 style='padding:0.5em;'>SEO - Používame robots.txt</h1>
<ul>
<li ev:event='click' ev:handler='#body'>Speak introduction</li>
<li ev:event='click' ev:handler='#full'>Speak full</li>
</ul>
</body>
</html>
