(zaokrouhleno, dle statistik serverů Toplist.cz a NaVrcholu.cz.)
(zaokrouhleno, dle statistik serveru comScore.)
Co je důležité:
Pokud tedy chcete, aby se robot na stránku dostal, musíte mu ji dobře zpřístupnit
robots.txt
.
Soubor musí být přímo v kořeni webu (nelze tedy takto zakázat přístup na sdílených webech, např. zde na fakultě).
Příklad souboru robots.txt
User-agent: * Disallow: /tento/adresar/ Disallow: /zdrojova/data/ User-agent: Googlebot Disallow: /sem/nechod/ User-agent: SeznamBot Disallow: /
V tomto příkladě mají všichni roboti (s výjimkou Google a Seznamu) zakázáno prohledávat adresáře
/tento/adresar/
a /zdrojova/data/
, do ostatních mohou. Pro Google a
Seznam máme zvláštní pravidla: Google nemůže do adresáře /sem/nechod/
,
ale do zbylých ano (neplatí pro něj ani předchozí dva zákazy),
Seznam nemůže nikam (všechny adresáře na webu začínají lomítkem).
META
elementu v hlavičce stránky
<meta name="robots" content="noindex, nofollow">
Povolené hodnoty:
noindex
: obsah stránky nebude indexován;nofolow
: odkazy nebudou sledovány.index
(výchozí): obsah stránky bude zaindexován;folow
(výchozí): odkazy budou sledovány;all
: vše, tj. totéž jako index,follow
;rel="nofollow"
. Takový odkaz
nebude robot následovat, ani jej nezařadí do databáze.
<a href="http://www.example.com/" rel="nofollow">Tenhle odkaz ignoruj.</a>