HTML a kaskádové styly

Zásady tvorby webových stránek

Přeskočit navigaci

Vyhledávače

Nejdůležitější české vyhledávače

(zaokrouhleno, dle statistik serverů Toplist.cz a NaVrcholu.cz.)

Nejdůležitější světové (neasijské) vyhledávače

(zaokrouhleno, dle statistik serveru comScore.)

Princip vyhledávání a vyhledávačů

  1. robot prohledává a sleduje webové stránky (po odkazech, např. z katalogů);
  2. stránku zaznamenají do databáze (zaindexují);
  3. uživateli, který položil dotaz, vrátí výsledek z této databáze.

Sběr dat

Co je důležité:

Pokud tedy chcete, aby se robot na stránku dostal, musíte mu ji dobře zpřístupnit

Povolení a zakázání přístupu robotů

  1. pro celý server najednou: pomocí souboru robots.txt. Soubor musí být přímo v kořeni webu (nelze tedy takto zakázat přístup na sdílených webech, např. zde na fakultě).

    Příklad souboru robots.txt

    User-agent: *
    Disallow: /tento/adresar/
    Disallow: /zdrojova/data/
    
    User-agent: Googlebot
    Disallow: /sem/nechod/
    
    User-agent: SeznamBot
    Disallow: /

    V tomto příkladě mají všichni roboti (s výjimkou Google a Seznamu) zakázáno prohledávat adresáře /tento/adresar/ a /zdrojova/data/, do ostatních mohou. Pro Google a Seznam máme zvláštní pravidla: Google nemůže do adresáře /sem/nechod/, ale do zbylých ano (neplatí pro něj ani předchozí dva zákazy), Seznam nemůže nikam (všechny adresáře na webu začínají lomítkem).

  2. Pomocí META elementu v hlavičce stránky
          <meta name="robots" content="noindex, nofollow">
  3. Povolené hodnoty:

    • noindex: obsah stránky nebude indexován;
    • nofolow: odkazy nebudou sledovány.
    • index (výchozí): obsah stránky bude zaindexován;
    • folow (výchozí): odkazy budou sledovány;
    • all: vše, tj. totéž jako index,follow;
  4. Pro konkrétní odkaz: pomocí atributu rel="nofollow". Takový odkaz nebude robot následovat, ani jej nezařadí do databáze.
    <a href="http://www.example.com/" rel="nofollow">Tenhle odkaz ignoruj.</a>