HTML a kaskádové styly

Zásady tvorby webových stránek

Přeskočit navigaci

Vyhledávače

Nejdůležitější české vyhledávače

Seznam – cca 60% podíl na trhu;
Google – 25%;
Centrum – 5%;
Atlas – 3%;

(zaokrouhleno, dle statistik serverů Toplist.cz a NaVrcholu.cz.)

Nejdůležitější světové (neasijské) vyhledávače

Google – 60%;
Yahoo! – 15%;
Live Search (Microsoft) – 5%;

(zaokrouhleno, dle statistik serveru comScore.)

Princip vyhledávání a vyhledávačů

robot prohledává a sleduje webové stránky (po odkazech, např. z katalogů);
stránku zaznamenají do databáze (zaindexují);
uživateli, který položil dotaz, vrátí výsledek z této databáze.

Sběr dat

Co je důležité:

ke stránce se robot může dostat v zásadě dvěma způsoby:
- vede na ni odkaz z jiné stránky;
- stránka byla ručně přidána do seznamu (např. z domácí stránky vyhledávače);
roboti zjišťují, zda se stránka mění (a pokud ano, vracejí se na stránku častěji);
roboti málokdy stahují pomocné stránky (styly, obrázky, javascript).

Pokud tedy chcete, aby se robot na stránku dostal, musíte mu ji dobře zpřístupnit

Povolení a zakázání přístupu robotů

pro celý server najednou: pomocí souboru robots.txt. Soubor musí být přímo v kořeni webu (nelze tedy takto zakázat přístup na sdílených webech, např. zde na fakultě).
Příklad souboru robots.txt
```
User-agent: *
Disallow: /tento/adresar/
Disallow: /zdrojova/data/

User-agent: Googlebot
Disallow: /sem/nechod/

User-agent: SeznamBot
Disallow: /
```
V tomto příkladě mají všichni roboti (s výjimkou Google a Seznamu) zakázáno prohledávat adresáře /tento/adresar/ a /zdrojova/data/, do ostatních mohou. Pro Google a Seznam máme zvláštní pravidla: Google nemůže do adresáře /sem/nechod/, ale do zbylých ano (neplatí pro něj ani předchozí dva zákazy), Seznam nemůže nikam (všechny adresáře na webu začínají lomítkem).

Pomocí META elementu v hlavičce stránky

      <meta name="robots" content="noindex, nofollow">

Povolené hodnoty:

noindex: obsah stránky nebude indexován;
nofolow: odkazy nebudou sledovány.
index (výchozí): obsah stránky bude zaindexován;
folow (výchozí): odkazy budou sledovány;
all: vše, tj. totéž jako index,follow;

Pro konkrétní odkaz: pomocí atributu rel="nofollow". Takový odkaz nebude robot následovat, ani jej nezařadí do databáze.
```
<a href="http://www.example.com/" rel="nofollow">Tenhle odkaz ignoruj.</a>
```