Robots.txt

V tomto článku prozkoumáme Robots.txt, téma, které v posledních letech upoutalo pozornost mnoha lidí. Od svého objevení nebo popularizace má Robots.txt velký dopad v různých oblastech a vyvolává diskuse a otázky týkající se jeho významu, implikací a možných aplikací. Prostřednictvím tohoto článku se pokusíme osvětlit Robots.txt a analyzovat jeho význam v moderní společnosti a také jeho vliv na různé aspekty každodenního života. Bez ohledu na to, zda jste odborníkem v této oblasti nebo se o ní jen chcete dozvědět více, tento článek vám poskytne podrobný a aktuální pohled na Robots.txt.

robots.txt je standardizovaný textový soubor, kterým může web indikovat, u kterých stránek je nebo není žádoucí, aby je procházeli internetoví boti např. za účelem indexace skrze web crawler. Tento soubor se musí nacházet v kořenovém adresáři daného webu. Jeho syntaxi definuje RFC 9309.

Příklady

Uvedením následujícího textu v souboru robots.txt lze zakázat procházení webu všem vyhledávačům:

User-agent: *
Disallow: /

Následující příklad zakáže všem robotům, aby procházeli obsah složek /cgi-bin, /images, /tmp a /private:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Zakázaní Googlebotu procházet vše v adresáři /en:

User-agent: Googlebot
Disallow: /en/

Alternativy

Parametr konkrétních odkazů

Zakázat procházení konkrétních odkazů lze i vložením speciálního parametru rel="nofollow" do každého z odkazů.

<a href="/stranka-kterou-nechci-prochazet" rel="nofollow">

Metatag robots

Zákaz procházení odkazů vedoucí z konkrétní URL lze pomocí umístění speciálního metatagu do hlavičky stránky.

<meta name="robots" content="nofollow" />

Sitemap.xml

Do souboru robots.txt je doporučené vložit odkaz na sitemap.xml, aby tento soubor mohly vyhledávače snáze nalézt a využívat jej k efektivnějšímu procházení webu.

Sitemap: http://www.example.org/sitemap/sitemap.xml

Zákaz procházení není zákaz indexace

Mnoho správců webů se mylně domnívá, že zákazem procházení dojde automaticky i k zákazu indexace stránek, ale praxe je mírně složitější. Internetové vyhledávače musí stránku navštívit a stáhnout, aby ji mohly zanést do svého indexu (proces indexace). Když je procházení daného adresáře zakázané v souboru robots.txt, tak danou stránku nemohou roboti navštívit a tedy indexovat. Jestliže však na danou stránku vede mnoho zpětných odkazů, tak mohou tuto stránku vyhodnotit, jako důležitou a přesto ji indexovat.

Související články

Externí odkazy