825-258-500px-Prime-95484115

TIP#106: robots.txt? K čemu něco takového je? A proč je to užitečné?

Věc jménem robots.txt budete potřebovat, pokud provozujete web či blog. Je to soubor, který říká robotům (hlavně vyhledávačům) jak mají zacházet s vašim webem při procházení a indexaci obsahu. Můžete s jeho pomocí říci robotům, že někam jít nemají (ale nepočítejte s tím, že to spolehlivě dodrží). Ale také třeba jak často mají chodit (pokud to daný robot podporuje), abyste trochu ulehčili vašemu přetíženému systému.

Robots.txt pro @365tipu najdete snadno, stejně jako pro každý jiný web – 365tipu.wordpress.com/robots.txt. Pohledem do něj zjistíte, že robots.txt se používá i pro sdělení kde se nachází mapa webu používaný vyhledávači (sitemap, sitemap.xml). A také, pokud se nad tím trochu zamyslíte, že robots.txt může často prozradit, kde se na webu nacházejí „zajímavé“ věci.

robots-txt-365tipuZ uvedeného plyne, WordPress.com umí robots.txt, což je dobrá zpráva, zejména poté co zjistíte, že nemůžete používat Google Analytics, nemůžete dát přihlašovací formulář k e-mailingu do článku ani do widgetu a je tu řada dalších omezení (v placené verzi už samozřejmě ne, takže logiku to má). Je ale dobré vědět, že nad ním nemáte kontrolu, tvoří si ho sám, stejně jako sitemap soubor(soubory).

O robots.txt je toho na webu k dispozici mnoho, ať už jde třeba o www.robotstxt.org (neaktualizované asi tak od roku 2007), nebo řady článků a nápověd, takže určitě není problém si je najít a případně hlouběji nastudovat.  Těžko doporučit, ale docela slušný přehled je třeba v The Robots Exclusion Protocol (REP)

Co zásadního potřebujete vědět o robots.txt

  • Robots.txt mít můžete, není nikde řečeno, že ho mít musíte
  • Roboti a další havěť zpracovávající váš web se robots.txt může, ale také nemusí řídit
  • Robots.txt nezabrání tomu, aby z vašeho webu něco nebylo zaindexováno. Jeden z nejčastějších omylů (pokud chcete vědět víc, tak Medio blog a Robots.txt neslouží k zákazu indexace stránek dobře poradí)
  • Každý robot se může chovat s ohledem na věci v robots.txt uvedené jinak
  • Přehled robotů, které robots.txt využívají najdete na  www.robotstxt.org/db.html (otázka je, jak je udržovaný)
  • Můžete ho vytvářet ručně, stejně jako vám v tom může pomáhat nějaký software. Každopádně je to čistý textový soubor, nic sofistikovaného
  • V nápovědě u Google týkající se robots.txt najdete nejenom hodně dalších užitečných informací, ale také to, že v Google Webmaster Tools je testovací nástroj na robots.txt

wmt-robots-txt

  • Jiný testovací nástroj najdete například na tool.motoricerca.info/robots-checker.phtml. Mimochodem, neuznává Allow direktivu a neumí https.
  • Robots.txt je vždy umístěn v „rootu“ (nejzákladnější složce) vašeho webu
  • Crawl-delay direktiva, umožňující nastavit jak dlouho robot čeká do dalšího požadavku, není podporována všemi roboty. U Google toto například musíte nastavit v Google Webmaster Tools
  • Sitemap direktiva určuje kde je umístěn jeden (či více) sitemap.xml souborů (o těch ale někdy jindy)
  • Host direktiva umožňující určit jaká je preferovaná doména pro za-indexování obsahu také není podporována všemi roboty

TIP: Co je to sitemap.xml, k čemu to slouží a jak s tím mám zacházet vám prozradí vše o sitemapách.

Co je vhodné zdůraznit samostatně

Velmi často se stává, že si firma nechá udělat web a pak se diví, že se neobjevuje (není indexován) ve vyhledávači. První co je v tomto případě vhodné udělat je kontrola, jestli náhodou v robots.txt nezůstalo něco z testování – něco co vyhledávačům říká „neindexuj mě“. Tedy něco jako následující dva řádky (užitečné pokud vyvíjíte a zprovozňujete web a nechcete aby byl indexován):

User-agent: *
Disallow: /

A ještě je dobré vědět, že případné indexování ovlivňují i META značky a HTML značky, které jsou uvedený v jednotlivých stránkách. Ať už jde o rel=“nofollow“ nebo přímo META v podobě Robots. Ale i zde platí, že i když uvedete <META NAME=“ROBOTS“ CONTENT=“NOINDEX,NOFOLLOW“>, nemusí se tím případný robot vůbec řídit.

Robots.txt je hodně starý (od roku 1994) a byť se v průběhu existence dočkal různých rozšíření a doplňků, nic revolučního od něj nečekejte. Docela dobrý přehled o robots.txt najdete třeba v Improving on Robots Exclusion Protocol, což je víceméně oznámení rozšíření původního protokolu, které vzniklo v roce 2008.

Nepřehánějte to s velikostí robots.txt, někteří roboti se s tím nevyrovnají. Třeba Google v minulosti uvedl, že načte pouze 500 KB z robots.txt. Ale popravdě, není dost možné si představit co byste do 500 KB+ velkého robots.txt vlastně chtěli dát.

PS: Obrázek v záhlaví z volně dostupné kolekce na 500px.com. Takže vedle vlastních obrázků a věcí z SXC.HU (nově freeimages.com) občas bude obrázek i odtud. Rozdávají použitelné obrázky. Sice ne ve velkém, ale hodí se.

PPS: Snad jsem na nic opravdu podstatného k robots.txt nezapomněl. Pokud ano, tak klasicky platí – napište, doplním a tak.