TIP#672: Co je to sitemap.xml, k čemu to slouží a jak s tím mám zacházet

Kdysi dávno jsme tu už řešili robots.txt a nástroj Google Search Console. V obou tipech je v zásadě pouze zmínka o sitemap.xml, velmi užitečném nástroji pro zjednodušení a zrychlení indexování vašeho webu. Takže odpověď na „k čemu slouží sitemap.xml“ jste se v zásadě právě dozvěděli. Ale pojďme to trochu rozvést.

Sitemap.xml je XML soubor obsahující mapu vašeho webu, blogu či e-shopu. S pomoci sitemapy dáváte vyhledávači vědět co má indexovat, jak často to má indexovat, ale také třeba to, že má zrovna teď zaindexovat něco nového.

Jako nástroj je to v zásadě poněkud standardizováno a vyhledávací stroje umí sitemap.xml zpracovávat – právě výše zmíněné Google Search Console umožní sitemap.xml i „rychleji“ do Google popostrčit, ale také testovat. Podobné věci samozřejmě umí třeba i Bing a Seznam.cz (ten sitemap.xml pouze podporuje, nic pokročilého nečekejte).

Jakýkoliv vyhledávač či někdo kdo potřebuje zpracovávat obsah vašeho webu tak jako tak sitemap.xml může najít tak, že se prostě podívá na kořenovou složku (či jinou) vašeho webu a stáhne si odtamtud buď sitemap.xml nebo komprimovanou podobu sitemap.xml.gz  Umístění vaší sitemap.xml se mimochodem dá určit i v robots.txt a v řadě případů je velmi dobrý nápad to udělat, jenom tak zaručíte, že se o tom určité vyhledávače dozví (například Seznam.cz).

2016-12-06 07_18_34-Start.png
Zdejší robots.txt určuje kde jsou sitemapy. Všimněte si i toho, že se sitemapa nemusí jmenovat pouze sitemap.xml

O sitemap.xml se můžete dočíst více třeba i na www.sitemaps.org – má i vlastní  XML schéma, které je použité pro sitemap protokol. Hodit se vám bude, pokud budete sitemapu tvořit ručně, což už dnes není až tak časté – třeba WordPress, na kterém @365tipů jede, generuje sitemapu automaticky. Pokud byste měli vlastní WordPress (hostovaný a provozovaný), tak jsou k dispozici pluginy, které se o vytvoření postarají.

Sitemapu není povinné mít, ale hodí se ji mít. Bez sitemap.xml se vyhledávače naučí váš web indexovat tak, že ho prostě projdou. Nenajdou ale stránky, na které nevede žádný odkaz. Jak často se budou vracet navíc nebudete moci ovlivnit. Skrz sitemap.xml můžete indexování vašeho webu značně zjednodušit a urychlit.

Ke každé jednotlivé URL (URI) uvedené v sitemap.xml je možné doplnit i některé další informace (metadata). V zásadě záznam bude obsahovat následující značky s údaje:

  1. <url> zahajuje záznam o adrese
  2. <loc> bude obsahovat URL/URI k indexaci, v absolutní podobě (povinné)
  3. <lastmod> určí kdy došlo k poslední změně dané URL, pomoci toho vyhledávač pozná, jestli má provést indexaci (nepovinné)
  4. <changefreq> umožňuje sdělit, jak často se obsah na URL mění (nepovinné)
  5. <priority> od 0 do 1 určuje jak důležitá je URL  (nepovinné)
  6. <xhtml:link> umožní určit případné alternativní URL v jiných jazycích (nepovinné)
  7. </url> ukončí záznam
2016-12-06 07_21_49-Start.png
Zdejší sitemap.xml vypadá nějak takto. Všimněte si, že obsahuje i jiná metadata, než ta základní. 

Sitemapa určitého webu může obsahovat pouze URL z tohoto webu, není možné tam dávat URL ukazující jinam.

Pokud umístíte sitemap.xml do nějaké podsložky, tak musí obsahovat URL týkající se také jenom této podsložky (a případné hlubší struktury).

TIP: Cizí sitemap.xml si kdykoliv můžete prohlédnout tak, že si ji prostě otevřete v prohlížeči. Je vždy (a musí být) veřejně přístupná. Stejně jako robots.txt

Vyvarujte se vkládaní URL, které přesměrovávají či vracejí chyby. sitemap.xml vám asi neprojde ani když budete mít URL delší než 2048 znaků. Nezkoušejte s <lastmod> podvádět, vyhledávač dokáže odhalit, jestli „nová“ verze je jiná, než předchozí. A budete-li zkoušet podvádět, může vás přestat indexovat.

Případně můžete mít sitemap i více a sloučit je pomocí jednoho „indexu“. Tohle je podstatné, protože jeden sitemap soubor nemůže obsahovat více jak 50 tisíc URL (adres) a nemůže být delší, než 50 MB (rozbalených). Tady fungují značky <sitemapindex> a <sitemap> a je zde ještě jeden limit, jeden sitemap index soubor nesmí ukazovat na více než 50 tisícsitemap souborů. Dřívější délkové omezení bylo 10 MB, ke změně došlo na podzim 2016.

Obdobou sitemap.xml jsou i jiné XML formáty fungující podobně – nejčastěji vyskytujícím se budou různorodé formy RSS/ATOM (viz například K čemu vám může být RSS a Feedly aneb jak mít stále co číst)

TIP: Pokud něco nechcete indexovat, tak v tom sitemap.xml nepomůže, k tomu opět slouží již zmíněné robots.txt

Ve vytváření sitemap.xml vám mohou pomoci i nějaké ty online i offline pomůcky. Hodit se mohou tam, kde máte nějakou poměrně pevnou strukturu, jen chcete vyhledávači sdělit jak ji má indexovat. Viz například Screaming Frog SEO Spider Tool (software pro váš počítače), www.xml-sitemaps.com, perlsitemapgenerator, Simple Sitemaps Download či Free Sitemap Generator.

Kontrola sitemap.xml je také možná online, například na XML-Sitemap.som, xcheckeru, Free XML Sitemap Validator. Kontrolu umí i samotné vyhledávače, třeba Yandex Sitemap Validator, Search Console od Google při vložení nové či aktualizaci ale i Bing v Spráci webu.

Advertisements