Quanto conoscete lo standard sitemaps.org

Quando si costruiscono le sitemap bisogna stare attenti a rispettare lo standard. Ma ci sono alcuni trucchetti fuori standard che spesso si utilizzano per velocizzare alcuni processi.

Diciamo subito che Google è di bocca buona e legge Sitemap anche fuori standard.

Quali sono le regole che deve rispettare la sitemap?

La Sitemap deve:

  • Inizia con un tag di apertura <urlset> e termina con un tag di chiusura </urlset>.
  • Specifica lo spazio dei nomi (standard del protocollo) all’interno del tag <urlset>.
  • Includi una voce <url> per ogni URL come tag XML principale.
  • Includi una voce secondaria <loc> per ogni tag principale <url>.

Tutti gli altri tag sono facoltativi.

Quindi i campi <lastmod>, <changefreq> e <priority> sono opzionali. L’attributo <priority> non è letto da Google che lo ignora.

Inoltre oltre le regole sul formato e sugli elementi appena descritti ci sono delle regole di forma molto importanti

  • Ogni Sitemap.XML può includere un massimo di 50.000 URL e la sua dimensione non deve superare i 50MB (quando non compressa); in alternativa è possibile suddividere la sitemap in più file;
  • In presenza di più sitemap.xml, queste possono essere inviate in una sola volta attraverso un file sitemp-index.xml o segnalate tramite Google Search Console;
  • Non includere pagine con una risposta server diversa da “200, risorsa disponibile” (es. errori 404, redirect 301 o 302);
  • Non includere pagine che non devono essere indicizzate (interdette tramite robots.txt o meta tag robots);
  • Includere solo URL canonici: ad esempio, se la pagina adesione è raggiungibile all’URL https://www.esempio.it/en/pagina includere questo indirizzo e non URL come https://www.esempio.it/en/pagina?anno=2022 o https://www.esempio.it/en/pagina?colore=rosso;
  • Tutti gli URL devono essere UTF8-encoded ed è necessario effettuare l’escape dei caratteri speciali (es. & => &amp;).

Come deve essere fatta la sitemap indice?

Il file dell’indice Sitemap deve:

  • Inizia con un tag di apertura <sitemapindex> e termina con un tag di chiusura </sitemapindex>.
  • Includi una voce <sitemap> per ogni Sitemap come tag XML principale.
  • Includi una voce secondaria <loc> per ogni tag principale <sitemap>.

Il tag facoltativo <lastmod> è anche disponibile per i file dell’indice Sitemap.

Dove deve essere posizionata la sitemap?

L’errore che più spesso vedo fare è quello di non rispettare la regola della posizione.

Lo standard dice (cito):

Un file Sitemap posizionato in http://esempio.it/catalog/sitemap.xml può includere tutti gli URL che iniziano con http://esempio.it/catalog/ ma non quelli che iniziano con http://esempio.it/images/.

https://sitemaps.org/it/protocol.html

Spesso vedo Sitemap inserite all’interno di URL del tipo https://esempio.it/sitemap/sitemap.xml. Capirete bene che da standard questa sitemap dovrebbe contenere solo URL presenti nella sottocartella /sitemap/* cosa ovviamente non possibile.

Trucchi SEO

In alcuni casi si preferisce andare contro lo standard per dei piccoli trucchetti SEO

Migrazione

Quando si effettua una migrazione del sito da un dominio esempioA.it verso un altro dominio esempioB.it (o cambio di URL a seguito di cambio CMS o simile) un piccolo trucchetto che molti SEO adottano è quella di lasciare attivo sul dominioA la vecchia sitemap in maniera da velocizzare il tempo che Google impiega a rilevare i redirect.

Ovviamente questa sitemap contenente solo URL che rispondono in 301 va contro lo standard.

410

Un caso che mi è capitato di recente, analizzando un sito editoriale è quella di trovare una sitemap fatta solo di URL che rispondono in 410.

Quanto conoscete lo standard sitemaps.org - immagine 2

https://www.esempio.it/sitemaps/sitemap-410.xml

Questa sitemap è stata creata, suppongo, per indurre Google a eliminare dalla SERP alcune pagine. Ma notate qualche altro errore nelle sitemap riportate nell’immagine?

Fonti