Introduzione: sitemap e generatori
Le migliori sitemap sono quelle generate in tempo reale dal CMS usato: non possono essere non aggiornate e possono generare attributi lastmod corretti. Quando uno integrato non è disponibile o non risponde alle esigenze correnti, e vi sono occasioni in cui non lo fanno, si utilizza un Generatore di Sitemap XML esterno.
Nota: in questa occasione parlerò solo di Sitemap XML come definite dal protocollo standard, lasciando da parte extensioni come sitemap di immagini o video.
Come funzionano i Generatori di Sitemap
I generatori di sitemap esterni funzionano esplorando completamente il sito e collezionandone tutti gli URL pubblici.
Perché un generatore di Sitemap sia affidabile, devono verificarsi più condizioni:
- lo spider del generatore deve rispettare appieno il Robots Exclusion Protocol (robots.txt, meta tag robots, attributo nofollow nei link).
- il generatore deve interpretare correttamente tutte le direttive esibite dal sito per risolvere situazioni di contenuti duplicati (es. URL canonici, normalizzazione degli URL, etc...)
- il generatore deve generare documenti XML UTF-8 formalmente corretti (sorprendentemente, molti strumenti qui falliscono perché usano semplici librerie di gestione testi per produrre le sitemap, e per esempio non fanno il corretto escape delle entity XML, per esempio non codificano la "e commerciale" come &)
- il generatore deve codificare correttamente gli URL e generare un XML conforme alla sintassi sitemap (molti strumenti falliscono anche qui. Nonostante il fatto che UTF-8 ovviamente supporti i caratteri Unicode, tutti i caratteri non-ASCII nel percorso dell'URL dovrebbero essere codificati con il "percent encoding"; lo stesso vale per i nomi di dominio IDN, dove deve essere usata la versione punycode del nome).
Questi punti sono tutti responsabilità del generatore, naturalmente.
E sì, gli strumenti aiutano molto. Uno talvolta potrebbe pure tentare di costruire una sitemap "a mano", ma quando si deve gestire l'encoding corretto e i parametri dell'URL, l'approccio sarebbe ben lontano dall'essere immune da errori.
- il sito deve avere risolto tutti i problemi di duplicazione interna dei contenuti, o il generatore non avrebbe modo di distinguere URL ridondanti e li aggiungerebbe tutti alla sitemap. Questa è responsabilità del webmaster.
- Una struttura di link ben concepita può aiutare il generatore a elencare gli URL nell'ordine migliore e facilitare l'attribuzione del valore - optional - di priorità.
Il generatore di sitemap di Visual SEO Studio
Quando decisi di aggiungere Editor di Sitemap XML a Visual SEO Studio volli potesse risolvere tutti i punti sopra citati. Volevo anche dare all'utente controllo completo su cosa esportare e cosa no.
L'editor di Sitemap XML di Visual SEO Studio
Cosa fa:
- è visuale, ti permette di scegliere singolarmente le pagine da aggiungere tra tutte quelle esplorate dal proprio spider, o aggiungerle in blocco, o per cartella...
- codifica correttamente e genera documenti XML UTF-8 validi/"well formed", e codifica correttamente tutti i caratteri Unicode presenti negli URL
- la suite SEO ti fornisce tutti gli strumenti e report necessari per rilevare e risolvere problemi di duplicazione interna dei contenuti
- lo spider è conforme al Robots Exclusion Protocol
- lo spider normalizza gli URL evitando falsi duplicati
- omette automaticamente gli URL non indicizzabili
- permette di ordinare gli URL in ordine di esplorazione (breadth-first) o in ordine alfabetico
- permette opzionalmente di specificare la priorità in base alla profondità di link (facile, e ha senso quando il sito ha una struttura di link ordinata)
- genera sitemap compatte evitando di esplicitare valori predefiiti, ed evita spazi extra (per cui è bene visualizzarle con un lettore di file XML)
- aggiunge un commento in cima all'XML per i lettori umani, esplicitando quanti URL sono elencati e quando la sitemap è stata generata
Cosa non fa (al momento):
- ancora non forza i limit a 50,000 URLs e 10MB imposti dalle specifiche del protocollo (Aggiornamento: ora da specifiche il limite è 50MB)
- ancora non impone che gli URL siano non più lunghi di 2048 caratteri (come specificato dalle specifiche del protocollo)
- ancora non supporta i file "sitemap index" (ma ne avrai raramente bisogno, se mai ne avrai)
- ancora non supporta la compressione gzip delle sitemaps (ma puoi comprimerle da te)
- non aggiunge un valore lastmod (leggi più in basso il perché)
- non aggiunge informazioni estese alternate/hreflang (leggine il motivo più in basso)
- non aggiunge un valore changefreq (perché non è mai corretto senza avere la sfera di cristallo, ed è largamente ignorato dai motori di ricerca)
Molti generatori aggiungono anche il valore opzionale lastmod; di solito lo fanno aggiungendo un valore falso usando la data corrente.
Visual SEO Studio volutamente non lo fa per i seguenti motivi:
- vedere sempre un nuovo valore di data lastmod nelle sitemap per pagine che non cambiano potrebbe indurre un motore di ricerca a perdere fiducia nell'informazione
- sebbene il programma potrebbe generare correttamente le date dallo header HTTP last-modified quando presente, l'informazione potrebbe divenire non aggiornata visto che le sitemap non sono generate in tempo reale
- se l'informazione è già presente nello header HTTP, non è utile aggiungerla nella sitemap: lo spider del motore di ricerca la vedrebbe comunque
Le ultime due considerazioni si applicano anche alle informazioni alternate/hreflang.
Rimasi personalmente sorpreso nello scoprire che il generatore di sitemap di Visual SEO Studio era apprezzato non solo da proprietari di piccoli siti, ma anche da amministratori di grossi siti e-commerce, non soddisfatti dalla potenza limitata delle sitemap generate in real-time offerte dalle loro piattaforme.
I siti e-commerce in particolare spesso necessitano di specificare ai motori di ricerca che un sottoinsieme delle pagine deve essere indicizzato o re-indicizzato velocemente. Magari perché sono pagine di offerte speciali da essere indicizzate in fretta, o magari perché hanno cambiato il prezzo di alcuni articoli e desiderano che le pagine siano aggiornate il prima possibile. Non possono attendere che lo spider del motore di ricerca trovi quegli URL tra le migliaia presenti nel sito e-commerce, e non possono affidarsi a una sitemap che includa tutte gli URL del sito.
Hanno bisogno di una Sitemap XML dedicata che elenchi quegli specifici URL e solo quelli; il generatore di sitemap di Visual SEO Studio è lo strumento giusto per loro.
Conclusioni
Non è infrequente nei forum SEO trovare richieste di aiuto riguardanti sitemap mal formate. Penso che gli sviluppatori di generatori di sitemap dovrebbero sforzarsi di più nel generarle sintatticamente corrette.
Spero che questa dissertazione sia un aiuto verso l'obiettivo.