FAQ: Soluzione problemi esplorazione

Domande, risposte e soluzioni riguardo possibili problemi nella Esplorazione dei Siti.

  1. Il programma esplora un sito molto lentamente, con 2s di ritardo tra ogni pagina. Posso velocizzarlo?
  2. Il programma non esplora un sito.
  3. Dopo avere scaricato il file robots.txt, il programma riporta l'errore: "Un codice di risposta HTTP inatteso ('301 MovedPermanently') nel robots.txt impedisce l'esplorazione"
  4. Il programma esplora solo la prima pagina di un sito
  5. Dopo che esplora un sito per un po', lo spider incontra degli errori HTTP 403.
  6. Il mio sito ha XXX pages, ma il programma ne trova solo YYY
  7. Il mio sito ha solo XXX pagine, ma il programma dice ne ha molte di più
  8. Edizione Community: sto superando il limite di pagine in esplorazione. Come posso esplorare più pagine?
  9. Posso usare un proxy?
  10. Un sito blocca lo spider di Visual SEO Studio da robots.txt, come bypassarlo?
  11. Posso usare Visual SEO Studio per controllare un sito web offline?

Il programma esplora un sito molto lentamente, con 2s di ritardo tra ogni pagina. Posso velocizzarlo?

Controlla il valore di "Crawl-Delay" riportato nel pannello Avanzamento a destra. Se è maggiore di zero, è evidenziato in rosso. In questo caso potrebbe essere di 2s.
Il file robots.txt del sito che stai esplorando ha impostata una direttiva Crawl-Delay per impedire ad agenti esterni di sovraccaricare le risorse del server; Visual SEO Studio la rispetta fino due secondi (un valore che oggi è considerato molto conservativo).
Per siti verificati - dove siccome hai dimostrato di avere permessi di amministrazione puoi fare praticamente ciò che vuoi - puoi scavalcare l'opzione impostando l'opzione di esplorazione "courtesy delay" (ritardo di cortesia) a 0.0s nella scheda "Velocità Esplorazione".
Vedi anche la pagina Gestire la lista dei Siti Verificati.


Il programma non esplora un sito.

Ci sono diverse possibili spiegazioni, ognuna con la sua soluzione:

  1. Nessuna risorsa è stata esplorata, nemmeno il file robots.txt
    Molto probabilmente c'è stato un errore di rete durante il tentativo di esplorare il sito. Potrebbe essere un errore DNS, un firewall, o un problema di proxy. Controlla i dettagli riportati nel pannello Output in basso. Puoi configurare un proxy dall'opzione di menu Strumenti -> Preferenze.
    Controlla se riesci a navigare il sito con il tuo browser preferito. Se il browser non ci riesce, potrebbe essere un problema nel sito web. Potrebbe essere una cosa temporanea, o qualcosa di più serio da segnalare agli amministratori del sito.
  2. Solo il file robots.txt è esplorato, ma riporta un errore
    Visual SEO Studio rispetta pienamente il Robots Exclusion Protocol; per farlo, deve prima scaricare il file robots.txt del sito così da capire a quali limitazioni gli amministratori del sito chiedono di ottemperare. Se non può leggerlo, conservativamente lo considera come un "non esplorare" (nota che un file robots.txt mancante non è considerato un blocco). Controlla i dettagli riportati nel pannello Output in basso.
  3. Solo il file robots.txt è esplorato, senza errori
    Visual SEO Studio rispetta pienamente il Robots Exclusion Protocol; per farlo, deve prima scaricare il file robots.txt del sito così da capire a quali limitazioni gli amministratori del sito chiedono di ottemperare. In questo caso potrebbe essere che gli amministratori del sito vogliano impedire allo spider l'accesso con una direttiva Disallow nel file robots.txt (nota: lo user-agent predefinito di Visual SEO Studio è "Pigafetta"). Controlla i dettagli riportati nel pannello Output in basso.
    Se sei un proprietario del sito, e hai verificato il sito, puoi ignorare o sovrascrivere le direttive del robots.txt, cambiare user-agent, e di base fare tutto ciò che vuoi a casa tua.

Dopo avere scaricato il file robots.txt, il programma riporta l'errore: "Un codice di risposta HTTP inatteso ('301 MovedPermanently') nel robots.txt impedisce l'esplorazione"

La soluzione è selezionare l'opzione per interpretare un reindirizzamento del file robots.txt come "accesso completo" (delle tre opzioni evidenziate nell'immagine seguente, scegli quella che meglio risponde al codice di stato riportato):

Opzioni avanzate di esplorazione per gestire codici di stato non standard del robots.txt
Opzioni avanzate di esplorazione per gestire codici di stato non standard del robots.txt

Il programma si comporta così perché vogliamo che segnali situazioni non standard che potrebbe impedire l'esplorazione di qualsiasi spider di motore di ricerca, non solo googlebot (che segue il reindirizzamento). Allo stesso tempo, abbiamo naturalmente fornito un modo per girare intorno al blocco.


Il programma esplora solo la prima pagina di un sito

Il motivo più probabile è che il contenuto della pagina web sia troncato prima di ogni definizione di link nell'HTML.
Ciò può accadere in pagine web piene di CSS e script. i plugin di WP sono spesso colpevoli. Per capire se è il tuo caso, seleziona il nodo della pagina e guarda nel pannello Proprietà a destra. La proprietà "Troncata" è valorizzata a vero? Allora guarda il pannello Contenuto, molto probabilmente vedrai che lo header HTML della pagina è enorme e che la troncatura avviene prima della definizione del body.
Per passare il problema: incrementa la "Massima dimensione download per URL (kB)" ed esplora di nuovo il sito.


Dopo che esplora un sito per un po', lo spider incontra degli errori HTTP 403.

Non è molto comune, perché Visual SEO Studio è probabilmente lo spider SEO più educato della terra: non solo rispetta appieno il Robots Exclusion Protocol, ha un motore adattivo che monitora di continuo i tempi di risposta del web server per evitare di sovraccaricarlo. Ciò nonostante, gli amministratori del sito potrebbero avere impostato delle politiche restrittive che potrebbero scambiarlo per un potenziale spreco di risorse e bloccarlo dopo un po'.
per passare il problema, imposta un "courtesy delay" (ritardo di cortesia) tra ogni chiamata HTTP (nota che non saranno effettuate richieste HTTP in parallelo, solo la fase di elaborazione sarà parallelizzata).


Il mio sito ha XXX pages, ma il programma ne trova solo YYY

Le opzioni di esplorazione possono variare significativamente quanto lo spider può scoprire.
La causa più probabile è la profondità di esplorazione massima impostata. Contenuti molto paginati potrebbero non essere scoperti dallo spider. Prova a impostare la profondità di esplorazione al massimo valore consentito (potresti chiederti perché debba esistere una massima profondità di esplorazione; senza di essa il programma sarebbe indifeso da involontarie "spider traps", come un calendario infinito).

Vi possono essere altre cause a impedire la scoperta e/o esplorazione di URL del sito. Per esempio se qualche pagina eccede la dimensione massima scaricabile, il suo contenuto sarebbe troncato; ogni link definito nella parte troncata non sarebbe visto e di conseguenza non esplorato.

Altre pagine potrebbero essere collegate da link solo in pagine bloccate da robots.txt; o da pagine private. Lo spider ha bisogno di trovare link perché possa seguirli, e può solo trovarli in pagine che gli è permesso visitare.


Il mio sito ha solo XXX pagine, ma il programma dice ne ha molte di più

Molto probabilmente il sito ha problemi di duplicazione interna. Un caso tipico dove il numero di URL può essere quattro volte il numero atteso è quando il sito risponde a entrambe le versioni http:// e https:// dell'URL, e a entrambe le versioni www. e non-www. dello stesso. Ciò può essere causato da una migrazione HTTP/HTTPS dove non sono stati impostati i redirect 301, dove non tutti i link interni sono stati corretti, e gli URL canonici non sono stati impostati.

Così, anche se la tua percezione è di avere solo XXX pagine, siccome i motori di ricerca - e quindi anche Visual SEO Studio - considerano URL differenti come pagine differenti, il numero vero di pagine come visto da un motore di ricerca è molto maggiore. Google naturalmente potrebbe riconoscere i duplicati interni, ma non assumere che sceglierà la versione che tu preferisci. Cerca con Google le pagine del tuo sito usando l'operatore site: per vedere tutti gli URL sta scegliendo (la maggior parte degli altri motori di ricerca riconosce anch'essa l'operatore site:).

Altre ragioni potrebbero essere the le stesse pagine sono raggiungibili con URL diversi. Un caso tipico è la "faceted navigation" che puoi trovare in molti siti e-commerce, dove una pagina di prodotto può essere presente sotto multiple categorie, o sotto multipli filtri di ricerca, e i filtri di ricerca sono parte dell'URL. Sono viste dal motore di ricerca come contenuti interni duplicati.
La soluzione è prima di tutto usare un "URL canonico" per etichettare ogni pagina di prodotto con l'URL preferito. Una volta che una pagina è "canonicalizzata", solo la versione con l'URL canonico sarà indicizzata del motore di ricerca se più versioni sono trovate. Visual SEO Studio, come gli spider dei motori di ricerca, vedrà e visiterà tutte le versioni della pagina, ma non le segnalerà come problemi di duplicazione nel report Suggerimenti HTML, e marcherà nelle sue Viste le versioni non canoniche delle pagine in verde chiaro per aiutare a riconoscerle.
La "navigazione a faccette" può anche essere un problema in termini consumo di "crawl budget", dove lo spider del motore di ricerca visiterebbe più volte lo stesso contenuto logico sprecando tempo e risorse invece di dare priorità alla visita di contenuti di cui ti importa di più. Per risolvere il problema, assicurati che lo spider trovi percorsi di esplorazione univoci usando una navigazione interna chiara, una buona struttura di link, e bloccando percorsi di esplorazione indesiderati con regole del Robots Exclusion Protocol (ossia direttive Disallow del file robots.txt, attributi nofollow, meta tag robots nofollow...).

per siti web ospitati su web server IIS (o altri web server file system case-insensitive), differenze nel maiuscolo/minuscolo dei caratteri degli URL sono ignorate dal web server (in contrasto alle specifiche ufficiali sugli URL), e link interni con maiuscole/minuscole errate porterebbero alla scoperta di una "nuova" pagina duplicata invece di un link rotto.
In questi casi, la cura è individuare tutti i casi con l'apposito report in Suggerimenti HTML in Visual SEO Studio, correggere i link interni, e usare il corretto meta tag per l'URL canonico.

Altri problemi di duplicazione interna dei contenuti possono essere causati da inutili parametri di query dell'URL. Questo di nuovo può accadere nella faceted navigation, ma anche in diversi altri casi.
Il modo più facile per gestirli è etichettare ogni pagina con il corretto meta tag per l'URL canonico.


Edizione Community: sto superando il limite di pagine in esplorazione. Come posso esplorare più pagine?

La gratuita Edizione Community di Visual SEO Studio impone un limite di 500 alla somma del numero di pagine e immagini esplorate.
Se desideri esplorare più pagine, puoi de-selezionare l'opzione "Esplora immagini" (selezionata come valore predefinito):

Le opzioni di esplorazione dedicate alle immagini
Le opzioni di esplorazione dedicate alle immagini

Naturalmente, la capacità di visualizzare e ispezionare immagini sarebbe persa.

Se non è sufficiente, e vuoi essere in grado di effettuare anche audit completi delle immagini, acquista una licenza Professional.


Posso usare un proxy?

Ci sono molti leciti motivi per usare un proxy. Per esempio, potresti volere testare l'accesso a un sito da un indirizzo IP di un'altra nazione, oppure la tua azienda ha delle politiche IT che impongono l'uso di un proxy.
Visual SEO Studio ti permette di configurare un proxy dal menu principale -> Preferenze -> Impostazioni proxy.

Impostazioni proxy
Impostazioni proxy (clicca per ingrandire)

Il comportamento predefinito è usare lo stesso proxy configurato per il sistema operativo (in Windows: "Opzioni Internet"), ma puoi specificare nessun proxy a un proxy personalizzato.
Per un proxy personalizzato puoi configurare un proxy nel network locale, o anche un proxy esterno.
Attenzione che un'impostazione errata potrebbe impedire al programma di operare; in caso di malfunzionamento ripristina l'opzione predefinita.


Un sito blocca lo spider di Visual SEO Studio da robots.txt, come bypassarlo?

In alcuni rari casi il proprietario di un sito può avere aggiunto una regola Disallow: per bloccare lo spider del prodotto, "Pigafetta", da file robots.txt (è molto raro, perché Pigafetta è un cittadino Internet estremamente rispettoso, ma può accadere).

Se è il sito tuo o di uno dei tuoi clienti, puoi:

  • Fare rimuovere la direttiva Disallow: dal file robots.txt
  • O aggiungere il sito alla lista dei Siti Verificati (sempre raccomandato per i tuoi sito).
    Una volta il sito è verificato, puoi esplorarlo ignorando le direttive del robots.txt, o cambiando lo user-agent del programma.

Opzioni di esplorazione per bypassare un blocco nel robots.txt
Opzioni di esplorazione per bypassare un blocco nel robots.txt

Se il sito non è sotto il tuo controllo, e il proprietario non desidera tu esplori le sue proprietà, bhé.... dobbiamo rispettarne le volontà.
Visual SEO Studio aderisce a delle regole etiche molto semplici: a casa tua, fai quello che vuoi; a casa degli altri, rispetti le regole della casa.
Alcuni utenti bypassono tale comportamento impostando come proxy programmi come HTTP Fiddler che permettono di cambiare lo user-agent di chiamate HTTP in uscita; non forniamo supporto per tale procedura.


Posso usare Visual SEO Studio per controllare un sito web offline?

Avere un "webserver di staging" realizzato su una macchina locale prima di caricarlo su un server host è una pratica comune.
Puoi utilizzare Visual SEO Studio per analizzare siti web locali. Fintanto che il sito web è raggiungibile via HTTP, puoi analizzarlo con lo strumento SEO.

  • Se il tuo sito di staging è su una macchina locale, probabilmente lo hai impostato su http://localhost:portnumber/ (sostituisci con il numero di porta utilizzata) o qualsiasi indirizzo HTTP che utilizzi.
  • Se il tuo server di staging è in una rete locale (LAN), puoi usare l'indirizzo locale raggiungibile tramite il suo indirizzo IP interno, o il suo nome interno alla rete.

Tieni a mente che per localhost (o 127.0.0.1) sei automaticamente considerato un amministratore. Per indirizzi LAN puoi - se lo necessiti - segnalarti come amministratore verificando il sito web con l'autenticazione di Visual SEO Studio.