Manuale: Avanzamento di Sessione

La funzione "Avanzamento di Sessione" di Visual SEO Studio, documentata in dettaglio.

Avanzamento di Sessione

Una Sessione di Esplorazione è l'insieme di dati risultanti dalla visita dello spider a un sito web.
Questo pannello mostra una fotografia istantanea, aggiornata in tempo reale, dell'avanzamento dell'esplorazione del sito web.
Nella parte superiore puoi vedere le misure principali dell'esplorazione in svolgimento.
Nella parte inferiore vi sono grafici - anch'essi aggiornati in tempo real con il procedere dell'esplorazione - che illustrano una vista d'insieme di codici di risposta HTTP, profondità di link e tempi di risposta.

Proprietà principali

URL in coda

Il numero di URL ancora nella coda di esplorazione.

Mano a mano che lo spider trova dei link, ne legge l'URL e se questo non è ancora stato incontrato lo accoda alla lista degli URL da visitare.
Il processo di esplorazione terminerà quando non vi saranno più nuovi URL in coda, o al sopraggiungere del limite massimo di pagine visitabili (per esempio nella gratuita Edizione Community il numero massimo è 500 tra pagine e immagini), o se arrestato dall'utente.

Richieste HTTP

Il numero di richieste HTTP finora effettuate.

Pagine visitate

Il numero di pagine visitate finora. Solo pagine web, non conta le chiamate HTTP a immagini o altre risorse.

Max Nr pagine/immagini

Il numero massimo di pagine e/o immagini visitabili dallo spider, così come impostato nelle opzioni di esplorazione.

Tempo trascorso

Il tempo finora trascorso nella visita del sito web.

G-time simulato

Il tempo minimo che il crawler di un motore di ricerca avrebbe impiegato finora per visitare lo stesso numero di pagine.
Il rapporto - riportato nel campo G. Crawl Delay - può essere personalizzato dal pannello di opzioni Frequenza di Crawl Simulata, che puoi accedere dal menu principale del programma alla voce Strumenti -> Preferenze....

Questa informazione è importante quando si investigano problemi di crawl budget e apparenti lentezze nell'indicizzazione, perché mostra quanto tempo il crawler di un motore di ricerca impiegherebbe per visitare il sito web.

Crawl-Delay

Il ritardo di cortesia - ossia il ritardo tra due chiamate HTTP - istantaneo applicato dallo spider.
Normalmente è zero secondi, tranne quando il sito esplorato ha una direttiva Crawl-Delay nel file robots.txt e il sito web non è elencato tra i Siti Verificati (la direttiva Crawl-Delay è rispettata fino a un massimo di 2 secondi), o quando esplicitamente impostato dall'utente per rallentare la visita a un sito web.
Tieni a mente che quando il valore non è zero, non è possibile effettuare chiamate HTTP parallele (ma interpretazione e processamento parallelo di risultati sì).
Quando diverso da zero secondi, il valore è evidenziato in rosso.

G. Crawl-Delay

Il ritardo di cortesia che sarebbe applicato dallo spider di un motore di ricerca tra le richieste di due pagine.
Può essere personalizzato dal pannello di opzioni Frequenza di Crawl Simulata, che puoi accedere dal menu principale del programma alla voce Strumenti -> Preferenze....

Te ne dovrai interessare per investigare problemi di crawl budget e apparenti lentezze nell'indicizzazione, perché ti permette di capire quanto tempo il crawler di un motore di ricerca impiegherebbe per visitare il sito web.

Riepilogo di sessione

Codici di stato

Un grafico a torta con la suddivisione dei codici di risposta HTTP ricevuti per l'intera sessione di esplorazione.

I codici di risposta si possono riepilogare con le seguenti cinque classi standard:

  • 1xx Risposta informativa – la risorsa richiesta è stata ricevuta e il suo processamento continua (i codici 1xx non vi capiteranno praticamente mai)
  • 2xx Successo – la risorsa richiesta è stata ricevuta con successo, compresa e accettata, e servita (è il codice di risposta vorresti vedere normalmente)
  • 3xx Redirezione – la risorsa cercata non è più all'indirizzo richiesto
  • 4xx Errore Client – la richiesta contiene un errore di sintassi o non può essere onorata
  • 5xx Errore Server – il server non è riuscito a onorare una richiesta apparentemente valida

Alcune risposte molto comuni sono ad esempio la 200 (OK - Risposta standard per le richieste HTTP andate a buon fine), la 301 (Moved Permanently - usata quando l'URL di una pagina viene cambiato e non si vogliono "rompere" link esterni al vecchio URL né si vuole perdere l'indicizzazione della stessa sui motori di ricerca e preservarne il PageRank.

I reindirizzamenti (redirect) funzionano così: alla richiesta di un URL vecchio, il web server risponde al client (un browser, o uno spider di un motore di ricerca) con un codice HTTP 3xx per segnalare che l'indirizzo è cambiato, e fornendo nella intestazione HTTP il nuovo indirizzo. Il browser dovrà allora chiedere con una nuova chiamata HTTP la risorsa al nuovo indirizzo, e per i redirect di tipo permanente potrà ricordarsi il re-indirizzamento così da non dovere effettuare una doppia chiamata se il link all'indirizzo vecchio verrà cliccato di nuovo.

I redirect possono essere realizzati lato server in molteplici modi, dipende dalla tecnologia utilizzata e dalla piattaforma su cui gira il web server. Per esempio agendo sui file .htaccess per i server Apache con regole specifiche o generiche; oppure con dei plugin di un'installazione WordPress; oppure nel caso di siti in tecnologia ASP.NET con regole codificate nel file web.config, o direttive impostate nella singola pagina, o nella logica del motore del CMS utilizzato.

La presenza di redirect impostati non è un errore in sé, ma se sono stati rilevati - come di solito capita - durante la normale esplorazione di un sito navigando dei link interni, è segno che tali link interni non sono stati aggiornati in seguito al cambio degli URL. È bene aggiornare i link interni con i nuovi URL così da non rallentare la navigazione all'utente e non sprecare il crawl budget assegnato dal motore di ricerca.

Particolare attenzione bisognerà prestare ai codici di risposta 4xx, che Visual SEO Studio segnala giustamente come errori.
I codici 4xx incontrati di solito sono 404 (Risorsa non trovata) e il quasi identico 410 (Risorsa non più esistente). La loro presenza è segno di un link errato da correggere, perché l'utente e il motore di ricerca non possono raggiungere la pagina di destinazione del link.

I codici di risposta 5xx sono invece errori riscontrati sul server web quando questi sta tentando di costruire la risorsa da restituire al browser o allo spider.
Potrebbero essere un problema temporaneo, ma di solito non vanno sottovalutati, meglio segnalarli allo sviluppatore e indagati lato server. Gli errori 5xx rappresentano una pessima esperienza utente, causa di abbandono da parte degli utenti, e possibile de-indicizzazione da parte dei motori di ricerca se protratti nel tempo.

Per una descrizione dettagliata dei codici di risposta HTTP rimandiamo alla seguente pagina di Wikipedia: Codici di stato HTTP

Profondità di link

Un istogramma che illustra la distribuzione della "profondità di link" sull'intero sito web (assumendo che il processo di esplorazione sia partito dalla Home Page).
La profondità di link, anche nota come come "profondità di esplorazione", è la profondità della pagina nella struttura di link del sito, ossia il numero di clic necessari a raggiungerla a partire dalla Home Page.

È importante sapere a che profondità è una pagina rispetto alla URL principale in quanto i motori di ricerca danno più o meno importanza a una pagina a seconda di quanto dista dalla URL principale: più è vicina e più è importante.
Nota: questa è una semplificazione; nel caso di Google per esempio di solito la Home Page è la pagina con maggiore PageRank (una misura di Google dell'importanza della pagina, altri motori di ricerca usano modelli simili), le pagine collegate con un solo link alla Home Page sono pertanto quelle cui fluisce maggiore PageRank.

Inoltre una pagina più distante è meno probabile sia raggiunta ed esplorata dagli spider dei motori di ricerca per via del di solito limitato Crawl Budget (in soldoni il numero di pagine che un motore di ricerca esplora in un certo intervallo di tempo quando visita un sito web).

Quindi mettete le pagine a cui volete dare una maggiore rilevanza più vicine alla Home Page.

La profondità di link è importante anche per l'utente: è infatti difficile trovare un contenuto a partire dalla Home Page se accedervi richiede un gran numero di clic.
Una regola di usabilità vorrebbe ogni pagina raggiungibile in tre click o meno. Ciò non è sempre possibile nel caso di siti molto grossi, tuttavia occorre scegliere una struttura di link che permetta di minimizzare la profondità di link di ogni pagina.

Profondità di link media

Il valore medio della profondità di link di tutte le pagine del sito.

Profondità di link mediana

Il valore mediano della profondità di link di tutte le pagine del sito.

Tempo di download

Un istogramma che illustra la distribuzione del tempo di download (in ms) su tutte le pagine del sito web.

Valori troppo alti per tutte le pagine potrebbero indicare problemi di prestazioni del server che ospita il sito. Valori alti per le singole pagine indicano verosimilmente un contenuto troppo pesante.

Considera il tempo di download di una pagina assieme al valore della dimensione della pagina: un tempo di download alto unitamente a una dimensione di pagina alta indica una pagina troppo pesante, un tempo di download alto unitamente a una dimensione di pagina bassa indica invece un problema di prestazioni lato server.

Nota: Puoi accedere a questa e molte altre e più ricche informazioni sulle prestazioni del sito web usando lo strumento "Suggerimenti prestazioni".

Tempo di download medio

Il valore medio del tempo di download di tutte le pagine del sito.

Tempo di download mediano

Il valore mediano del tempo di download di tutte le pagine del sito.

Opzioni di esplorazione

Una griglia che elenca tutte le opzioni impostate per il processo di esplorazione che ha prodotto la sessione corrente.