Manuale: Esplora un Sito

La funzione "Esplora un Sito" di Visual SEO Studio, documentata in dettaglio.

Esplora un Sito

Fare esplorare un sito web allo spider di Visual SEO Studio è semplicissimo:
Basta inserire un URL di partenza e cliccare sul tasto Esplora.

URL di partenza

Inserisci qui l'indirizzo da dove desideri che lo spider inizi a visitare il sito web.

Il più delle volte userai l'URL della Home Page del sito web, che tipicamente è l'indirizzo "radice" (es. https://www.example.com/), ma potresti anche decidere di iniziare da un'altra pagina.
Se non specifichi un protocollo (http:// o https://), sarà utilizzato http://.

Nome Sessione

Puoi dare alla tua sessione di esplorazione un nome descrittivo opzionale a tuo uso e consumo. Potrai anche aggiungerlo o modificarlo in un momento successivo.

Mostra/Nascondi opzioni

La maggior parte delle volte l'URL di partenza sarà il solo parametro dovrai specificare. Talvolta tuttavia un sito web richiederà un trattamento speciale.
Cliccando sul link Mostra opzioni la finestra si espanderà per permetterti di accedere a un ricco insieme di ulteriori opzioni di esplorazione.

Impostazioni Esplorazione

Questa prima scheda ti permette di impostare le opzioni di esplorazione più generali. I valori predefiniti sono studiati per accomodare le esigenze più comuni, segnalare il prima possibile errori gravi nel sito web, e mantenere le migliori prestazioni durante l'esplorazione.

Massima profondità di esplorazione:

La Massima profondità di esplorazione è quanto in profondità nella struttura di link del sito web desideri che lo spider vada.
Per alcuni site web con molti livelli di contenuti paginati potresti desiderare di incrementare questo valore.

Il motivo per cui questo parametro esiste invece di assumere una profondità infinita è a causa delle cosiddette "spider traps" (letteralmente: "trappole per ragni"):
Alcune possono essere intenzionali, altre no. Prendi il classico esempio del "calendario infinito" che puoi trovare in molti siti blog: ogni giorno del calendario è un link a una pagina virtuale, e ci sono link per andare al mese successivo... per sempre! Un crawler web non finirebbe mai di visitare un sito simile, senza impiegare alcune limitazioni come una massima profondità di esplorazione o un numero massimo di pagine visitabili.

Massimo numero di pagine/immagini:

Il numero massimo di contenuti che desideri lo spider visiti. Il valore predefinito è usare il numero massimo permesso dall' edizione di Visual SEO Studio che stai usando. Per esempio la gratuita Edizione Community permette un massimo di 500 tra pagine e immagini.
Solo pagine e immagini contano; altri file come robots.txt, Sitemap XML e altre risorse non sono prese in considerazione nel conto, come non lo sono i reindirizzamenti HTTP.

Dimensione Massima Download per URL (KB):

La massima dimensione tollerata per le pagine web da scaricare. Pagine che eccedono tale dimensione saranno troncate.

Una pagina troncata potrebbe inficiare il processo di esplorazione: link nel contenuto HTML successivi al punto di troncamento non possono essere trovati e seguiti. Non è così raro trovare siti le cui pagine sono - a causa di errori di configurazione nel web server - così affollate di roba inutile prima del vero e proprio contenuto (es. tonnellate di script e CSS nella sezione head dell'HTML in alcuni siti WP male configurati, o enormi ViewState all'inizio della sezione body dell'HTML in mal concepite vecchie pagine ASP.NET WebForms) che nessun link può essere trovato prima del punto di troncamento. Solo la Home Page sarebbe visitata e la sessione di esplorazione terminerebbe. Questo è proprio uno dei casi coperti dalla nostra FAQ di risoluzione problemi.
In tali casi potresti volere aumentare il limite del parametro.

Raccomandiamo di tenere il limite predefinito (512 KB) e cambiarlo solo se realmente necessario.
Ci sono ragioni per cui il limite predefinito esiste:

  • Aumentare il limite aumenta anche il consumo di memoria del programma durante il processo di l'esplorazione.
    Visual SEO Studio usa dei punti di controllo della memoria durante l'esplorazione, per prevenire l'avvenirsi di crash dovuti a limitazioni nella disponibilità di RAM del computer: ogni poche migliaia di pagine visitate, controlla la memoria disponibile per vedere se può completare il compito successivo; se la memoria disponibile non è sufficiente il processo di esplorazione termina. Siamo orgogliosi di quanto Visual SEO Studio sia robusto rispetto ai problemi di memoria.
    Incrementare il limite di dimensione di pagina aumenta anche la richiesta di memoria libera da parte del programma, aumentando la probabilità che il processo di esplorazione termini prima che tutte le pagine siano visitate, se la dimensione reale delle pagine non è poi così grande.
  • Sebbene Google sia molto tollerante ed è in grado di scaricare senza troncamento pagine di dimensione fino a 15-16 MB, ciò non vuole dire che le pagine con HTML corposo siano buone per i motori di ricerca:
    Pagine eccessivamente corpose prendono tempo a essere visualizzate nel browser, e sono una cattiva esperienza utente. I motori di ricerca tendono a penalizzarle nel posizionamento.
    Raccomandiamo di tenere il limite di troncamento predefinito così da rilevare problemi di dimensione il prima possibile.
    Quando necessiti di aumentare il limite per completare l'esplorazione di un sito, raccomandiamo anche di fare l'audit delle dimensioni di pagina usando la funzione Suggerimenti prestazioni. Quando l'eccessiva dimensione di pagina è un tratto comune tra tutte le pagine del sito web, ciò è di solito causato da una configurazione sul server o nel template principale. Lo metti a posto lì, e lo metti a posto ovunque.
  • Un limite, sia esso alto o basso, deve esistere per evitare le cosiddette "spider traps" (letteralmente: "trappole per ragni") basate sui download a "dimensione infinita", concepite da siti maligni per rompere i web bot esaurendone la memoria RAM di lavoro.

Detto tutto questo, dobbiamo anche aggiungere che gli utenti della gratuita Edizione Community è estremamente improbabile possano mai incontrare problemi relativi alla memoria, visto che possono scaricare solo un massimo di 500 pagine/immagini per sessione di esplorazione. Possono tranquillamente incrementare il limite senza preoccuparsi del problema.
Al contrario, utenti di edizioni superiori che necessitano di esplorare grossi siti web di centinaia di migliaia di URL dovrebbero essere più consci dell'impatto che incrementare il limite ha sul consumo di memoria. Meglio correggere i problemi di dimensione prima, e poi esplorare l'intero sito web.

Nota: il limite riguarda le sole pagine web. Per i file immagine - quando il loro download è abilitato dall'apposita opzione - lo spider applica il limite di 10 MB (che è molto alto, mai tenere immagini web così pesanti!) e per le Sitemap XML il limite è quello di 50 MB previsto dal protocollo Sitemap.

Massimo numero di Redirect da seguire:

Il numero massimo di reindirizzamenti HTTP (codici di risposta HTTP 30x) concatenati che lo spider seguirà. Il numero predefinito e massimo impostabile è 5, che è il limite usato dal crawler di Google, "googlebot".

Oltrepassa confine HTTP/HTTPS

Quando lo spider visita la versione HTTPS del sito web, e trova link verso la versione HTTP - o viceversa - deve seguire tali link?
Il valore predefinito è "vero", perché normalmente vuoi capire se ci sono vecchi link che puntano alla vecchia versione HTTP. Se dopo una migrazione da HTTP a HTTPS sono stati impostati i corretti redirect 301, vedrai i reindirizzamenti e dovrai correggere i vecchi link; altrimenti, troverai quelli che i motori di ricerca potrebbero considerare contenuti duplicati, e dovrai impostare i corretti redirect 301 oltre che correggere i link interni.

Esplora sotto-domini

Questa opzione, il cui valore predefinito è "vero", indica allo spider se seguire link che puntano a pagine interne situate in un sotto-dominio diverso.
Per esempio se lo spider mentre visita una pagina in www.example.com trovasse un link che punta a una pagina in blog.example.com, dovrebbe seguirlo o no?
La scelta ha effetto solo sui link interni, ossia link che puntano a pagine dello stesso sito, seppur in un diverso sotto-dominio. Visual SEO Studio già scarta i link esterni da un normale processo di esplorazione, ed è in grado di discriminare se un sotto-dominio è parte di un sito web o appartiene a un'entità differente (es. sa capire che blog.example.com e forum.example.com fanno parte dello stesso sito web, mentre site1.blogger.com e site2.blogger.com sono siti diversi).
Deselezionare quest opzione è una soluzione comune quando si vuole esaminare solo una sezione del sito web all'interno di uno specifico sotto-dominio (o all'interno del "dominio nudo" principale, es. example.com). Tieni a mente che risorse interne allo stesso sotto-dominio non collegate da link in alcuna delle pagine visitate dallo spider non potranno essere trovate.

Esplora anche al di fuori della Cartella di Partenza

Quando l'URL di partenza non è l'indirizzo radice, ma è l'indirizzo di una risorsa interna a una sottocartella, deselezionare questa opzione indica allo spider di non seguire link interni che puntino al di fuori di tale sottocartella.
È una soluzione comune quando si vuole esaminare solo una sezione del sito web all'interno di una specifica directory. Tieni a mente che risorse interne alla stessa sottocartella non collegate da link in alcuna delle pagine visitate dallo spider non potranno essere trovate.
Questa opzione è abilitata solo quando l'opzione Esplora sotto-domini non è selezionata; per questo appare leggermente rientrata rispetto a essa.

Esplora immagini

Indica se lo spider debba anche visitare le risorse immagini interne trovate tramite i tag IMG. Il valore predefinito è "vero".
A meno che l'opzione Salva immagini non sia selezionata, il programma scaricherà i file immagine, ne analizzerà la dimensione in byte, e larghezza e altezza in pixel, ma non le salverà localmente, e pertanto non ne potrai vedere un'anteprima nel pannello Contenuto sulla destra.
I formati immagine riconosciuto sono: JPEG, GIF, PNG, BMP, TIFF, WebP e SVG.

Salva immagini

Abilitata solo se l'opzione Esplora immagini è selezionata (per questo appare leggermente rientrata rispetto a essa), questa opzione indica al programma di salvare effettivamente localmente le immagini scaricate oltre a esaminarle. Così facendo, potrai anche vedere l'anteprima delle immagini nel pannello Contenuto sulla destra.
File immagine che eccedono la dimensione massima di 10 MB non saranno salvati. Il valore predefinito è "falso", perché per siti di grosse dimensione con tante immagini salvare anche i dati delle immagini può aumentare drasticamente lo spazion disco richiesto (utenti che usano la gratuita Edizione Community è meno probabile debbano preoccuparsi di consumo di spazio disco, dato che possono al massimo visitare 500 pagine/immagini per sessione di esplorazione).
I formati immagine riconosciuto sono: JPEG, GIF, PNG, BMP, TIFF, WebP e SVG.

Usa questo header HTTP Accept-Language

Di norma i crawler dei motori di ricerca non aggiungono alle loro richieste HTTP lo header HTTP Accept-Language, uno header opzionale usato dai browser per indicare qual è la lingua preferita dall'utente; di solito è la lingua usata nell'interfaccia utente del browser, ma può essere personalizzata.
Vi sono siti web che erroneamente assumono ogni visitatore ne abbia uno, e ritornano agli spider dei motori di ricerca un errore HTTP 500, e i motori a loro volta non possono indicizzare perlomeno la Home Page del sito. O siti che sono male configurate per re-indirizzare i visitatori in base alla lingua dell'utente, usando un redirect permanente 301 (dovrebbero usare un redirect temporaneo, come 302 o 307). Per poter analizzare questi siti web, fintanto che i loro errori non saranno corretti, puoi configurare lo header HTTP con la lingua di tua scelta.

Velocità Esplorazione

Questa scheda raccoglie le opzioni che possono rallentare o velocizzare l'esplorazione di un sito web da parte dello spider di Visual SEO Studio.

Lo spider di Visual SEO Studio è estremamente bravo a visitare site web il più velocemente possibile senza sovraccaricare il server web.
Il suo bot di esplorazione È adattivo e monitora continuamente il tempo di risposta del server, e rallenta se il server necessita di più tempo. Non ha senso provare ad andare più veloce se poi il server web non riesce a tenere il passo, potresti solo rallentarlo o addirittura "inchiodarlo". Immagina dovere analizzare un sito e-commerce di produzione, visitato da centinaia di utenti allo stesso tempo desiderosi di comprare... e vederli abbandonare(e non comprare) solo perché il SEO stava esplorando il sito sovraccaricandolo e rendendo la visita una pessima esperienza utente! Ciò non accadrà mai con Visual SEO Studio.
Ci sono casi tuttavia in cui potresti dovere alterare il comportamento predefinito dello spider. Questo è il posto per farlo.

Forza Courtesy-Delay (secondi)

Il crawler è adattivo e non sovraccaricherà mai un sito, eppure occasionalmente trovera siti web che identificano il bot come un potenziale spreco di risorse e dopo un po' gli restituiscono dei codici di errore (es. HTTP 403 o simili) e bloccarlo.
In tali casi puoi usare quest'opzione per tenere un ritmo più lento impostando un ritardo di cortesia tra ogni richiesta HTTP (nota che non saranno allora effettuate richieste HTTP in parallelo, solo la fase di elaborazione sarà parallelizzata).

Per siti non verificati, se (e solo se) un Crawl-Delay è impostato nel file robots.txt sarà rispettato fino a 2 secondi.
Per siti verificati puoi completamente by-passare la direttiva Crawl-Delay del file robots.txt

Numero massimo di connessioni simultanee

Gli spider SEO tentano di velocizzare le visite ai siti web usando multiple connessioni HTTP contemporanee, ossia richiedendo più pagine web allo stesso tempo.
Visual SEO Studio fa lo stesso, anche se il suo motore di esplorazione adattivo può decidere di spingere di meno se rileva che il server web potrebbe essere sovraccaricato.
Questo controllo ti permette di dire allo spider quando può spingere più forte se il server web continua a rispondere velocemente.

La edizione di Visual SEO Studio e se il sito web è elencato tra i Siti Verificati possono influenzare l'ablità dello spider di esplorare più velocemente:
Per siti verificati puoi impostare fino a 32 connessioni simultanee. Per siti non verificati, il limite massimo è 5.
L'Edizione Community può usare al massimo 2 connessioni simultanee.
Attenzione: aumentare il numero di thread può rallentare o bloccare il server se questo non può tenere il ritmo delle richieste; fallo a tuo rischio (per questo puoi forzare di più solo su siti verificati).

Avanzate

Questa scheda raccoglie tutte le opzioni avanzate che non possono essere raggruppate in una categoria più specifica.

Percorsi personalizzati 'Disallow' (es. /non-qui/)

Se vuoi escludere più cartelle del sito web dall'esplorazione, o pagien con qualche particolare parametro in querystring o schema nel percorso, puoi aggiungere delle regole Disallow personalizzate qui.
La sintassi da usare è quella che useresti per i file robots.txt - solo il percorso, la parte "Disallow: " è implicita.
Puoi anche usare i caratteri jolly '*' (indica 0 o più istanze di un valore valido) e "$" (indica la fine dell'URL) wildcards.
Puoi inserire più linee.

Usa compressione HTTP se disponibile

Il protocollo HTTP permette ai client - browser o bot - di specificare se possono accettare contenuti compressi serviti dal server web. Permette una trasmissione più veloce. Questo è il comportamento predefinito anche per lo spider di Visual SEO Studio, che supporta i metodi di compressione GZip e Deflate.
In alcuni casi estremamente rari un web server difettoso potrebbe spedire contenuti malamente compressi, il tale caso potrai sempre scansionare il sito web delesezionando l'opzione.

Nota: come detto, i casi in cui potresti dover deselezionare l'opzione sono estremamente rari. Anche nel caso di un vecchio server web che non supporta la compressione HTTP, questi dovrebbe di norma rispondere con un codice di risposta HTTP 406 ("Not acceptable"), e lo spider di Visual SEO Studio da quel punto in poi in automatico continuerebbe l'esplorazione senza compressione.

Ignora differenze in maiuscolo/minuscolo negli URL

Questa opzione non è selezionata come valore predefinito. I percorsi degli URL sono "case sensitive", significa che due URL con percorsi che differiscono unicamente nel maiuscolo/minuscolo di uno o più caratteri puntano a due risorse distinte. È uno standard del web, i motori di ricerca lo rispettano e tu quasi sempre dovresti lasciare l'opzione non selezionata.

Allora perché l'opzione esiste?
Alcuni server web - il più noto è MS IIS - trattano i percorsi degli URL come "case insensitive". Link interni con caratteri errati nel maiuscolo/minuscolo potrebbero portare i motori di ricerca a vedere contenuti duplicati. È sempre una buona cosa che Visual SEO Studio si comporti allo stesso modo: può rilevare il contenuto duplicato, segnalarlo e aiutarti a correggere il problema.
Talvolta però non sarai tu incaricato di correggere il problema. Nel tuo ruolo di SEO potresti avere segnalato il problema al team di sviluppo, e mentre ancora aspetti sia corretto potresti volere temporaneamente ignorare il problema per investigarne altri. Questo è probabilmente l'unico caso in cui potresti volere selezionare l'opzione.

Accetta cookie di sessione

Questa opzione è selezionata in via predefinita. È un comportamento diverso rispetto a quello dei bot dei motori di ricerca - che non accettano i cookie - e di molti altri prodotto SEO spider.
Raccomandiamo di tenere l'opzione selezionata, e deselezionarla solo se devi investigare comportamenti inattesi del sito web.

Perché lo spider di Visual SEO Studio accetta in via predefinita cookie di sessione, se i bot dei motori di ricerca non lo fanno?
C'è un motivo estremamente valido per farlo, ed è la ragione per cui raccomandiamo di tenere l'opzione selezionata.
Facciamo prima un rinfresco sui cookie di sessione:

I server web usano le "sessioni server", uno spazio di memoria allocato pr ogni visitatore per gestirne lo stato corrente (per esempio gli articoli nel loro carrello nel caso di un sito e-commerce). Poiché il Web è basato su HTTP - un protocollo di trasporto "stateless" - per distinguere chiamate HTTP provenienti da utenti diversi, la prima volta che un visitatore richiede una pagina (tipicamente con un browser), gli assegnano un identificativo univoco all'interno di un cookie di sessione. Il browser da quel momento in poi richiederà nuove pagine aggiungendo il cookie di sessione, così che il server web capisca che il visitatore non è nuovo, e fare riferimento al suo stato salvato.

I bot dei motori di ricerca non usano cookie di sessione, per cui ogni richesta di pagina web da parte di un bot di ricerca fa sì che il web server allochi una quantità di memoria come se fosse un nuovo visitatore. Questa quantità di memoria non è rilasciata fino a che la sessione sul server "scade", tipicamente dopo circa 20' che nessuna nuova richiesta con il cookie di sessione arriva.
Ciò non è di solito un gran problema perché i bot dei motori di ricerca tendono a non martellare il server web con richieste continue.
Gli spider SEO sono però bestie differenti. Vogliono esplorare un sito web velocemente, e possono fare decine o centinaia di richieste web contemporanee per periodi estesi di tempo. I moderni server web possono servire molte richieste allo stesso tempo, ma solo per dei picchi.
Facciamo un po' di semplici calcoli: supponiamo che uno spider SEO - senza support di cookie - visiti un sito web con una frequenza di 50 pagine al secondo. In 20' sarebbero 60.000 richieste web, ognuna di essi che causa l'allocazione di una spazion di memoria per la sessione sul server web.
Alcuni server web Apache allocavano un minimo di 7 MB di RAM per ogni nuova sessione. Moltiplicato per 60.000 sono 410 GB di memoria server dedicati a un singolo spider SEO che già sta succhiando tutta la banda passante e rallentando il sito e-commerce senza comprare nulla. Tale consumo di memoria può mandare in crash molti server web. Ecco perché gli amministratori di e-commerce odiano quando gli spider SEO visitano i l loro sito, specialmente se non autorizzati!

Visual SEO Studio è diverso. Supportando i cookie di sessione la sua occupazione di memoria sul server web è quella minima di un singolo utente. Se si aggiunge che il suo motore di esplorazione adattivo non sovraccarica mai il server e non lo rallenta, puoi capire perché Visual SEO Studio è il migliore tool SEO per siti web "live" ad alto traffico.

Aggiungi header HTTP 'Referrer'

L'header HTTP "Referer" (si noti l'errore storico commesso da chi originariamente scrisse il protocollo, con una sola 'r') indica al web server dove l'URL richiesto è stato trovato. Tipicamente un browser lo valorizza con la pagine sorgente quando un utente clicca su un link in essa.
Visual SEO Studio lo aggiunge come cortesia al webmaster: in caso di 404 (pagina non trovata), un webmaster controllando i log del server può capire dove il link "rotto" si trova.
Non è necessario al corretto funzionamento del programma, e può essere deselezionato tranquillamente.

Scarica contenuti di pagine con codici d'errore HTTP

Nell'analizzare i contenuti delle pagine da un punto di vista SEO, ci si preoccupa solo delle pagine che ritornano un codice di stato 200 OK, perché solo queste possono essere indicizzate dai motori di ricerca.
Tuttavia vi sono molti motivi per poterle volere analizzare lo stesso: controllare il codice di tracciatura di Analytics, controllare che la pagina sia user-friendly, ecc.
Consigliamo di disabilitare l'opzione solo in rari casi di esplorazione di grossi siti con molti errori HTTP se si necessita di risparmiare il più possibile spazio su disco.

Per il file robots.txt, trattare tutti i codici HTTP 4xx come "accesso completo"

Secondo le specifiche originali del robots.txt, un file mancante (404 or 410) dovrebbe essere interpretato come "consenti tutto" e tutti gli altri codici di stato dovrebbero essere interpretati come "vieta tutto".
Google fece la contestabile scelta di trattare alcuni codici di stato quali il 401 "Unauthorized" e il 403 "Forbidden" come "consenti tutto" anch'essi, anche se semanticamente vorrebbero dire il contrario!
Per essere in grado di riprodurre il comportamento di Google abbiamo aggiunto questa opzione, che come valore predefinito non è selezionata.

Per il file robots.txt, trattare redirezione a / come "accesso completo"

Secondo le specifiche originali del robots.txt, un file mancante (404 or 410) dovrebbe essere interpretato come "consenti tutto" e tutti gli altri codici di stato dovrebbero essere interpretati come "vieta tutto".
Un reindirizzamento dovrebbe pertanto essere interpretato come un "vieta tutto"; sfortunatamente è un'impostazione non rara reindirizzare all'indirizzo radice (ossia alla the Home Page) un file mancante, con la regola generica che copre anche il caso di robots.txt mancante. È una pratica contestabile (per esempio Google tratta reindirizzamenti generici come dei "soft 404"), ma comunque abbastanza diffusa per cui Google fece la scelta di tollerare questo caso specifico interpretandolo come un 404 (d'altronde l'intenzione originale del webmaster così dovrebbe essere rispettata).
Per essere in grado di riprodurre il comportamento di Google abbiamo aggiunto questa opzione, che come valore predefinito non è selezionata.

Per il file robots.txt, trattare redirezione a [altro dominio]/robots.txt come "accesso completo"

Secondo le specifiche originali del robots.txt, un file mancante (404 or 410) dovrebbe essere interpretato come "consenti tutto" e tutti gli altri codici di stato dovrebbero essere interpretati come "vieta tutto".
Un reindirizzamento dovrebbe pertanto essere interpretato come un "vieta tutto"; sfortunatamente è uno scenario comune in casi come una migrazione HTTP->HTTPS, o un cambio di nome dominio, il redirezionare tutto dalla nuova alla vecchia versione, robots.txt incluso.
Per permettere di analizzare un sito dopo una migrazione da HTTP a HTTPS quando l'URL di partenza dato usa il protocollo http:// (o il protocollo non è specificato e il programma assume sia http://) abbiamo aggiunto questa opzione, selezionata come valore predefinito.

Siti web verificati

Questa scheda ti permette di impostare opzioni di esplorazione che violerebbero il codice di condotta per bot educati (identificati, rispetta il robots exclusion protocol, non sovraccaricare le risorse del server...).
Siccome non sarebbe etico usarle su siti di altri senza consenso, esse sono disponibili solo per siti web che puoi dimostrare di amministrare. Potrai allora impostare opzioni come ignorare le direttive impostate nel file robots.txt, cambiare lo user-agent, e usare più thread paralleli per scaricare le risorse del sito.

Per abilitare queste opzioni è sufficiente verificare il tuo sito, bastano pochi clic.
Puoi dimostrare di essere un amministratore di sito utilizzando le credenziali di accesso "Google Search Console", o una chiave API di "Bing strumenti per webmaster", o usare la verifica nativa di Visual SEO Studio.
Per server web di sviluppo che girano in locale su localhost o 127.0.0.1 sei automaticamente considerato un amministratore e le opzioni saranno sempre abilitate.

Puoi sapere di più sui Siti Verificati alla pagina Gestire la lista dei Siti Verificati.

Lista siti web verificati...

Il bottone Lista siti web verificati... aprirà la finestra Siti Verificati da dove potrai verificare il tuo sito e aggiungerlo alla lista.
Puoi sapere di più sui Siti Verificati alla pagina Gestire la lista dei Siti Verificati.

Ignora direttive 'Disallow' in robots.txt

Selezionare questa opzione farà sì che lo spider ignori le direttive Disallow: nel file robots.txt che normalmente impedirebbero la visita a certi percorsi del sito web.

Ignora direttive meta 'nofollow'

Selezionare questa opzione farà sì che lo spider ignori la direttiva nofollow letta nel meta tag robots (o nel tag dedicato al bot specifico, o negli header HTTP X-Robots-Tag equivalenti) che normalmente impedirebbe il seguire i link trovati nella pagina contenente la direttiva.

Ignora attributi rel="nofollow"

Selezionare questa opzione farà sì che lo spider ignori il valore nofollow letto nell'attributo rel - se presente - di un link, che normalmente impedirebbe il seguire il link stesso.

Usa questo User-Agent

Questa casella di scelta permette di scegliere lo User-Agent che lo spider userà per identificarsi nella visita alle pagine di un sito web.
Le opzioni disponibili sono gli user-agent dei più famosi motori di ricerca - nelle versioni del bot per desktop, mobile e immagini - e quelle dei più popolari web browser.
Quando visiti un sito web non elencato nella lista dei Siti Verificati, si userà il valore predefinito Pigafetta, lo user-agent nativo di Visual SEO Studio.

Autenticazione HTTP

Quando si sviluppa un nuovo sito web è esigenza alquanto comune pubblcarlo online a una audience ristretta - es. il cliente pagante, o quanti coinvolti nel progetto - per fornire loro un'anteprima dei lavori.
In tale caso, normalmente non vuoi che i motori di ricerca lo indicizzino. Ci sono diversi modi per prevenirlo; il metodo raccomandato è restringerne l'accesso tramite autenticazione HTTP.

Questa scheda ti permette di specificare come lo spider si autenticherà durante l'esplorazione di siti web protetti da autenticazione HTTP.
Le opzioni disponibili sono:

  • Nessuna
    È l'impostazione predefinita, si usa per esplorare siti web non ristretti da autenticazione HTTP.
    Tentativi di visitare pagine protette da autenticazione HTTP risulterebbero in risposte del server con codici di stato HTTP 403.
  • Usa credenziali dell'utente corrente
    Selezionare questa opzione farà sì che lo spider utilizzi le credenziali di rete utilizzate dal computer su cui sta girando.
    Il programma negozierà con il server web per determinare lo schema di autenticazione. Se il client e il server supportano entrambi Kerberos, questo sarà usato; in caso contrario, sarà usato NTLM.
  • Specifica credenziali
    Il programma utilizzerà le credenziali fornite nei campi sottostanti, abilitati quando l'opzione è selezionata.
    Puoi anche specificare gli schemi di autenticazione da usare.

Nome Utente

Il nome dell'utente di rete da usare (es. "nome" o "dominio\nome"):

Password

La password dell'utente di rete.

Basic

Usa lo schema di autenticazione Basic (attenzione: password in chiaro, non sicura senza SSL).
L'autenticazione Basic spedisce sul filo la password in chiaro. Va bene quando la connessione è sicura, quando utilizza HTTPS, e nei casi in cui non necessiti molta sicurezza.

Digest

Usa lo schema di autenticazione Digest.
L'autenticazione Digest crea un hash della password assieme ad altri dati dal server prima di spedire una risposta sul filo. È un significativo passo avanti rispetto a Basic in termini di sicurezza.

Kerberos / NTLM

Il programma negozierà con il server web per determinare lo schema di autenticazione. Se il client e il server supportano entrambi Kerberos, questo sarà usato; in caso contrario, sarà usato NTLM.