Manuale: Estrazione Dati

La funzione "Estrazione Dati" di Visual SEO Studio, documentata in dettaglio.

Estrazione Dati

La funzionalità di Estrazione Dati ti permette di creare tabelle di dati provenienti dalle pagine di una sessione di esplorazione, estratti tramite il potente linguaggio di interrogazione XPath (versione XPath 1.0).

Supponi ad esempio di voler identificare tutti i link al tuo dominio che non usano il protocollo HTTPS, o tutti i link esterni al tuo dominio con target="_blank" ma senza rel="noopener" (e quindi soggetti a una falla di sicurezza); impostando la corretta espressione XPath puoi facilmente identificare tutti gli elementi che ti interessano.

Nota: questi sono solo due esempi, in realtà la funzionalità Ispezione Link automatizza già entrambe le ricerche.

Barra degli strumenti

Nuovo

Una estrazione parte con il creare un nuovo insieme di espressioni.
Cliccando il bottone Nuovo otterrai un menù a tendina con le seguenti voci:

  • Nuovo, per creare un nuovo insieme di espressioni vuoto
  • Nuovo da esistente..., per creare un nuovo insieme di espressioni copiandolo da uno esistente; verrà aperta una finestra di dialogo per selezionare l'insieme di espressioni da copiare

Apri

Per aprire un insieme di espressioni creato in precedenza clicca il bottone Apri, apparirà una finestra di dialogo per selezionare l'insieme desiderato.

Salva

Con il bottone Salva puoi salvare il tuo insieme di espressioni XPath per poterle riutilizzare.
Il programma ti segnala se ci sono insiemi di espressioni non salvati prima di chiudersi, o quando provi a chiudere la scheda senza avere salvato delle modifiche.

Annulla Variazioni

Se hai modificato il tuo insieme di espressioni XPath e non desideri conservare le modifiche, puoi cliccare il bottone Annulla Variazioni; l'insieme di espressioni tornerà allo stato precedente alle modifiche, o nel caso di un nuovo insieme sarà eliminato.

Elimina

Il bottone Elimina rimuove l'insieme di espressioni correntemente aperto. Prima della rimozione Visual SEO Studio ti chiederà conferma di procedere con l'operazione.

Estrai Dati

Una volta aggiunte tutte le colonne per le espressioni XPath desiderate, puoi procedere all'estrazione cliccando il bottone Estrai Dati; si popolerà così la tabella con i dati cercati.

Come in tutte le griglie di Visual SEO Studio, il contenuto della tabella può essere esportato usando il menu contestuale che si ottiene cliccando (su Windows) nell'angolo in alto a sinistra della tabella, o (su Mac) cliccando col tasto destro su di una qualsiasi cella della tabella.
Il menù di contesto ha le seguenti opzioni:

  • Scegli colonne...
    per visualizzare o nascondere colonne dalla tabella
  • Trova valore in griglia...
    per cercare un particolare valore nelle celle della tabella
  • Esporta in Excel...
    per esportare il contenuto delle colonne visualizzate su un documento Excel
  • Esporta in CSV...
    per esportare il contenuto delle colonne visualizzate su file CSV
  • Aggiungi dati "Analisi delle ricerche" di Google...
    per aggiungere colonne con dati da Google
  • Aggiungi dati "Traffico pagine" di Bing/Yahoo...
    per aggiungere colonne con dati da Bing/Yahoo
  • Aggiungi dati da "Moz"...
    per aggiungere colonne con dati da Moz

Criteri di estrazione

Nome insieme di colonne

In questo campo assegni un nome all'insieme di espressioni XPath (che concettualmente è un insieme di colonne).
Quando crei un nuovo insieme di espressioni il programma ti propone un nome generato automaticamente; ti consigliamo prima di salvare di personalizzarlo con un nome significativo così da ritrovarlo facilmente. Potrai sempre modificarlo anche in seguito.

Aggiungi colonna

Il bottone Aggiungi Colonna permette di aggiungere una nuova colonna associata a una nuova espressione XPath.

Elimina Colonna

Il bottone Elimina Colonna permette di rimuovere una colonna associata a una espressione XPath. Prima della rimozione ti verrà chiesto se desideri confermare.

Nome Colonna

In questo campo inserisci il nome che desideri compaia nella tabella dei risultati come titolo della colonna associata all'espressione XPath.

XPath al contenuto

Questo è il campo chiave della funzionalità di estrazione dati, tramite il quale puoi sfruttare la potenza espressiva di XPath.

In questa pagina di aiuto non si vuole fornire una trattazione del funzionamento e della sintassi XPath, ci si limiterà a fornire alcune basi per far capire come usarlo.

Per farla super semplice una pagina HTML è organizzata come una struttura gerarchica chiamata DOM ("Document Object Model"), vista come un albero di nodi. I nodi rappresentano i tag (chiamati nel DOM "elementi") e i loro attributi.
XPath permette di effettuare delle ricerche nel DOM per trovare elenchi di tag, attributi e testo interno ai tag.

Ecco una breve descrizione degli elementi più comuni che compongono una espressione XPath:

  • /:
    Specifica la posizione del nodo (o dei nodi) da cercare nella gerarchia. Posto all'inizio dell'espressione indica che la ricerca va iniziata a partire dal nodo radice, che nel caso di una pagina HTML è il tag <html>; l'espressione /html restituisce quindi come risultato il nodo radice <html>.
    È possibile specificare qualsiasi posizione nella gerarchia, ad esempio /html/head/*; in questo caso il risultato saranno tutti i meta-tag e gli altri elementi nella <head>.
  • //:
    In questo modo la ricerca viene invece effettuata sui nodi a prescindere dalla loro posizione nella gerarchia. L'espressione //img restituisce ad esempio tutti i tag img nella pagina.
  • *:
    Questo carattere jolly l'abbiamo già visto, serve per specificare un qualsiasi elemento. Nell'esempio precedente /html/head/* erano restituiti tutti gli elementi figli del tag <head>. Usato insieme a @, ossia @*, restituisce tutti gli attributi di un elemento.
  • ():
    Le parentesi tonde permettono di effettuare raggruppamenti; sono anche usate per forzare l'ordine di applicazione degli operatori.
  • []:
    Specifica un singolo elemento di una lista. Ad esempio se volessimo trovare il primo titolo H1 della pagina la nostra espressione sarebbe (//h1)[1] (l'uso delle parentesi tonde serve per forzare l'ordine delle priorità, perché [] avrebbe precedenza rispetto a //).
    È anche possibile utilizzare funzioni come last() o position() per ottenere ad esempio l'ultimo H1 (//h1[last()]) o i prime tre H1 (//h1[position()<=3]).
    Poi pure fare ricerche nel testo usando funzioni come starts-with(), contains() o addirittura espressioni regolari con matches().
  • @:
    Specifica un attributo. Ad esempio l'espressione //a[@target='_blank'] trova tutti i link con un attributo target uguale a _blank, ossia tutti i link che vengono aperti in una nuova scheda del browser.
  • =, !=, <=, >=:
    Con questi operatori è possibile condizionare la ricerca in base al valore degli attributi. In precedenza con l'espressione //a[@target='_blank'] abbiamo ad esempio visto l'uso dell'operatore di uguaglianza =.
  • and, or, not:
    Con gli operatori logici è inoltre possibile creare catene di condizioni.
  • |:
    È possibile anche concatenare diverse espressioni XPath tramite l'operatore | (pipe) per unire risultati diversi in un'unica colonna.

Per rispondere infine ai due quesiti iniziali:

  • per trovare tutti i link verso domini esterni con target='_blank' e privi di valore noopener nell'attributo rel, usa la seguente espressione XPath:
    //a[contains(@href, 'iltuodominio.com')=false and @target='_blank' and contains(@rel,'noopener')=false]
  • e per trovare tutti i link al tuo dominio che usano il protocollo non sicuro HTTP, usa l'espressione:
    //a[starts-with(@href, 'http://www.iltuodominio.com')]

Di nuovo: sono stati forniti a titolo dimostrativo, troverai molto più immediato usare la funzionalità Ispezione Link per rispondere a queste e molte altre interrogazioni avanzate sui link.

Cosa estrarre

Puoi specificare cosa estrarre dei nodi identificati dall'espressione XPath. Ci sono tre alternative:

  • InnerText
    Per ogni elemento (tag) estrai il testo interno.
  • InnerHtml
    Per ogni elemento (tag) estrai il codice HTML contenuto nel tag.
  • OuterHtml
    Per ogni elemento (tag) estrai l'intero codice HTML, compreso il tag.

Estrai solo il primo elemento in caso di più risultati

Spuntando questa opzione puoi limitare il risultato alla prima occorrenza trovata nella pagina.

Intestazioni di colonna

URL

La URL alla pagina contenente il risultato trovato con l'estrazione dei dati.

Titolo

È il titolo della pagina contenente il risultato trovato con l'estrazione dei dati.

Altre colonne

Queste sono le colonne aggiuntive associate alle espressioni XPath usate per estrarre i dati.