Manuale: Estrazione Dati
La funzione "Estrazione Dati" di Visual SEO Studio, documentata in dettaglio.
Estrazione Dati
La funzionalità di Estrazione Dati ti permette di creare tabelle di dati provenienti dalle pagine di una sessione di esplorazione, estratti tramite il potente linguaggio di interrogazione XPath (versione XPath 1.0).
Supponi ad esempio di voler identificare tutti i link al tuo dominio che non usano il protocollo HTTPS, o tutti i link esterni al tuo dominio con target="_blank" ma senza rel="noopener" (e quindi soggetti a una falla di sicurezza); impostando la corretta espressione XPath puoi facilmente identificare tutti gli elementi che ti interessano.
Nota: questi sono solo due esempi, in realtà la funzionalità Ispezione Link automatizza già entrambe le ricerche.
Barra degli strumenti
Nuovo
Una estrazione parte con il creare un nuovo insieme di espressioni.
Cliccando il bottone
Nuovo otterrai un menù a tendina con le seguenti voci:
- Nuovo, per creare un nuovo insieme di espressioni vuoto
- Nuovo da esistente..., per creare un nuovo insieme di espressioni copiandolo da uno esistente; verrà aperta una finestra di dialogo per selezionare l'insieme di espressioni da copiare
Apri
Per aprire un insieme di espressioni creato in precedenza clicca il bottone
Apri, apparirà una finestra di dialogo per selezionare l'insieme desiderato.
Salva
Con il bottone
Salva puoi salvare il tuo insieme di espressioni XPath per poterle riutilizzare.
Il programma ti segnala se ci sono insiemi di espressioni non salvati prima di chiudersi, o quando provi a chiudere la scheda senza avere salvato delle modifiche.
Annulla Variazioni
Se hai modificato il tuo insieme di espressioni XPath e non desideri conservare le modifiche, puoi cliccare il bottone
Annulla Variazioni; l'insieme di espressioni tornerà allo stato precedente alle modifiche, o nel caso di un nuovo insieme sarà eliminato.
Elimina
Il bottone
Elimina rimuove l'insieme di espressioni correntemente aperto. Prima della rimozione Visual SEO Studio ti chiederà conferma di procedere con l'operazione.
Estrai Dati
Una volta aggiunte tutte le colonne per le espressioni XPath desiderate, puoi procedere all'estrazione cliccando il bottone
Estrai Dati; si popolerà così la tabella con i dati cercati.
Come in tutte le griglie di Visual SEO Studio, il contenuto della tabella può essere esportato usando il menu contestuale che si ottiene cliccando (su Windows) nell'angolo in alto a sinistra della tabella, o (su Mac) cliccando col tasto destro su di una qualsiasi cella della tabella.
Il menù di contesto ha le seguenti opzioni:
-
Scegli colonne...
per visualizzare o nascondere colonne dalla tabella -
Trova valore in griglia...
per cercare un particolare valore nelle celle della tabella -
Esporta in Excel...
per esportare il contenuto delle colonne visualizzate su un documento Excel -
Esporta in CSV...
per esportare il contenuto delle colonne visualizzate su file CSV -
Aggiungi dati "Analisi delle ricerche" di Google...
per aggiungere colonne con dati da Google -
Aggiungi dati "Traffico pagine" di Bing/Yahoo...
per aggiungere colonne con dati da Bing/Yahoo -
Aggiungi dati da "Moz"...
per aggiungere colonne con dati da Moz
Criteri di estrazione
Nome insieme di colonne
In questo campo assegni un nome all'insieme di espressioni XPath (che concettualmente è un insieme di colonne).
Quando crei un nuovo insieme di espressioni il programma ti propone un nome generato automaticamente; ti consigliamo prima di salvare di personalizzarlo con un nome significativo così da ritrovarlo facilmente. Potrai sempre modificarlo anche in seguito.
Aggiungi colonna
Il bottone
Aggiungi Colonna permette di aggiungere una nuova colonna associata a una nuova espressione XPath.
Elimina Colonna
Il bottone
Elimina Colonna permette di rimuovere una colonna associata a una espressione XPath. Prima della rimozione ti verrà chiesto se desideri confermare.
Nome Colonna
In questo campo inserisci il nome che desideri compaia nella tabella dei risultati come titolo della colonna associata all'espressione XPath.
XPath al contenuto
Questo è il campo chiave della funzionalità di estrazione dati, tramite il quale puoi sfruttare la potenza espressiva di XPath.
In questa pagina di aiuto non si vuole fornire una trattazione del funzionamento e della sintassi XPath, ci si limiterà a fornire alcune basi per far capire come usarlo.
Per farla super semplice una pagina HTML è organizzata come una struttura gerarchica chiamata DOM ("Document Object Model"), vista come un albero di nodi. I nodi rappresentano i tag (chiamati nel DOM "elementi") e i loro attributi.
XPath permette di effettuare delle ricerche nel DOM per trovare elenchi di tag, attributi e testo interno ai tag.
Ecco una breve descrizione degli elementi più comuni che compongono una espressione XPath:
-
/:
Specifica la posizione del nodo (o dei nodi) da cercare nella gerarchia. Posto all'inizio dell'espressione indica che la ricerca va iniziata a partire dal nodo radice, che nel caso di una pagina HTML è il tag <html>; l'espressione/htmlrestituisce quindi come risultato il nodo radice <html>.
È possibile specificare qualsiasi posizione nella gerarchia, ad esempio/html/head/*; in questo caso il risultato saranno tutti i meta-tag e gli altri elementi nella <head>. -
//:
In questo modo la ricerca viene invece effettuata sui nodi a prescindere dalla loro posizione nella gerarchia. L'espressione//imgrestituisce ad esempio tutti i tag img nella pagina. -
*:
Questo carattere jolly l'abbiamo già visto, serve per specificare un qualsiasi elemento. Nell'esempio precedente/html/head/*erano restituiti tutti gli elementi figli del tag <head>. Usato insieme a@, ossia@*, restituisce tutti gli attributi di un elemento. -
():
Le parentesi tonde permettono di effettuare raggruppamenti; sono anche usate per forzare l'ordine di applicazione degli operatori. -
[]:
Specifica un singolo elemento di una lista. Ad esempio se volessimo trovare il primo titolo H1 della pagina la nostra espressione sarebbe(//h1)[1](l'uso delle parentesi tonde serve per forzare l'ordine delle priorità, perché[]avrebbe precedenza rispetto a//).
È anche possibile utilizzare funzioni comelast()oposition()per ottenere ad esempio l'ultimo H1 (//h1[last()]) o i prime tre H1 (//h1[position()<=3]).
Poi pure fare ricerche nel testo usando funzioni comestarts-with(),contains()o addirittura espressioni regolari conmatches(). -
@:
Specifica un attributo. Ad esempio l'espressione//a[@target='_blank']trova tutti i link con un attributo target uguale a _blank, ossia tutti i link che vengono aperti in una nuova scheda del browser. -
=,!=,<=,>=:
Con questi operatori è possibile condizionare la ricerca in base al valore degli attributi. In precedenza con l'espressione//a[@target='_blank']abbiamo ad esempio visto l'uso dell'operatore di uguaglianza=. -
and,or,not:
Con gli operatori logici è inoltre possibile creare catene di condizioni. -
|:
È possibile anche concatenare diverse espressioni XPath tramite l'operatore|(pipe) per unire risultati diversi in un'unica colonna.
Per rispondere infine ai due quesiti iniziali:
-
per trovare tutti i link verso domini esterni con target='_blank' e privi di valore noopener nell'attributo rel, usa la seguente espressione XPath:
//a[contains(@href, 'iltuodominio.com')=false and @target='_blank' and contains(@rel,'noopener')=false] -
e per trovare tutti i link al tuo dominio che usano il protocollo non sicuro HTTP, usa l'espressione:
//a[starts-with(@href, 'http://www.iltuodominio.com')]
Di nuovo: sono stati forniti a titolo dimostrativo, troverai molto più immediato usare la funzionalità Ispezione Link per rispondere a queste e molte altre interrogazioni avanzate sui link.
Cosa estrarre
Puoi specificare cosa estrarre dei nodi identificati dall'espressione XPath. Ci sono tre alternative:
-
InnerText
Per ogni elemento (tag) estrai il testo interno. -
InnerHtml
Per ogni elemento (tag) estrai il codice HTML contenuto nel tag. -
OuterHtml
Per ogni elemento (tag) estrai l'intero codice HTML, compreso il tag.
Estrai solo il primo elemento in caso di più risultati
Spuntando questa opzione puoi limitare il risultato alla prima occorrenza trovata nella pagina.
Intestazioni di colonna
URL
La URL alla pagina contenente il risultato trovato con l'estrazione dei dati.
Titolo
È il titolo della pagina contenente il risultato trovato con l'estrazione dei dati.
Altre colonne
Queste sono le colonne aggiuntive associate alle espressioni XPath usate per estrarre i dati.