L'annuncio di Google sul robots.txt
Il Buono, il Brutto e il Cattivo
Conclusioni
La notizia: Gli annunci di Google sul robots.txt
Nel 2014 scrivemmo un articolo - Il File robots.txt, Venti Anni Dopo - dove concludemmo con la frase Time to make it a real standard - It's high time the major players formed a committee, wrote an updated RFC, and submitted a serious specification to apply for standardization
.
Cinque anni dopo, l'auspicio diventa realtà!
Google ha annunciato la loro collaborazione con Martijn Koster - l'inventore originale del protocollo - e altri motori di ricerca per stendere una bozza ufficiale di RFC (Request For Comments) per trasformare ciò che oggi è uno standard de-facto in uno standard ratificato ufficialmente.
Le notizie non terminano qui:
Google ha anche annunciato il rilascio come open source del codice del loro parser del robots.txt
Un dettaglio del file robots.txt file su visual-seo.com
Il Buono, il Brutto e il Cattivo
Il cambiamento è per la maggior parte una cosa buona. Si legga il nostro già citato articolo per conoscere tutto sul robots.txt e le sue imperfezioni.
Il Buono
- Un protocollo standardizzato con una specifica formale significa che i motori di ricerca non debbano arrangiarsi ognuno a modo suo laddove i dettagli non siano approfonditi: dovrebbero evidenziare le lacune delle specifiche, e farle estendere.
La RFC corrente copre parti che in origine erano lasciate all'interpretazione: che fare in presenza di codici di stato HTTP inattesi, come gestire i redirezionamenti, quando è giustificato usare una copia in cache, che limiti di dimensione considerare, come gestire i caratteri Unicode, BOM, etc... - Azioni legali in caso di non rispetto del robots.txt potrebbero essere basate su basi leggermente più solide (bhé, abbiamo detto "leggermente").
- È una RFC, e per quanto qualcuno asserisca il contrario, chiunque può parteciparvi con proposte. Proveremo ad avanzare la nostra proposta sulla case-sensitivity dei percorsi delle direttive (ossia: tenerle case sensitive come valore predefinito, ma permettere di specificare se debbano essere considerate case-insensitive) per mettere una pezza ai problemi causati da IIS e altri web server non sensibili a maiuscole/minuscole.
Il Cattivo
- Per quanto lodevole, l'iniziativa di Google sembra fatta per imporre la propria interpretazione delle lacune nelle specifiche originali del robots.txt
Per esempio, il come i redirezionamenti vanno gestiti riflette in modo lampante l'interpretazione di Google, ed è a mia modesta opinione molto soggettiva. Il mio sospetto personale è che le specifiche proposte siano state stese per mappare esattamente la loro implementazione più che per il bene di uno standard comune. - La nuova RFC dice che qualsiasi codice di stato HTTP 40x implica che un crawler possa essere libero di accedere a qualsiasi risorsa del web server. Questo è esattamente il comportamento odierno di Googlebot che abbiamo già contestato in passato: include forzatamente anche i codici di risposta HTTP 401 "Unauthorized" e HTTP 403 "Forbidden" che sono stati chiaramente concepiti per l'esatto contrario!
- Non vi è praticamente nulla nella RFC attuale le estensioni introdotte in tempi successivi alla prime specifiche del protocollo.
L'unica eccezione sono la direttiva Allow e i caratteri speciali $ e *. Per il resto vi è solo un riferimento alla direttiva "Sitemap", dove si spiega come il formato sia estendibile così che gli implementatori possano decidere di supportare direttive non-standard.
Naturalmente, non troverete alcun riferimento alla direttiva "Crawl-Delay", che come ben si sa Google non rispetta. - Google pianifica l'abbandono del supporto alla direttiva Noindex, che sebbene non-standard e tenuta nascosta, era però molto elegante e comoda, e permetteva di risparmiare tonnellate di chiamate HTTP per de-indicizzare delle pagine. Come detto già in passato, la direttiva Noindex dovrebbe essere spinta nel nuovo standard.
Il Brutto
- Le specifiche impongono l'approccio di Google di gestire conflitti tra direttiva Allow/Disallow, con la regola del "longest match". Ha il serio difetto che nel caso si usi la wildcard * o quando alcune parti dei percorsi da paragonare usino il percent-encoding, la lunghezza in caratteri dei percorsi divenga in pratica casuale.
Usare una regola basata sull'ordine di apparizione delle direttive come realizzato da altri motori di ricerca avrebbe risolto tutte le ambiguità.
Conclusioni
Google ha dichiarato di aver steso la bozza della RFC in collaborazione con altri motori di ricerca. A tre giorni dal loro annuncio, non abbiamo scovato menzione della collaborazione sui blog degli altri motori di ricerca. Il fatto che la bozza rifletta così da vicino l'implementazione di Google ci fa domandare quale sia l'effettivo livello di coinvolgimento di Bing, Yandex, Baidu, e compagnia danzante.
Una RFC e una Request for Comments, tutte le parti interessate dovrebbero perteciparvi per limarla al meglio.
Il dato è stato lanciato, ora occorre farlo girare!