Diffusione strutturata dei dati nel mondo Web

Quando di sera il piccolo Googlebot è a letto e si chiede che cosa farà da grande, ha solamente un desiderio: vorrebbe diventare il più intelligente di tutti, per capire di quali elementi è composta una pagina web, che cosa vogliano dire tutti quei numeri e tutte quelle lettere e da quale contesto dipendono. Purtroppo dobbiamo essere onesti con il piccolo Googlebot e confessargli che, negli ultimi dieci anni, i suoi progressi in questo ambito sono stati relativamente limitati.


Per fortuna esistono dei corsi di sostegno per i crawler in difficoltà: il markup strutturato su specifici tipi di dati nel codice sorgente HTML. Da quando i suoi cari genitori Sergey Brin e Larry Page hanno cominciato a mostrare i dati strutturati all’interno dei risultati di Google, suggerendo che i siti con questo markup si posizionano meglio, Googlebot è stato più in grado di trovare e processare tali dati.

Quello che vogliamo ora sapere è in quale misura questi dati strutturati sono diffusi nel web. Per fortuna il crawler SISTRIX ci aiuterà in questo compito: esso ha scansionato circa 65 miliardi di URL (precisamente 65.650.465.110), controllando che possedessero anche i dati strutturati secondo il markup schema.org. Nel grafico seguente sono stati riportati i dati individuati grazie a questa valutazione:

Distribution of schema.org integrations

Tra gli URL scansionati emergono tre tipi di dati che mostrano un valore superiore all’1%. Sia il blogposting, sia i blog sono ben rappresentati grazie ai grandi servizi di hosting come blogger.com e blogspot.com (entrambi di proprietà di Google), che utilizzano già questo markup. “Person” è anche in forte relazione con i precedenti: Google utilizza infatti spesso questo markup, ad esempio nei siti di GooglePlus. Per quanto concerne la popolarità di Breadcrumb, essa non può che essere il risultato del markup usato da Google per mostrare un click path funzionale all’interno dei risultati di ricerca. Infine, non fa mai male avere dei plugin per i Content Management System (CMS) gratuiti, come WordPress.

Per riassumere, i dati strutturati di markup si stanno evolvendo sorprendentemente bene, e sono spesso già integrati all’interno di numerosi software standard. Il fatto però che questo non sia però sempre un vantaggio sembrerebbe non aver ancora raggiunto la maggior parte degli utenti, per fortuna di Googlebot.

Articoli correlati