Codice HTML: errori SEO comuni

Cosa sono le pagine senza dichiarazione di doctype?

La dichiarazione “doctype”, posta all’inizio di un documento, indica di che tipo di documento si tratta, e più precisamente la versione del linguaggio di markup (dell’HTML) che viene utilizzata. Il suo scopo è di aiutare il browser a visualizzare correttamente un sito web.

Nel caso in cui manchi questa dichiarazione non è una tragedia, perché molti browser sono comunque in grado di gestire la situazione. Tuttavia, ciò può causare errori nella visualizzazione del sito in quanto il browser del visitatore passerà automaticamente alla modalità Quirks, cioè una modalità di compatibilità volta a garantire la corretta visualizzazione dei codici obsoleti e non validi. Non si tratta quindi di garantire l’uso corretto di una pagina, bensì di consentirne la rappresentazione desiderata.

Nel caso non fossi in possesso della dichiarazione doctype, potrai comunque integrarla facilmente in un secondo tempo, inserendola nell’elemento head.

Cosa sono le pagine senza attributo HTML lang?

Le pagine senza attributo HTML lang (e anche senza attributo hreflang) non contengono alcun riferimento alla versione linguistica del sito nel loro codice di programmazione. Ciò può avere un’influenza su due aree in particolare: l’ottimizzazione dei motori di ricerca e l’uso degli screen reader.

Un attributo che, per esempio, indica che un sito è stato scritto in italiano, consente ai motori di ricerca di dedurre in quale lingua e Paese risulta rilevante, e agli screen reader di determinarne la pronuncia corretta.

Tuttavia, secondo John Müller di Google, chi vuole fare SEO internazionale dovrebbe ignorare completamente l’attributo lang e usare solamente hreflang come strumento decisionale per le versioni linguistiche. In questo modo è possibile integrare nel codice sorgente i riferimenti alle rispettive altre versioni e alla pagina stessa, indicando così in modo inequivocabile quale versione si trova dove.

La ragione della scarsa importanza dell’attributo lang riguarda il fatto che l’uso errato di questo attributo è frequente a causa della copia dei template. L’attributo hreflang viene invece utilizzato correttamente molto più spesso ed è quindi preso in considerazione da Google.

Come posso impostare la codifica dei caratteri in HTML?

La codifica dei caratteri è regolata in HTML nell’intestazione. Un meta tag indica al browser la codifica corretta:

<meta charset=“UTF-8“>

Questo è un classico esempio di una codifica significativa dei caratteri. Negli ultimi anni l’UTF-8 (unicode) è diventato lo standard per la codifica globale dei caratteri. È congruente con l’ASCII nei primi 128 caratteri, per cui richiede poca memoria per l’inglese e per molte lingue occidentali, e può essere modificato anche in editor di testo che non sono compatibili con l’UTF-8. Anche per questo motivo l’UTF-8 è la codifica standard in Italia. Tuttavia esistono anche regioni e applicazioni in cui sono più comunemente utilizzati set di caratteri più complessi, come ad esempio l’UTF-16.

Perché la giusta codifica è così importante? Accenti, apostrofi o caratteri speciali vengono rapidamente visualizzati in modo errato su un sito web. Al loro posto appaiono così punti interrogativi, caselle o altri simboli che non hanno nulla a che fare con il carattere scelto originariamente. C’è chi preferisce sostituire questi caratteri attraverso i codici delle lettere, cioè i cosiddetti caratteri denominati, soluzione alternativa che risulta però piuttosto inutile se la codifica dei caratteri è comunque corretta.

Il problema: se la codifica dei caratteri non è impostata correttamente, il browser deve scoprire da solo di quale codifica si tratti. Se non riesce, tali caratteri speciali non saranno più leggibili. Una codifica chiara come UTF-8 assegna invece una stringa di caratteri unica a ogni carattere unicode, che può essere lunga fino a quattro byte. Se il browser sa con che codifica ha a che fare, può anche assegnare e visualizzare i caratteri senza problemi.

Google può trovare pagine o contenuti nascosti?

“Nascondere” pagine e contenuti da Google non è affatto facile, perché il motore di ricerca ha molti modi per scoprire una pagina. Nella maggior parte dei casi è impossibile nascondere completamente un sito da Google: anche un solo link su una pagina indicizzata sarà sufficiente perché i suoi bot la raggiungano ed effettuino il crawling dell’intero sito attraverso i link interni.

Ci sono naturalmente delle eccezioni: per esempio, Google non riesce a rintracciare i database così facilmente. Inoltre, arrivato ad una certa profondità di link, il motore di ricerca si arrende e ritira i suoi crawler. Infine, anche i dati “nascosti” in un modulo rimangono invisibili a Google.

Di norma, l’obiettivo non è quello di nascondersi completamente dal motore di ricerca: è sufficiente che il sito non possa essere trovato dagli utenti. Poiché Google rispetta le regole che i webmaster impongono ai bot, è possibile ottenere questo risultato con 3 metodi: tramite due di essi, il motore non troverà le pagine corrispondenti.

Disallow

Cominciamo con il robots.txt.: in quest’area puoi specificare quali pagine Google non deve scansionare. Il motore non invierà quindi alcun bot e non rileverà i contenuti. Se vuoi assicurarti che le tue pagine non vengano visualizzate su Google, questa è la scelta migliore. Ecco come funziona.

Crea un file di testo con il nome robots.txt.

Aggiungi il seguente codice:

User-agent: *
Disallow: \l'URL della tua pagina

Con l’asterisco dopo lo “User-agent” ti rivolgi a tutti i bot dei motori di ricerca. Se vuoi bandire solo i bot di Google dal tuo sito, devi nominarli individualmente dopo “User-agent”. Tuttavia, con “Googlebot” li hai coperti tutti. Se vuoi escludere alcuni bot, probabilmente il seguente elenco può esserti d’aiuto:

 „Googlebot-Image/1.0“ per la ricerca immagini di Google.
 „Googlebot-Video/1.0“ per i video.
 „Googlebot-Mobile/2.1“ per i dispositivi mobili.

Con il percorso dopo “disallow” specificherai le pagine che Google non deve indicizzare: in questo caso, si tratterebbe dell’intera pagina. Tuttavia, puoi specificare anche sottocartelle o singole pagine, se desideri nascondere solo alcune parti del sito.

Una volta completati tutti gli step, carica il robots.txt nella directory principale del tuo URL. Google lo troverà e non indicizzerà le aree della pagina specificate.

Utilizzo dei Tag HTML

Se non vuoi nascondere il tuo intero sito a Google, bensì semplicemente che non indicizzi alcune pagine, il tag noindex è l’opzione migliore. Ti basterà includere il seguente meta tag nella pagina in questione, all’interno del codice sorgente:


<meta name=“robots“ content=“noindex“ />

Tuttavia: mentre la funzione disallow è un’istruzione molto severa per i crawler di Google, il tag noindex è più che altro una raccomandazione. Google non lo percepisce dunque come un divieto, ma piuttosto come un consiglio. Per questo motivo il noindex viene solitamente utilizzato più per l’ottimizzazione dei motori di ricerca, che per impedire l’indicizzazione, in quanto Google di solito trova queste pagine.

Come nascondere il contenuto tramite una richiesta di password

Se proteggi con una password il tuo sito o una sezione di esso, Google non potrà scansionarne il contenuto. Svantaggio: tutti coloro che visitano il sito hanno bisogno di una password per visualizzarne i contenuti. Questa variante è tecnicamente molto più complicata delle precedenti, ma risulta anche la scelta migliore se vuoi assicurarti che i tuoi contenuti siano protetti da visualizzazioni non autorizzate. A proposito: la maggior parte dei SEO imposta la pagina di accesso su Disallow per proteggere i dati sensibili.

Cosa sono i testi fittizi di Lorem Ipsum?

Se un grafico non ha ancora a disposizione il testo che collocherà in una certa posizione di un blog o di un sito, utilizzerà il cosiddetto testo fittizio. Si tratta di un segnaposto che consente ai grafici di determinare la distribuzione del testo sulla pagina, verificare lo spazio necessario per i caratteri e valutare la leggibilità.

Grazie all’uso di lettere e parole in lingua similmente latina, si garantisce che il testo fittizio e il testo reale non differiscano troppo dal punto di vista visivo. Lorem ipsum è incomprensibile e privo di significato, in quanto si tratta di una verbalizzazione del latino che non distrae l’osservatore dal testo segnaposto. Ciò vale ancora di più per il fatto che Lorem ipsum è probabilmente il testo fittizio più conosciuto oggigiorno e le persone smettono di leggere dopo le prime due parole quando lo incontrano.

A differenza di altri testi fittizi, tuttavia, Lorem Ipsum è meno adatto per confrontare i font. Per questo, “La mia anima è pervasa da una mirabile serenità, simile a queste belle mattinate di maggio che io godo con tutto il cuore” o “Ma la volpe col suo balzo ha raggiunto il quieto Fido” (un vero e proprio pangramma contenente ogni lettera dell’alfabeto italiano) sono molto più adatti.