Se il proprio contenuto è disponibile sia su una pagina HTML, sia in un file PDF, Google lo potrebbe considerare un caso di contenuti duplicati? In questo articolo approfondiremo l’argomento.
HTML + PDF = Contenuti duplicati?
Tecnicamente parlando potrebbe effettivamente trattarsi di contenuti duplicati. Tuttavia, parleremmo di contenuti duplicati esterni se, all’interno del tuo negozio online, offrissi una versione PDF scaricabile di ogni manuale d’istruzioni di ciascun prodotto, quando gli stessi documenti sono reperibili anche dal sito (e quindi a sua volta dal negozio online) del produttore.
Nel caso di contenuti duplicati interni, invece, Google afferma che preferisce posizionare solitamente la versione HTML nelle pagine dei risultati di ricerca. Tuttavia non devi preoccuparti se il tuo sito non risponde sempre a questa direttiva.
Nel caso Google mostri un avviso di contenuti duplicati nella sezione “Miglioramenti HTML” di Google Search Console (GSC), potresti ad esempio bloccare la scansione del documento PDF attraverso il file robots.txt, vietando l’accesso a GoogleBot.
- Ricorda però: se blocchi un URL attraverso un file robots.txt, esso potrebbe comunque comparire nei risultati di ricerca.
In alternativa, puoi evitare che il file PDF venga indicizzato utilizzando il tag x-robots all’interno dell’header HTTP, oppure inserendo un Canonical Tag verso la versione originale.
- Per maggiori informazioni sul tag x-robots nell’header HTTP: https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=it
- Per saperne di più riguardo al rel=”canonical” nell’header HTTP: https://webmasters.googleblog.com/2011/06/supporting-relcanonical-http-headers.html
Nel caso dei contenuti duplicati esterni descritti nell’esempio precedente, è consigliabile inserire il rel=”canonical” all’interno dell’header HTTP del file PDF, in modo che “indirizzi” verso la fonte delle informazioni (nel nostro caso, il sito del produttore originale).
È davvero necessario che i file PDF vengano scansionati e indicizzati?
Nel caso il tuo sito contenga numerosi file PDF, la prima domanda da porsi è se hai intenzione di posizionarti su Google grazie ad essi. Se la risposta è negativa, dovresti evitare che questi file vengano indicizzati da GoogleBot, in quanto consumano il crawling budget e l’index budget del tuo sito.
Cosa dice Google?
Non preoccuparti di questo tipo di contenuti duplicati, anche se il tuo contenuto è disponibile sia su un file PDF, sia in una pagina HTML. Nel caso rilevassimo problemi di contenuti duplicati mostreremmo comunque solo un URL, quindi il tuo sito non subirebbe alcuno svantaggio.
Fonte: John Mueller