Hai diverse metodi a disposizione per influenzare la scansione e l’indicizzazione dei contenuti del tuo sito. Due di questi sono l’utilizzo dei Meta Tag Robots e di robots.txt: anche se sono simili all’apparenza, si differenziano per alcuni punti importanti.
Naturalmente puoi anche non fare nulla e lasciare che il crawling e l’indicizzazione del sito siano affidati interamente a Google. Tuttavia, questa soluzione presenta dei potenziali svantaggi, soprattutto per i siti di grandi dimensioni.
Potrebbe infatti succedere che il processo di scansione duri più del necessario oppure che nei risultati di ricerca appaiano dei contenuti che non dovrebbero venire mostrati. Per fortuna si possono evitare entrambe queste problematiche con la tattica giusta. Ed ecco che arriviamo all’argomento dei Meta Tag Robots, del robots.txt e delle loro differenze.
Cosa sono i Meta Tag Robots?
I Meta Tag Robots hanno a che fare con gli Snippet che posizioni nell’intestazione (area “head”) della tua pagina. Si presentano generalmente così:
<meta name="robots" content="noindex" />
Con l’attributo “name” specifichi il motore di ricerca a cui ti vuoi rivolgere; con l’attributo “content” l’azione desiderata. Nel nostro esempio, il tag impedisce che il contenuto venga indicizzato da tutti i motori di ricerca.
Che cos’è il robots.txt?
Un file robots.txt (Robots Exclusion Standard Protocol) è un file di testo che indica ai crawler dei motori di ricerca quali file o pagine possono essere scansionate. Per farlo, è necessario caricarlo nella directory principale del sito.
Il motore di ricerca o il suo crawler vengono identificati nel file robots.txt con l’indicazione “user-agent“. Le istruzioni “disallow” e “allow” possono essere utilizzate per specificare quali directory devono essere scansionate o meno. Inoltre, all’interno del file robots.txt puoi anche indicare dove si trova una sitemap.
Ecco un esempio di robots.txt:
# Group 1 User-agent: Googlebot Disallow: /nogooglebot/ # Group 2 User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml
Meta Tag Robots vs. robots.txt: quale scegliere?
La differenza principale tra i Meta Tag Robots e il robots.txt è la seguente:
Il file robots.txt non è pensato per escludere con certezza l’indicizzazione dei contenuti. I link in entrata possono infatti comunque fare in modo che Google indicizzi tali contenuti, in determinate circostanze.
Google consiglia quindi di utilizzare il file robots.txt per impedire che immagini, video e file audio vengano mostrati nei risultati di ricerca.
Attraverso i Meta Tag Robots con l’indicazione noindex impedisci con certezza che le pagine compaiano nei risultati di ricerca. Non è però possibile escludere dall’indicizzazione singoli file immagine, audio o video.
Consiglio: fai attenzione che questi metodi non interferiscano tra di loro. Ad esempio, se un file robots.txt vieta la scansione di una pagina, il crawler non potrà leggere i Meta Tag Robots e quindi la indicizzerà comunque (invece di escluderla dall’Indice).