Con il termine Crawl Budget si designano le risorse che Google utilizza per effettuare il crawling dei siti. Dato che non è illimitato, teoricamente si corre il rischio che Google abbia un budget troppo basso per tutti gli URL del tuo sito. Ma quanto è grande questo rischio e cosa puoi fare per evitarlo?
Una scansione frequente e completa degli URL di un sito è fondamentale affinché i contenuti vengano visualizzati nelle pagine di ricerca di Google. Ciononostante, nemmeno Google ha a disposizione risorse illimitate. Per questo motivo il Crawl Budget per pagina è limitato.
Crawl Budget: definizione
Il Crawl Budget si può descrivere come il numero massimo di pagine che Googlebot può scansionare.
È composto da due elementi:
- Crawl Rate: il limite del Crawl Rate dipende soprattutto dal Crawl Health (“Stato di salute”), cioè dalla velocità di risposta di un sito. Inoltre, in quanto webmaster, puoi decidere tu un limite anche su Google Search Console.
- Crawl Demand (domanda di scansione): quanto sia alta la domanda di scansione dipende dalla popolarità degli URL. D’altra parte, i contenuti obsoleti e non aggiornati hanno un effetto negativo. Cambiamenti come la modifica di un dominio possono aumentare la richiesta di crawl.
Unendo questi due elementi, Crawl Rate e Crawl Demand, otteniamo il Crawl Budget.
Importante: affianco al Crawl Budget c’è l’Index Budget (“Budget d’indicizzazione”), che stabilisce quanti URL devono venire indicizzati. Per capire meglio la differenza: quando un sito ha molte pagine secondarie che riportano un errore 404, la scansione di queste pagine grava sul Crawl Budget, ma non sull’Index Budget.
Fattori che influenzano il Crawl Budget
Secondo un post di Google, soprattutto gli URL con un basso valore (aggiunto) influenzano la scansione e l’indicizzazione in modo negativo. Questi sono:
- Soft Error
- Pagine hackerate
- Contenuti duplicati
- Spam e contenuti di scarsa qualità
- Navigazione a faccette e Session ID
- Infinite Space
In questi casi devi tenere presente che Google ridurrà le sua attività di crawling nei confronti del tuo sito.
Come influenzare il Crawl Budget
Dal paragrafo precedente emerge: per influenzare il Crawl Budget positivamente crea dei contenuti di buona qualità.
Inoltre, ci sono altre possibilità per influenzare la scansione e l’indicizzazione:
- Ottimizza i link interni affinché il crawler possa trovare tutti i contenuti importanti senza problemi;
- Preferisci un’architettura piatta con pochi livelli;
- Elimina i contenuti duplicati o contrassegnali con i Canonical Tag;
- Ripara i link rotti;
- Utilizza il file robots.txt per impedire che Googlebot scansioni pagine non importanti;
- Aggiorna i contenuti regolarmente.
Quanto è importante il Crawl Budget?
Google stesso non dà una risposta precisa a riguardo. Per questo motivo i proprietari di siti di piccole o medie dimensioni fino a un migliaio di URL non devono temere che il Crawl Budget non sia sufficiente. Una definizione delle priorità può avere senso solo per siti di grandi dimensioni e per quelli che creano contenuti automaticamente sulla base dei parametri di URL.
Ciò non significa che l’argomento crawling e indicizzazione non sia importante per i siti di piccole dimensioni. Alla fin fine, il fatto che Googlebot indicizzi senza problemi pagine importanti e ignori i contenuti di scarsa qualità non può che avere effetti positivi anche per i siti di piccole dimensioni.