Il robots.txt è un semplice file di testo (da caricare nella directory principale del proprio sito web) dove vengono indicate tutte le sezioni del sito che non dovrebbero essere scansionate dai crawler dei motori di ricerca. Il file è utilizzato principalmente per evitare un sovraccarico di richieste da parte dei crawler nei confronti del sito.
Il compito di scrivere il file robots.txt spetta al SEO Specialist che deve essere in grado di:
- permettere ai bot di accedere alle pagine ritenute più importanti del sito;
- limitare la scansione delle pagine ritenute di basso valore;
- configurare il file correttamente evitando di sprecare “crawl budget”.
Tutti gli elementi principali del file robots.txt
Un file robots.txt ha delle regole di sintassi ed una struttura ben definita da rispettare: questo per permettere ai bot di comprendere correttamente tutte le istruzioni riportate. Ecco tutti gli elementi principali che possono comporre un file robots.txt.
User Agent
L’elemento User-Agent è utilizzato per specificare il nome del crawler a cui verranno applicate le regole immediatamente successive. Un esempio di crawler sono il Googlebot di Google o il Bingbot di Bing. Il carattere jolly * indica invece che le direttive riportate nel file sono valide per tutti gli User Agent.
#Google
User-agent: Googlebot
#Bing
User-agent: Bingbot
#Tutti gli User-agent
User-agent: *
Disallow
La direttiva Disallow è utilizzata per indicare le pagine, le directory o i file che si vogliono escludere dalla scansione da parte del crawler dei motori di ricerca. Tuttavia la regola impatta solo indirettamente sull’indicizzazione dello stesso: questo perchè basta, per esempio, che una pagina venga linkata per essere scansionabile dai bot ed apparire sui risultati di ricerca.
#Bloccare l’accesso a tutto il sito
Disallow: /
#Bloccare l’accesso ad una pagina
Disallow: /readme.txt
#Bloccare l’accesso ad una directory
Disallow: /landing/
La direttiva Disallow non può essere utilizzata per:
- cancellare una risorsa dall’indice;
- bloccare l’accesso a file essenziali per il rendering della pagina (immagini, file CSS e JS);
- mettere il sito in manutenzione;
- impedire l’accesso alle risorse private.
Allow
La direttiva Allow specifica esplicitamente l’autorizzazione a scansionare un determinato URL, directory o file. Questo comportamento è applicato di default per tutte le risorse di un sito web, ecco perché questa regola è utilizzata soprattutto per sovrascrivere una direttiva specifica di Disallow.
#Accesso non consentito ai media ad eccezione del file italia.pdf
User Agent: *
Disallow: /media/
Allow: /media/italia.pdf
Sitemap
La regola Sitemap è usata per indicare al motore di ricerca l’URL dove è possibile recuperare la Sitemap XML del sito web. L’URL deve essere indicato in modo assoluto
(es. https:// www.facilewebmarketing.com / sitemap_index.xml).
Sitemap:
https:// www. facilewebmarketing .com / sitemap_index.xml
Altre direttive non supportate da Google
A partire dal 1 settembre 2019, Google ha dismesso il supporto a tutte le direttive non ufficiali e non documentate come nofollow, crawl-delay e no index. Se il tuo robots.txt ancora le contiene è arrivato il momento di rimuoverle (verranno comunque ignorate automaticamente).
Sintassi
Ecco le principali regole di sintassi di un file robots.txt:
- Il robots.txt deve essere necessariamente un file di testo con codifica caratteri UTF-8;
- Il file è case sensitive, deve essere specificato facendo distinzione tra lettere maiuscole e lettere minuscole;
- Le regole scritte nel file sono divise in gruppi (è obbligatorio specificare l’User Agent e la directory o file a cui non può accedere):
- Ogni direttiva deve essere contenuta in una nuova riga;
- Le direttive vengono lette dal crawler secondo la logica top-down;
- Per inserire un commento utilizzare all’inizio il carattere #.
Come creare un file robots.txt
Per creare un file robots.txt è possibile utilizzare un qualsiasi editor di testo, per esempio, Blocco note o TextEdit. Il file deve essere:
- salvato con codifica UTF-8;
- denominato come “robots.txt”;
- essere inserito nella directory principale del proprio sito web (si può accedere alla directory tramite FTP o file manager dal sito del tuo hosting).
Per configurare correttamente il file robots.txt del proprio sito web consigliamo di attenersi alle regole di sintassi (vedi la sezione “Sintassi”). Nonostante ogni sito abbia le proprie esigenze di crawling, una configurazione base del file robots.txt potrebbe essere la seguente:
User-agent: * (tutti gli User-agent)
Disallow: # (inserire i path delle sezioni del sito da escludere)
Allow: # (inserire eventuali sottosezioni o file di quelle bloccate con i precedenti disallow che volete rendere accessibili ai crawler)
Sitemap: # (URL della sitemap)
Robots.txt generator online
Esistono diversi tool online che possono aiutarci a generare correttamente un file robots.txt. Questi sono particolarmente utili soprattutto per chi non è un esperto in materia e rischia di incappare in errori di sintassi. Di seguito il tool consigliato da noi.
Generatore di file Robots.txt di Toolset.it.
Lo strumento permette di generare un file robots.txt automaticamente occorre semplicemente:
- selezionare la regola di default (scegliere se escludere o meno dalla scansione);
- impostare eventualmente delle eccezioni alla regola;
- indicare dove è posizionata la sitemap XML;
- cliccare sul bottone “Crea robots.txt” e copiare e incollare il contenuto creato nel proprio robots.txt utilizzando un editor di testo.
File Robots.txt in WordPress
Per creare il file robots.txt in WordPress è possibile procedere come già descritto nel paragrafo “Come creare un file robots.txt” oppure utilizzando dei tanti plugin SEO WordPress come Yoast SEO o Rank Math. Questi creano automaticamente il file e permettono anche di modificarlo direttamente dal backend di WordPress:
- Se si utilizza Yoast SEO basta andare su su SEO > Strumenti e cliccare sul link Modifica file;
- Se si utilizza Rank Math occorre andare invece su General settings e poi nella sezione Edit robots.txt.
Come aggiornare un file robots.txt
Per aggiornare il file robots.txt del proprio sito basta scaricare una copia del file e fare le modifiche necessarie. Per scaricarlo possiamo:
- andare all’indirizzo del proprio file robots.txt, ad esempio https://example.com/ robots.txt, copiare le righe in un nuovo file di testo, apportare le modifiche e salvare il file denominandolo “robots.txt” (da caricare nella root del proprio sito);
- Scaricare il file utilizzando il Tester dei file robots.txt in Google Search Console.
Su WordPress si può modificare il file direttamente da backend utilizzando plugin SEO come Yoast SEO o Rank Math.
Ricordiamo che il file di testo deve essere salvato con codifica UTF-8 e, per funzionare correttamente, deve rispettare le regole di sintassi già precedentemente descritte.
Robots.txt tester
Sono molti gli strumenti free per testare il proprio robots.txt. Il nostro consiglio è di utilizzare il tool ufficiale, disponibile su Google Search Console, robots.txt Tester.
In alternativa è possibile usare come robots.txt checker lo strumento di Technicalseo.com “robots.txt Validator and Testing Tool”.
Esempio: il file robots.txt di Facile Web Marketing
Ecco come abbiamo configurato il nostro file robots.txt:
User-agent: * (tutti i bot)
Disallow: /wp-admin/ (blocco della scansione del back-end del sito)
Allow: /wp-admin/admin-ajax.php (ad eccezione del file admin-ajax.php)
Sitemap:
https:// www. facilewebmarketing .com / sitemap_index.xml
(l’indice delle sitemap.xml di Facile Web Marketing).
Domande frequenti sul file robots.txt
A cosa serve il file robots.txt?
Il file robots.txt è utilizzato per indicare ai bot dei motori di ricerca quali pagine, directory o file scansionare e quali no.
Come trovare il file robots.txt?
Il robots.txt è posizionato nella root principale del proprio sito web e si trova all’indirizzo https://example.com/robots.txt.
Come evitare che Google scansioni una pagina?
Impedendo a Google di eseguire la scansione di una pagina (utilizzando la direttiva Disallow) è probabile che questa venga rimossa dall’indice di Google. Tuttavia, l’istruzione non ci assicura che la pagina non verrà visualizzata in SERP: basta anche un link in entrata per rendere la pagina indicizzabile. Per bloccare l’indicizzazione della pagina esplicitamente è opportuno dunque utilizzare il meta tag robots noindex o l’intestazione HTTP X-Robots-Tag.
Dove si trova il file robots txt in WordPress?
Il file è presente all’indirizzo https://example.com/robots.txt e si può modificare in WordPress anche direttamente da backend utilizzando uno dei tanti SEO tool come Yoast SEO o Rank Math.
Hai bisogno di una Consulenza SEO per migliorare il posizionamento Google del tuo sito web? Ecco come posso aiutarti!