Robot txt è il modo (sbagliato) con cui viene spesso chiamato un file particolarmente utile presente sui server che ospitano i siti web. La denominazione corretta del file è robots.txt infatti questo è l'unico modo per farlo riconoscere ai crawler dei motori di ricerca.
Robots.txt è il nome di un file presente nella root del dominio del tuo sito, anche se spesso in realtà non c'è. Nel caso, qualora volessi utilizzarne le sue funzioni, devi semplicemente creare un file di testo, salvarlo con il nome robots.txt e caricarlo sul server attraverso un file manager FTP. Oppure, se usi un CMS come Wordpress, puoi utilizzare un plugin come Yoast SEO.
Il file robots serve principalmente a fornire alcune indicazioni agli spider dei motori di ricerca. All'interno del robots.txt puoi infatti scrivere alcune istruzioni per indicare ai crawler dei motori di ricerca a quali aree del tuo sito possono accedere e a quali no.
Attenzione, perché il fatto che tu possa indicare al crawler di non scansionare una pagina non significa che la indicizzi; questo è un errore comune molto frequente e te lo spiego più avanti. Per indicare ai motori di ricerca se indicizzare o meno una pagina infatti ci sono altri metodi.
Voglio però che ti sia chiara una cosa: ciò che scrivi nel robots txt rappresenta solamente un'indicazione, poi sta al crawler del motore di ricerca decidere se seguirla o meno. E attenzione a ciò e a come scrivi perché se non sai quello che fai potresti limitare le performance relative al posizionamento del tuo sito web sui motori di ricerca.
Googlebot (il crawler di Google) e gli spider di altri motori di ricerca affidabili seguono le istruzioni contenute nel file robot txt ma altri crawler non è detto che lo facciano.
Inoltre scrivendo nel robot.txt dovresti informarti sulla sintassi adeguata per rendere il file comprensibile al crawler del motore di ricerca che ti interessa.
Il file robots.txt si trova nella root del tuo dominio, ovvero nella cartella principale del tuo sito web o del tuo sottodominio, nel caso tu ne abbia uno. Lo troverai scrivendo www.tuosito.it/robots.txt e qualora non ci fosse e volessi utilizzarlo ti basterà crearlo. È tutto molto semplice e ora ti spiego come fare.
Puoi semplicemente creare il file robots.txt a mano, utilizzando il blocco note di Windows o TextEdit su Mac e salvare il file con il nome robots e con l'estensione .txt.
In alternativa, se usi Wordpress e hai già installato un plugin come Yoast SEO o Rank Math, tra le varie impostazioni ne troverai una relativa proprio al file robots in cui puoi direttamente scrivere le istruzioni.
La sintassi del file robots è molto semplice. Ciò consiste nell'indicare il nome di uno o di più bot che ci interessano, come ad esempio Googlebot, e poi specificare le azioni da compiere. Di seguito ti elenco le istruzioni principali che puoi scrivere nel robots.txt.
Se vuoi approfondire l'argomento puoi dare un'occhiata alla guida di Google sul file robots.txt.
Una cosa da tenere a mente è quella di inserire una sola istruzione per riga.
Di seguito trovi l'elenco delle istruzioni più utilizzate che puoi scrivere nel file robots in modo da specificare ciò che ti interessa.
Quando scrivi un'istruzione nel file robots devi prima specificare al crawler di quale motore di ricerca essa si riferisce. Ciò è possibile con User-agent. Puoi specificare un crawler in particolare oppure tutti senza distinzione.
Nel caso tu voglia indicare un'istruzione valida per tutti i crawler puoi iniziare il file robots così:
User-agent: *
Se invece vuoi ad esempio specificare una direttiva solamente per il crawler di Google devi scrivere:
User-agent: Googlebot
Fatto ciò puoi iniziare ad elencare le singole istruzioni sotto a User-agent, andando a capo ogni volta. Tutto ciò che scrivi sotto a User-agent si riferisce al crawler che hai specificato.
Se vuoi indicare regole per un crawler aggiuntivo, lascia semplicemente una riga vuota dopo l'ultima istruzione relativa al crawler precedente e poi ricomincia di nuovo scrivendo User-agent e indicando sotto di esso le istruzioni per il secondo crawler, così:
User-agent: Googlebot
Istruzione 1:
Istruzione 2:
User-agent: *
Istruzione 1:
Ora vediamo meglio quali tipi di istruzioni puoi specificare nel file.
Robots.txt può essere utilizzato per comunicare ai bot l'URL della sitemap del tuo sito. Ti basterà specificare l'user-agent e inserire il link alla sitemap, così:
User-agent: *
Sitemap: htts://www.tuosito.it/link-alla-sitemap.xml
La direttiva disallow ti permette di specificare l'indirizzo di una pagina o di una cartella che non vuoi far scansionare al crawler. Si usa così: specifica l'User-agent, poi scrivi Disallow: seguito dal percorso della pagina, della cartella o della risorsa del tuo sito che vuoi escludere dalla scansione.
User-agent: *
Disallow: /pagine-di-prova/
Disallow: pagina-del-sito-bozza.html
Disallow: /pagine-bozza/pagina-di prova.html
In questo modo ho specificato tre istruzioni valide per tutti i crawler:
Al contrario del Disallow, la direttiva Allow ti permette di specificare le risorse del tuo sito che vuoi far scansionare ai bot. Questa istruzione è utile quando ad esempio hai indicato una cartella intera in Disallow ma all'interno di essa c'è una pagina che vuoi sottoporre a scansione.
User-agent: *
Disallow: /pagine-di-prova/
Allow: /pagine-di-prova/pagina-del-sito-bozza.html
In questo caso la pagina chiamata pagina-del-sito-bozza.html verrà scansionata nonostante sia nella cartella pagine-di-prova che hai indicato in Disallow.
La direttiva Noindex servirebbe per indicare quali pagine o aree del sito non far indicizzare ai crawler dei motori di ricerca. Secondo alcuni questa indicazione non è supportata da Google; secondo altri pare sia supportata in modo ufficioso. In ogni caso io non la uso.
Se hai bisogno di non far indicizzare alcune pagine o aree del tuo sito ci sono modi decisamente più sicuri, come ad esempio inserire questa riga di codice nell'head delle pagine PHP che non vuoi indicizzare <?php header("X-Robots-Tag: noindex", true);?>
Comunque a titolo informativo la direttiva Noindex si usa così:
User-agent: *
Noindex: /cartella-da-non-indicizzare/
In questo modo comunichiamo al crawler di non indicizzare tutto ciò che è presente nella cartella chiamata cartella-da-non-indicizzare.
Questa istruzione ci permette di indicare ai bot di aspettare un intervallo di tempo in secondi tra la scansione di una pagina e l'altra. Serve a evitare di sovraccaricare il server che ospita il tuo sito. Si usa così:
User-agent: *
Crawl-delay: 3
Se all'interno del file vuoi inserire un commento ti basta digitare il cancelletto e scrivere il tuo commento. Tutto ciò che è presente dopo il cancelletto viene ignorato dai crawler. L'importante è che tu scriva tutto su una sola riga. Se vuoi scrivere un commento su più righe, inizia ciascuna con il cancelletto.
User-agent: *
Disallow: /pagine-di-prova/
# questo è un commento. Qui puoi scrivere ciò che vuoi.
Dopo aver creato il file robots.txt ti è sufficiente caricarlo nella cartella principale del tuo sito, dopodiché i crawler dei motori di ricerca lo troveranno da soli.
Se invece hai modificato robots.txt e vuoi notificare subito a Google la modifica in modo che cancelli dalla propria cache la vecchia versione, puoi usare lo strumento Tester del file Robots della Search Console che ti mette a disposizione.
In ogni caso la cache di Google viene automaticamente aggiornata ogni 24 ore, quindi nella maggior parte dei casi direi che puoi aspettare che faccia tutto da solo.
Nello strumento di test del robots assicurati che la versione del tuo file che compare contenga le ultime modifiche, dopodiché clicca il tasto Invia. Sei a posto così.
Assicurati che il tuo file pesi meno di 500 kibibytes perché altrimenti non sarà supportato da Google. Per un sito normale direi che non c'è alcun problema dato che per arrivare a far pesare 500 kibibytes un file di testo ne hai parecchie di cose da scrivere.
Indicare le pagine in disallow non eviterà l'indicizzazione delle stesse.
Ogni motore di ricerca ha i suoi crawler. Qui trovi le documentazioni dei crawler di Google
Il file robots.txt è pubblico, quindi accessibile a tutti. Ovviamente non scrivere informazioni personali o password al suo interno.
Ogni motore di ricerca ha uno o più crawler che si occupano di scansionare elementi differenti. Di seguito trovi i nomi dei crawler più diffusi.
Il crawl budget indica il tempo che il crawler di un motore di ricerca come Google dedica alla scansione di un sito. Vogliamo far perdere tempo al crawler facendogli scansionare pagine che non ci interessano? Vogliamo che si metta a scansionare pagine inutili sprecando tempo e risorse del server? Direi di no, giusto? Avere un file robots.txt adeguato e ottimizzato ci permette di ottimizzare il crawl budget.
Se vuoi un sito ottimizzato, che rende, che porta contatti, che si posiziona ai primi posti di Google e che vende di più, contatta il nostro consulente SEO che ti illustrerà le potenzialità del tuo sito.
Qui a Chef Studio mi occupo di SEO, Art Direction, User Interface Design e Fotografia. Dal 2013 sono Fotografo Certificato Google Maps Street View. Nel tempo libero amo viaggiare e fare un sacco di altre cose che se le elenco non finiamo più. Sono curioso, molto. Mi piace documentarmi e imparare sempre cose nuove.