Come usare il file robots.txt e come usarlo al meglio per il controllo degli spiders

Il file robots.txt è un semplice file di testo che contiene delle regole usate dagli Spider (Crawler) per applicare restrizioni sulle pagine di un sito web. I Web Crawler sono dei software programmati che effettuano ricerche sul Web e indicizzazioni per i motori di ricerca, quando analizzano un sito web controllano l’esistenza del file Robots.txt e se vi trovano delle regole o restrizioni le applicano.

Il file robots.txt viene inserito nella directory principale di un sito web ed è puramente consultivo, non tutti gli Spider applicano le regole inserite in esso.

Perché è un file robots.txt è importante?

Per evitare lo spreco di risorse del server, molti, se non la maggior parte dei siti web, hanno degli script che girano sul loro sito web che non hanno nessuna utilità pratica per un motore di ricerca, quando i robot dei motori indicizzano il sito è possibile tramite il file robots.txt impedire agli spider l’indicizzazione di tali script, riducendo il carico sul server e eliminando le esecuzioni non necessarie.

Ridurre la larghezza di banda

Se guardate le statistiche del vostro sito web, troverete molte richieste per il Robots.txt da parte degli spider dei motori di ricerca. I motori di ricerca tentano di recuperare il robots.txt prima di indicizzare il sito web, per vedere se ha istruzioni per loro.

Se non si dispone di un file robots.txt, il server restituisce una pagina di errore 404 per il motore, questo causa l’utilizzo di molta banda a causa delle sue ripetute richieste per recuperare il file 404.

Qualche motore di ricerca indicizza anche i file grafici tipo .Gif, .Jpg e .Png, se si desidera bloccarli per risparmiare banda, lo si può fare usando il file robots.txt.

Come impostare un file robots.txt

Scrivere un file robots.txt è estremamente semplice. E’ solo un file di testo ASCII che si colloca alla radice del vostro dominio. Ad esempio, se il dominio è www.esempio.com, bisognerà inserire il file in www.esempio.com/robots.txt.

Per coloro che non sanno cosa sia un file di testo ASCII, è solo un file di testo che si crea con un editor di testo. Se utilizzate Windows, è già presente un editor di testo sul vostro sistema, chiamato Blocco note.

Il file Robots.txt elenca fondamentalmente i nomi degli Spider su una linea, seguito da un elenco di directory o file da non indicizzare.

Ogni riga del file contiene un record. Ogni record ha la seguente sintassi :

I campi disponibili sono :

User-Agent il valore di questo campo contiene il nome del robot che si deve attenere alle restrizioni. Con il carattere * la regola viene applicata a qualsiasi robot.

Disallow il valore di questo campo contiene le pagine del sito che devono essere escluse dai robot durante l’indicizzazione. Si può indicare un URL specifico o una serie di URL appartenenti ad un pattern. Per ogni User-Agent è possibile specificare una o più restrizioni tramite Disallow.

Il file robots.txt è case sensitive quindi se blocchiamo la pagina /PAGINA_DA_BLOCCARE sarà differente da bloccare la pagina /pagina_da_bloccare.

Esempio (1) file robots.txt

Per permettere l’accesso a tutto il sito web, non indicare nulla nella direttiva Disallow. Alcuni crawler supportano anche la direttiva Allow

User-agent: *
Disallow:

Per bloccare un intero sito, utilizza una barra.

User-agent: *
Disallow: /

Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra.

User-agent: *
Disallow: /private_directory/

Per bloccare una pagina, indica tale pagina.

User-agent: *
Disallow: /private_file.html

Per segnalare il file Sitemap del sito.

Sitemap: http://www.esempio.com/sitemap.xml

Esempio (2) file robots.txt

User-agent: *
Disallow: /cgi-bin/

Le due righe sopra, inserite in un file robots.txt, informano tutti i robot che non sono autorizzati ad accedere nella directory e nelle sottodirectory di cgi-bin.

E’ possibile, bloccare i robot che indicizzano le immagini, tipo Google Image Search, inserendo le righe seguenti:

User-agent: Googlebot-Image
Disallow: /

Ciò significa che il robot di Google Image Search, non dovrebbe tentare di accedere a qualsiasi file nella directory radice / e in tutte le sue sottodirectory.

È possibile avere più linee Disallow per ogni user agent (cioè, per ogni spider). Ecco un esempio di file robots.txt più lungo:

User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
User-agent: Googlebot-Image
Disallow: /

E’ possibile escludere l’indicizzazione di un determinato file. Per esempio, se non volete fare indicizzare l’immagine test.jpg, dovrete aggiungere le seguenti righe:

User-agent: Googlebot-Image
Disallow: /images/test.jpg

Senza restrizioni

Se si desidera che tutte le directory vengano indicizzate da tutti i motori di ricerca, basta un semplice file robots con le seguenti righe:

User-agent: *
Disallow:

Spero sia un articolo utile.

Un esempio di robots puo essere il mio

che è cosi:

# File Robots creato da hackerscrackers
# versione robots.txt 2.0

#accettati
User-agent: Googlebot
Disallow:

User-agent: googlebot-image
Disallow:

User-agent: googlebot-mobile
Disallow:

User-agent: MSNBot
Disallow:

User-agent: Slurp
Disallow:

User-agent: yahoo-mmcrawler
Disallow:

User-agent: psbot
Disallow:

User-agent: yahoo-blogs/v3.9
Disallow:

User-agent: *
Disallow:

#respinti
User-agent: Teoma
Disallow: /

User-agent: twiceler
Disallow: /

User-agent: Gigabot
Disallow: /

User-agent: Scrubby
Disallow: /

User-agent: Robozilla
Disallow: /

User-agent: Nutch
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: baiduspider
Disallow: /

User-agent: naverbot
Disallow: /

User-agent: yeti
Disallow: /

User-agent: asterias
Disallow: /

#
User-agent: *
Disallow: /blog/sitemap.xml.gz

#bot con restrizioni

User-agent: Googlebot
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/cache
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/download
Disallow: /blog/wp-admin/

User-agent: googlebot-image
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/cache
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/download
Disallow: /blog/wp-admin/

User-agent: googlebot-mobile
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/cache
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/download
Disallow: /blog/wp-admin/

User-agent: MSNBot
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/cache
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/download
Disallow: /blog/wp-admin/

User-agent: Slurp
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/cache
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/download
Disallow: /blog/wp-admin/

User-agent: yahoo-mmcrawler
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/cache
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/download
Disallow: /blog/wp-admin/

User-agent: psbot
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/cache
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/download
Disallow: /blog/wp-admin/

User-agent: yahoo-blogs/v3.9
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/cache
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/themes
Disallow: /blog/download
Disallow: /blog/wp-admin/

#sitemap
Sitemap: /blog/sitemap.xml
#Crawl-delay
Crawl-delay: 120

hackerscrackers Blog

The keys to your system is simple line of code.

Come usare il file robots.txt e come usarlo al meglio per il controllo degli spiders

Informazioni su hackerscrackers

Lascia un commento Annulla risposta