Des trucs à web ressources pour webmasters
Vendez - achetez du matériel informatique d'occasion où neuf   
   
      
Langages
PHP
Perl
Html-Css
Javascript
Bdd (Mysql ...)
Forums
Ressources
Trucs,astuces
Mémos,tutoriaux
Outils-Logiciels
Scripts
 
Serveurs apache IIS
Sécurité
Référencement
Système exploitation
Informatique divers
Services
Générateur Metas
Testez vos Metas
Divers
Contacts
Signaler une erreur
Liste des scripts
Carte du site
Partenaires


http://twitter.com/H_Lafragette

 

Diriger les spiders grâce au fichier robots.txt

 
 


Après la conception d'un site on essaye par tous les moyens que ses pages soit bien référencées. Cependant il y a certaines pages que l'on aimerait pas retrouver sur un moteur de recherche. Cela peut-être des pages confidentielles, des pages sensibles (pages d'administrations, de statistiques ...).

Pour empêcher que les moteurs n'aspirent ces pages il faut utiliser un fichier appelé robots.txt.
Ce fichier va indiquer au spider du moteur de recherche ce qu'il est ou n'est pas autorisé à faire.

Il ne doit y avoir qu'un seul fichier robots.txt et il doit se trouver sous à la racine du site. Son nom doit toujours être écrit en minuscules.


La structure d'un fichier robots.txt est la suivante :

User-agent: *
Disallow: /statistiques/
Disallow: /cgi-bin/
Disallow: /administration.html


Dans cet exemple :

User-agent: * signifie que l'accès est accordé à tous les spiders.
Disallow: /statistiques/ cette directive interdit aux spiders d'explorer le répertoire statistiques
Disallow: /cgi-bin/ cette directive interdit aux spiders d'explorer le répertoire statistiques cgi-bin
Disallow: /administration.html cette directive interdit aux spiders d'indexer le fichier administration.html








On doit créer une ligne pour chaque répertoire où fichier à interdire.
Disallow permet donc d'indiquer que tout ce qui débute par l'expression indiquée ne doit pas être indexé par les spiders.


Donc dans l'exemple suivant : Disallow: /paye

Cela interdira l'indexation de http::/www.destrucsaweb.com/paye/index.htm, mais il faut faire attention car http://www.destrucsaweb.com/paye.html ne sera pas non plus indexé, car les deux commencent par paye.


Par contre avec : Disallow: /paye/

http::/www.destrucsaweb.com/paye/index.htm ne sera pas indexé, mais http://www.destrucsaweb.com/paye.html oui

- Les lignes commençant par # sont des commentaires.
- Le fichiers robots.txt ne doit pas contenir de lignes blanches.
- Il est possible d'interdire ou d'autoriser l'accès de certaines pages à un moteur (spider) spécifique.
Pour cela dans User-agent: à la place de * mettre le nom du spider.

User-agent: *
Disallow: /statistiques/
Disallow: /cgi-bin/
Disallow: /administration.html

# on n'interdit pas au spider de google l'accès au répertoire statistiques

User-agent: googlebot
Disallow: /cgi-bin/
Disallow: /administration.html


Il faut bien faire attention à la syntaxe du fichier robots.txt, sinon il ne sera pas pris en compte.

Voici un vérificateur de fichier robots.txt http://www.searchengineworld.com/cgi-bin/robotcheck.cgi


Note : Il est faut préciser que tous les spiders ne reconnaissent pas bien les fichiers robots.txt et donc ils les ignorent. Il est donc préférable de mettre une protection par mot de passe (.htpasswd).


 
 

Accueil   Php   Perl   Html-Css   Javascript   Base de données   Serveurs Sécurité  Référencement
Systèmes d'exploitation   Informatique général  Forums - Webblog - Actus
www.destrucsaweb.com   -  © 2002-2006 Tous droits réservés Hervé Lafragette

Quand le débutant est conscient de ses besoins, il finit par être plus intelligent que le sage distrait. ( Lao-Tseu)




Controle


Annuaire autosannuaire motos


zyzgjuj rttyjnboo seerrooppy Temps d'exécution : 0.089523792266846