Il n'y a pas 15000 façons de balayer un site Web. Le robot suit les liens un à un et découvre chaque page à la suite les unes les autres sans distinction. Mais certaines pages n'ont pas forcément besoin d'être indexées. On voit mal ses pages réservées à l'administration en première page sur Google !
Une règle d'Exclusion pour robots a été créée et maintenant les robots des moteurs de recherche ou autres Bots visitent dans un premier temps le fichier robots.txt et commencent ensuite leur balayage. Ce fichier indique aux robots quels liens peuvent être indexés et quels liens ne doivent pas être indexés.
Pour plus d'informations à propos du fichier texte robots.txt, vous pouvez visiter le site suivant:
Le site web publie des informations sur les Web robots, vous pouvez être intéressé par cet ressource si vous projetez de créer votre propre BOT ou en apprendre plus au sujet de leur histoire.
Pratique
Vous avez pu noté parmi les logs de votre serveur la présence de la requête robots.txt en provenance d'un moteur de recherche. Si vous voulez simplement nettoyer ces lignes, vous pouvez créer ce dernier fichier même si il ne contient aucunes données.
La structure de ce fichier est assez simple, vous pouvez rejetez des agents, vous pouvez rejetez des parties de vos websites ou seulement quelques pages, vous pouvez également autoriser l'indexation de l'ensemble de votre site à l'ensemble des robots...
Voici un exemple de http://www.robotstxt.org:
L'agent Webcrawler n'a aucunes restrictions.
Le deuxième paragraphe indique que le robot appelé 'lycra ' n'est pas autorisé à visiter tout URL commençant par '/'. Puisque tout URL commence par '/', cela signifie que l'ensemble du site ne sera pas indexé par Lycra.
Le troisième paragraphe indique que tout autre robot ne devrait pas visiter les URLs commençant par 'tmp/'. Noter le caractère '*', cela signifie "tout autre Agent"; vous ne pouvez pas utiliser ce caractère aux lignes User-agent et Disallow.
Validation
Une fois que vous avez terminé avec votre fichier robots.txt, vous devriez l'examiner avec un Validateur de robots.txt, il y en a un à cette adresse: Searchengineworld, robots check. Le site Searchengineworld comprend également de plus amples informations et tutoriaux au sujet du fichier robots.txt et des robots en général.
Notes
- L'utilisation de ce fichier peut réduire la consommation de bande passante de votre serveur. Si vous avez restreint l'accés à certains robots, ces derniers ne visiteront pas vos pages.
- Cela permet également de nettoyer vos fichiers log,
- Un point important est que ce fichier est recommandé lorsque vous avez des duplicatas de site Internet. Vous risquez en général d'être pénalisé par les robots et un moyen d'éviter une mise à l'écart est de bloquer l'accès aux doubles des sites.
Particularité
Chaque Bot agit différemment, ainsi il est conseillé de vérifier les FAQ de chaque bot pour en apprendre plus au sujet de leur façon d'indexer, par exemple pour le Bot Slurp de Yahoo, vous pouvez examiner cet URL: Yahoo Slurp Index.
Le Bot de Msn: MSN Bot
Le Bot de Google: Google Bot
Une base de données des robots : Webrobots
Attention
Il existe des pirates qui examinent le fichier robots.txt afin de repérer les fichiers et dossiers non autorisés, ils sont aussi appelés les 'Mauvais robots'.
Pour palier à cela, vous pouvez éviter de mentionner les fichiers et répertoires en question ou/et les protéger d'une autre manière.
Le futur des agents Internet
Le travail des agents devient de plus en plus complexe malgré l'évolution des technologies, les connexions de plus en plus rapides, de plus en plus accessibles...
Des milliers de sites se mettent en ligne tous les jours et les Bots doivent toujours indexer de façon pertinentes l'ensemble du Net. Vous rappelez vous le temps où Google visitait un nouveau site dès son arrivée sur le marché ?
je suppose que non !
Je ne serais surpris si les Bots commencent à implémenter des algorithmes de sélection en éliminant automatiquement les sites n'étant pas valide HTML...
Je vous suggère de prendre les devants et de suivre les règles, les indications des Bots principaux; testez vos sites, mettez les aux normes...
Ce fichier robots.txt peut aider les Bots à comprendre votre site et leur évite du travail inutile parfois alors utilisez le.
Merci de votre attention, j'espère que cette présentation a été opportune.