Page d'accueil encyclopedie-enligne.com en page d'accueil
Liste Articles: [0-A] [A-C] [C-F] [F-J] [J-M] [M-P] [P-S] [S-Z] | Liste Catégories | Une page au hasard | Pages liées

Robot d'indexation


Un robot d'indexation (en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le World Wide Web. Il est généralement conçu pour collecter les ressources (pages Web, images, vidéo, documents Word ou PDF ou PostScript, etc.) indexées par un moteur de recherche. Cependant, certains robots servent à archiver les ressources ou à collecter des adresses électroniques auxquelles envoyer des pourriels.

Pour découvrir de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Toutefois, de nombreuses ressources échappent à cette exploration récursive, car seuls des hyperliens créés à la demande, donc introuvables par un robot, permettent d'y accéder. Cet ensemble de ressources inexploré est parfois appelé Web profond.

Un fichier robots.txt placé dans la racine d'un site Web permet de donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge du serveur Web et d'éviter des ressources sans intérêt.

Robots connus

Parmi les robots connus, on peut citer :



This site support the Wikimedia Foundation. This Article originally from Wikipedia. All text is available under the terms of the GNU Free Documentation License Page HistoryOriginal ArticleWikipedia