| Liste Articles: [0-A] [A-C] [C-F] [F-J] [J-M] [M-P] [P-S] [S-Z] | Liste Catégories | Une page au hasard | Pages liées | ||||||
Un robot d'indexation (en anglais web
crawler ou web spider) est un logiciel qui explore automatiquement le
World Wide Web. Il est généralement conçu pour collecter les ressources
(pages Web, images, vidéo, documents Word ou PDF ou PostScript, etc.)
indexées par un moteur de recherche. Cependant, certains
robots servent à archiver les ressources ou à collecter des adresses électroniques auxquelles envoyer des pourriels.
Pour découvrir de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Toutefois, de nombreuses ressources échappent à cette exploration récursive, car seuls des hyperliens créés à la demande, donc introuvables par un robot, permettent d'y accéder. Cet ensemble de ressources inexploré est parfois appelé Web profond.
Un fichier robots.txt placé dans la racine d'un site Web permet de
donner aux robots une liste de ressources à ignorer. Cette convention permet de réduire la charge du serveur Web et d'éviter des ressources sans intérêt.
Parmi les robots connus, on peut citer :


