WEB2007 ALSO SPEAKS ENGLISH
06 44 00 14 84 (ou 0033644001484)

* Designer Logo Vaulx-en-Velin



* Designer Logo Vaulx-en-Velin





Article:

Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) fait allusion à un logiciel qui explore automatiquement le Web. Il est fréquemment créé pour collecter les ressources (pages Web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin d’admettre à un moteur de recherche de les indexer. Fonctionnant sur le même principe, certains robots malveillants (spambots) sont utilisés pour archiver les ressources ou assembler des adresses électroniques auxquelles envoyer des courriels.
En , depuis 2013, crawler est amovible par le mot collecteur1. Il existe aussi des collecteurs analysant finement les contenus afin de ne ramener qu'une partie de leur information. Dès les années 1990, il y a eu des comparateurs de prix automatiques, puis des comparateurs performance/prix pour les microprocesseurs2. Des frameworks tout bâtis comme Scrapy existent pour écrire de tels robots
Pour indexer de nouvelles ressources, un robot procède en suivant récursivement les hyperliens trouvés à partir d'une page pivot. Par la suite, il est avantageux de mémoriser l'URL de chaque ressource récupérée et d'adapter la fréquence des visites à la fréquence observée de mise à jour de la ressource. Toutefois, si le robot respecte les règles du fichier robots.txt, alors de nombreuses ressources échappent à cette exploration récursive. Cet ensemble de ressources inexploré est appelé Web profond ou Web invisible.
Un fichier d'exclusion (robots.txt) ajusté dans la racine d'un site Web permet de donner aux robots une liste de ressources à négliger. Cette convention permet de réduire la charge du serveur Web et d'éviter des ressources sans intérêt. Toutefois, certains robots ne se préoccupent pas de ce fichier.
Deux caractéristiques du Web compliquent le travail du robot d'indexation : le volume de données et la bande passante. Les capacités de traitement et de stockage des ordinateurs ainsi que le nombre d'internautes ayant fortement progressé, cela lié au développement d'outils de maintenance de pages de type Web 2.0 permettant à n'importe qui de mettre facilement en ligne des contenus, le nombre et la complexité des pages et objets multimédia visibles, et leur modification, s'est considérablement augmenté dans la première décennie du xxie siècle. Le débit qualifié par la bande passante n'ayant pas connu une progression équivalente, le ème est de traiter un volume toujours croissant d'information avec un débit relativement limité. Les robots exigent donc de donner des priorités à leurs téléchargements.
Le Web 3.0 analyse des technologies avancées et de nouveaux principes de recherche sur Internet qui devront s'appuyer en partie sur les normes du Web sémantique. Les robots du Web 3.0 exploiteront des méthodes d'indexation impliquant des associations personne-machine plus intelligentes que celles qui sont pratiquées aujourd'hui.






* Web2007 est le site d'un informaticien indépendant qui peut et veut travailler à distance pour des entreprises partout en Europe.
Dans les métiers du web, la proximité n'est pas obligatoire, la nouvelle technologie ( vidéo conférence Skype, Whatsapp, etc... ) nous permet d'être virtuellement juste à coté et de se voir, bienvenue dans le monde du futur !
Et surtout votre site internet n'est pas près de vous mais sur un serveur virtuel distant, donc la proximité n'est pas importante.
Pour info, j'habite personnellement à Gaillard-Haute Savoie et mon bureau est juste à coté à Genève-Suisse.