Les moteurs de recherche

Un moteur de recherche est un logiciel permettant de retrouver des ressources (pages Web, forums Usenet, images, vidéo, etc.) associées à des mots quelconques. Certains sites Web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors "moteur de recherche" le site lui-même.

Définition

Outil de recherche sur le web constitué de "robots", encore appelés spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés.

Par abus de langage, on appelle également moteurs de recherche :

-
des sites web proposant des annuaires de sites web : dans ce cas, ce sont des ressources humaines qui répertorient et classifient des sites web jugés dignes d'intérêt et non des robots d'indexation - on peut citer par exemple Voilà et Yahoo!, etc.

- des logiciels installés sur un ordinateur personnel : ce sont des moteurs dits desktop qui combinent la recherche parmi les fichiers stockés sur le PC et la recherche parmi les sites web - on peut citer par exemple Google Desktop et Copernic Desktop Search, etc.

On trouve également des métamoteurs, c'est-à-dire des sites web où une même recherche est lancée simultanément sur plusieurs moteurs de recherche (les résultats étant ensuite fusionnés pour être présentés à l'internaute) - on peut citer Mamma, Kartoo, etc.

Fonctionnement

Le fonctionnement d'un moteur de recherche se décompose en trois étapes principales.

Le Web est systématiquement exploré par un robot d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'annuaire Web.

L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs (pratiquement tous) correspondant à chaque ressource. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse.
La partie requêtes du moteur de recherche peut ainsi rapidement retrouver les correspondances. Un algorithme gardé secret est généralement appliqué pour donner un poids variable aux correspondances, afin de pouvoir présenter les résultats des recherches par ordre de pertinence supposé. L'algorithme tient généralement compte du contexte du mot clé (titre, paragraphe, hyperlien...) et de la ressource (ressources liées, popularité du site...).

La nouvelle génération de moteurs Une nouvelle génération de moteurs apparaît progressivement : ils combinent de nouvelles fonctionnalités de recherche et d'environnement graphique : l'un des plus innovants est Toolenet (www.toolenet.com), développé par 2 sociétés françaises et intègre des technologies multiples et particulièrement efficaces...
Catégorie :
Strategie
Auteur de l'article :
© Copyright 2006 - Wikipédia - sous licence GFDL - www.wikipedia.fr / 1001 Marketing
Source :
Date de publication :
05 mai 2006