Les moteurs de recherche

Un moteur de recherche est un logiciel permettant de retrouver des ressources (pages Web, forums Usenet, images, vidĂ©o, etc.) associĂ©es Ă  des mots quelconques. Certains sites Web offrent un moteur de recherche comme principale fonctionnalitĂ© ; on appelle alors "moteur de recherche" le site lui-mĂȘme.

DĂ©finition

Outil de recherche sur le web constitué de "robots", encore appelés spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés.

Par abus de langage, on appelle Ă©galement moteurs de recherche :

-
des sites web proposant des annuaires de sites web : dans ce cas, ce sont des ressources humaines qui rĂ©pertorient et classifient des sites web jugĂ©s dignes d'intĂ©rĂȘt et non des robots d'indexation - on peut citer par exemple VoilĂ  et Yahoo!, etc.

- des logiciels installés sur un ordinateur personnel : ce sont des moteurs dits desktop qui combinent la recherche parmi les fichiers stockés sur le PC et la recherche parmi les sites web - on peut citer par exemple Google Desktop et Copernic Desktop Search, etc.

On trouve Ă©galement des mĂ©tamoteurs, c'est-Ă -dire des sites web oĂč une mĂȘme recherche est lancĂ©e simultanĂ©ment sur plusieurs moteurs de recherche (les rĂ©sultats Ă©tant ensuite fusionnĂ©s pour ĂȘtre prĂ©sentĂ©s Ă  l'internaute) - on peut citer Mamma, Kartoo, etc.

Fonctionnement

Le fonctionnement d'un moteur de recherche se décompose en trois étapes principales.

Le Web est systématiquement exploré par un robot d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'annuaire Web.

L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs (pratiquement tous) correspondant à chaque ressource. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse.
La partie requĂȘtes du moteur de recherche peut ainsi rapidement retrouver les correspondances. Un algorithme gardĂ© secret est gĂ©nĂ©ralement appliquĂ© pour donner un poids variable aux correspondances, afin de pouvoir prĂ©senter les rĂ©sultats des recherches par ordre de pertinence supposĂ©. L'algorithme tient gĂ©nĂ©ralement compte du contexte du mot clĂ© (titre, paragraphe, hyperlien...) et de la ressource (ressources liĂ©es, popularitĂ© du site...).

La nouvelle génération de moteurs Une nouvelle génération de moteurs apparaßt progressivement : ils combinent de nouvelles fonctionnalités de recherche et d'environnement graphique : l'un des plus innovants est Toolenet (www.toolenet.com), développé par 2 sociétés françaises et intÚgre des technologies multiples et particuliÚrement efficaces...
Catégorie :
Strategie
Auteur de l'article :
© Copyright 2006 - Wikipédia - sous licence GFDL - www.wikipedia.fr / 1001 Marketing
Source :
Date de publication :
05 mai 2006