Le fonctionnement d'un moteur de recherche





La recherche des pages web:

Les moteurs de recherches utilisent des robots (Web robot, spider, crawler), ces derniers sont des processus informatiques qui lient une page web, extraient les liens et visitent ultérieurement les liens trouvés. Ces robots sont capables de visiter pratiquement tout le web en suivant les pages et les liens.

La collecte des données:

Les robots naviguent sur le Web et dans les forums de discussion, recherchent des textes, des images, des fichiers audio et vidéo, et archivent les pages qu'ils trouvent dans des serveurs.

La sauvegarde des pages:

Après avoir visiter une page, un robot va l'enregistrer dans des énormes data-centre qui enregistrent des milliards de pages web. Les pages ne seront pas toutes sauvegardées. Certaines pages provenant de site illégaux ou pratiquant de très mauvaises pratiques, seront «blacklistés». Dans ce cas, un moteur de recherche mémorise l'adresse de la page pour l'ignorer s'il découvre un lien vers le site ultérieurement.

L'indexation:

Le moteur de recherche extrait les informations pour les indexer. Un index recense les mots et l'endroit où ils sont présents. Cela sera ultérieurement utilisé pour gagner du temps lorsque l’internaute fera une recherche. Les index ne listent pas tous les mots, certains mots ne sont pas indexés, ce sont les «skip words».

Le classement des résultats de la recherche:

Plusieurs critères peuvent être pris en compte. Les deux grands critères qui influencent le classement des résultats sont la popularité et la pertinence de la page par rapport aux mots recherchés.

La pertinence: est-ce que le mot-clé est présent dans l'URL? Dans le titre? Dans le contenu? Est-ce qu’il y a des synonymes du mot recherché dans le contenu?

La popularité: la page reçoit-elle beaucoup de liens? Les pages faisant des liens ont-elles la même thématique? Ces liens proviennent-ils de pages elles-mêmes populaires? Les sites qui font des liens vers cette page sont-il des sites de confiance?

Autres facteurs: on note aussi d’autres facteurs influençant sur les résultats comme la localité de l’internaute et l’historique de ses précédentes recherches…

Les limites des moteurs de recherche:

Malgré la puissance des moteurs de recherche, ils ont des limites.

Les robots sont incapables de trouver une page qui ne reçoit aucun lien, dite «page orpheline». Un site qui ne reçoit pas de lien sera difficilement trouvé par les moteurs de recherche.

Les robots ne peuvent tout indexer et mettre à jour rapidement. Les modifications apportées sur un site web ne sont pas répertoriées instantanément sur les résultats d'un moteur de recherche.

La mise à jour des bases de données se fait à des intervalles réguliers, mais cela peut prendre des semaines, voire des mois, pour qu'une nouvelle page soit indexée, ça dépend du moteur de recherche et la méthodologie qui lui est associé, il faut alors une autre visite des robots.

La plupart des moteurs de recherche ne tiennent pas compte du sens des mots et retournent les résultats d’une recherche.

Les moteurs de recherche classiques ne peuvent pas accéder à environ 40% du contenu total du Web, comme les pages interdites aux robots d’indexation, les pages protégées par un mot de passe…c’est le «Web invisible».