Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Les algorithmes des moteurs de recherche
Les algorithmes des moteurs de recherche
  • Ce blog décrit les différents algorithmes des moteurs de recherche avec notamment, HIT, PHIT, le pageRank de google et les différents outils qui vont utiliser les fonctions lexicales et le web sémantique
  • Accueil du blog
  • Créer un blog avec CanalBlog
Publicité
Archives
1 avril 2006

II - 1 - Méthodes trtaditionnelles d'indexation

Tout moteur de recherche qui indexe des pages Web doit obéir à certaines règles de base.

             L’indexation doit être rapide : le Web évolue tous les jours, en effet on voit apparaître de nouvelles pages de plus en plus fréquemment mais en plus le contenu de ces pages est mis à jour de façon quotidienne ou même une fois par heure.

            

             L’indexation doit être complète : hormis pour les composants déconnectés du Web un moteur d’indexation doit être capable de récupérer les informations pertinentes des pages.

             L’indexation doit respecter les sites : certains sites contiennent des pages cachées ou des pages authentifiées, d’autres sites utilisent le fichier robot.txt qui indique au moteur d’indexation qu’il ne souhaite pas être référencé.

Pour se faire les moteurs d’indexation utilisent des robots qui parcourent le Web et qui relèvent les informations contenues dans les pages. Plusieurs méthodes sont utilisées, en essayant d’optimiser les trois caractéristiques citées ci-dessus.

Dans ces différents moteurs d’indexation on voit apparaître deux catégories :

-          une catégorie qui indexe chaque page visitée sur le Web, cette méthode a une vue du Web bas niveau,

-          une autre catégorie qui sépare le Web en plusieurs domaines qui contiennent eux-mêmes plusieurs pages, cette méthode a une vue du Web haut niveau.

Les balises META

Le langage HTML prévoit dans son codage une partie réservée aux moteurs de recherche. Les balises META[1] contiennent des informations relatives au contenu de la page Web (cf 1.3 La recherche d’information). Ces balises sont mal exploitées et souvent inefficaces pour les raisons suivantes :

    • Les développeurs de pages Web ne fournissent que très rarement ces informations.

    • Lorsque elles sont renseignées ces balises ne sont pas toujours significatives du réel contenu de la page.

    • Les balises META[2] sont souvent utilisées à mauvais escient par les spammeurs qui souhaitent faire apparaître leurs sites en haut des listes des moteurs de recherche.

    • Tous les moteurs de recherche n’utilisent pas ces balises META pour indexer le contenu d’une page.

Les balises META sont disponibles sur chaque page HTML (bien que rarement renseignées sur une autre page que la page d’accueil d’un site), cette méthode d’indexation est donc une méthode qui utilise la structure bas niveau du Web.

Bien que utilisée dans les premiers moteurs de recherche, aujourd’hui les moteurs d’indexation s’attachent plus au contenu réel des la page qu’aux méta données. C’est donc dans cette optique que nous pouvons nous intéresser aux différents algorithmes qui indexent les pages Web.

[1] META pour Méta données, En informatique, une méta donnée est une donnée contenue dans un fichier qui décrit son contenu.

[2] Le SPAM désigne les communications électroniques massives à des fins publicitaires ou malhonnêtes. En France les spammeurs sont aussi appelés polluposteurs.


Publicité
Publicité
Commentaires
Publicité