Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Les algorithmes des moteurs de recherche
Les algorithmes des moteurs de recherche
  • Ce blog décrit les différents algorithmes des moteurs de recherche avec notamment, HIT, PHIT, le pageRank de google et les différents outils qui vont utiliser les fonctions lexicales et le web sémantique
  • Accueil du blog
  • Créer un blog avec CanalBlog
Publicité
Archives
31 mars 2006

I - 2 - Architecture du Web

Le Web, souvent associé à une toile d’araignées géante, regroupe de nombreux sites qui eux-mêmes regroupent de nombreuses pages. A première vue on pourrait penser que toutes les pages ont une équiprobabilité d’accès à partir de n’importe quelle machine ou à partir de n’importe quel moteur de recherche. Or on peut apparenter la structure de l’ensemble des pages Web à un nœud papillon[1]. En effet une étude réalisée à deux reprises en 1999 sur plus de 200 millions de pages et 1,5 milliards de liens a fait ressortir un schéma représentatif de l’interconnexion des pages Web qui seraient séparées en plusieurs zones :

La Zone IN

: Les pages qui possèdent des liens sortants vers le noyau SCC. Ces pages ne sont pas accessibles à partir de SCC.

SCC (Strongly Connected Component) : Les pages qui possèdent à la fois des liens entrants venant de IN et des liens sortants pointant vers OUT. Ces pages sont fortement liées entre elles, c'est-à-dire que à partir de n’importe quelle page de SCC on peut (par le biais de un ou plusieurs liens dans SCC) joindre toute autre page de SCC.

OUT : Les pages qui possèdent des liens entrants venant de SCC. Ces pages ne possèdent pas de liens sortant pointant vers SCC.

Les tubes : Ceux sont des liens de la zone IN qui pointent vers OUT sans passer par SCC.

Les vrilles : Cas particuliers de IN et OUT ces pages pointent vers IN ou vers OUT ou sont pointés par des pages de IN ou OUT.

Les composants déconnectés : Ces pages web ne possèdent pas de liens avec le noyau des pages interconnectées, elles ne sont reliées à aucune autre page.


[1] Le graphique en noeud papillon résulte des travaux réalisés par Ravi Kumar, un chercheur du laboratoire d’Almaden, avec l’aide d’Andrei Broder et de Farzin Maghoul, du moteur de recherche Altavista.

Figure I.2.a : La structure du web en nœud papillon

Remarque : Attention, bien que l’on parle de zones il ne s’agit en aucun cas de zones géographiques, on retrouve des exemples de chaque zone dans n’importe quelle localité.

Zones

Répartition sur le web

IN

21,50%

SCC

27%

OUT

21,50%

Tubes + Vrilles

21,50%

Composants déconnectés

8,30%

Tableau I.2.b : Répartition des zones de la structure du nœud papillon sur le web

noeudpapillon1

Publicité
Publicité
Commentaires
Publicité