I - 2 - Architecture du Web
Le Web, souvent associé à une toile d’araignées géante, regroupe de nombreux sites qui eux-mêmes regroupent de nombreuses pages. A première vue on pourrait penser que toutes les pages ont une équiprobabilité d’accès à partir de n’importe quelle machine ou à partir de n’importe quel moteur de recherche. Or on peut apparenter la structure de l’ensemble des pages Web à un nœud papillon[1]. En effet une étude réalisée à deux reprises en 1999 sur plus de 200 millions de pages et 1,5 milliards de liens a fait ressortir un schéma représentatif de l’interconnexion des pages Web qui seraient séparées en plusieurs zones : La Zone IN SCC (Strongly Connected Component) : Les pages qui possèdent à la fois des liens entrants venant de IN et des liens sortants pointant vers OUT. Ces pages sont fortement liées entre elles, c'est-à-dire que à partir de n’importe quelle page de SCC on peut (par le biais de un ou plusieurs liens dans SCC) joindre toute autre page de SCC. OUT : Les pages qui possèdent des liens entrants venant de SCC. Ces pages ne possèdent pas de liens sortant pointant vers SCC. Les tubes : Ceux sont des liens de la zone IN qui pointent vers OUT sans passer par SCC. Les vrilles : Cas particuliers de IN et OUT ces pages pointent vers IN ou vers OUT ou sont pointés par des pages de IN ou OUT. Les composants déconnectés : Ces pages web ne possèdent pas de liens avec le noyau des pages interconnectées, elles ne sont reliées à aucune autre page. [1] Le graphique en noeud papillon résulte des travaux réalisés par Ravi Kumar, un chercheur du laboratoire d’Almaden, avec l’aide d’Andrei Broder et de Farzin Maghoul, du moteur de recherche Altavista.
Figure I.2.a : La structure du web en nœud papillon
Remarque : Attention, bien que l’on parle de zones il ne s’agit en aucun cas de zones géographiques, on retrouve des exemples de chaque zone dans n’importe quelle localité.
Zones |
Répartition sur le web |
IN |
21,50% |
SCC |
27% |
OUT |
21,50% |
Tubes + Vrilles |
21,50% |
Composants déconnectés |
8,30% |
Tableau I.2.b : Répartition des zones de la structure du nœud papillon sur le web