25 avril 2006
Introduction
Internet regroupe de nombreux outils dont la toile (de l’anglais Web) qui comporte de nombreuses pages publiées librement par des millions d’internautes. Du fait de la forte croissance du réseau et du nombre grandissant de documents mis en ligne le besoin s’est fait ressentir de trouver une information sans avoir à tout parcourir.
La recherche d’information sur Internet est un domaine d’application qui a beaucoup évolué ces dernières années. On est passé d’annuaires répertoriant des liens à des moteurs de recherche basiques pour en arriver aujourd’hui à des moteurs utilisant des algorithmes d’indexation et de recherche puissants. Les algorithmes des moteurs de recherche sont tous basés sur des théories différentes mais leurs objectifs est le même : indexer toute la toile, et l’indexer rapidement pour donner un résultat pertinent à l’utilisateur.
Afin de comprendre l’évolution de ces moteurs de recherche et des algorithmes qu’ils utilisent je vais dans une première partie introduire la recherche d’information pour mieux comprendre l’architecture de la toile ainsi que la manière dont on peut l’indexer. Dans une seconde partie je vais présenter les différents algorithmes des moteurs de recherche et plus particulièrement l’algorithme PageRank de Google. Dans une troisième partie je vais montrer vers quels moteurs de recherche nous évoluons aujourd’hui en m’intéressant aux fonctions lexicales et au Web sémantique.
III - 3 - Le Web sémantique
Le web sémantique est une partie d’Internet qui se dirige vers un réseau dans lequel on peut consulter et publier des documents automatiquement. Ces documents sont formalisés, ils ne contiennent pas des textes en langage naturel mais les informations y sont classées de manière ordonnée. En effet la sémantique ne se base pas sur l’orthographe d’un mot mais sur les caractéristiques polysémes des mots et donc sur le sens d’un mot ou la signification d’un texte.
Des logiciels de traitement du web sémantique ont pour objectifs de :
générer des documents sémantiques à partir des données saisies par l’utilisateur,
modifier les données sémantiques afin d’être publiées ou traitées,
publier des données sémantiques avec une mise en forme personnalisée ou spécialisée
échanger automatiquement des données en fonction de leurs relations sémantiques,
générer des données sémantiques automatiquement à partir de règles d’inférences.
Le web sémantique utilise les protocoles et langages standards du web, il ne remet pas en cause le fonctionnement actuel de la toile mais il apporte un outil qui aide à ordonner, classer, et retrouver les documents. Le protocole utilisé est donc le HTTP, XML[1] est le langage utilisé de base pour coder les pages mais d’autres modèles ou langages s’appuyant sur le XML sont venus s’ajouter à ce dernier : le RDF [2]ou le OWL[3].
Le web sémantique est réuni sous un consortium appelé le W3C[4], c’est le consortium de la toile d’araignée mondiale (de l’anglais World Wide Web Consortium).
Le Web sémantique est un consortium récent (2001) qui se met en place peu à peu grâce à la volonté de beaucoup personnes de travailler sur un réseau bien ordonné. En effet Internet regroupe de nombreux surfeurs, professionnels, développeurs de tous les pays, il est devenu difficile d’interpréter tout ce qui s’y passe dans chaque langue. Le fait de travailler sur le sens des mots, la signification des textes ou sur des thématiques amène les moteurs de recherche à s’intéresser de plus prés au web sémantique. Ne plus orienter son indexation et sa recherche sur l’orthographe mais sur la sémantique est un pari que quelques moteurs de recherche ont relevé.
b. Les moteurs de recherche sémantiques
L’utilisation de la sémantique dans les moteurs de recherche est un fait très récent mais il est déjà possible de faire un constat :
les utilisateurs des moteurs de recherche ne sont pas habitués au format du résultat des requêtes,
par contre l’ordonnancement des résultats offre à l’utilisateur la possibilité de se diriger vers un domaine précis.
Les derniers moteurs de recherche sémantiques sont apparus récemment sur Internet, leur part de marché est encore faible comparée à celle de Google, Yahoo ou MSN mais deux d’entre eux proposent des fonctionnalités de recherche et d’affichage des résultats intéressants : Kartoo (www.kartoo.com) et Exalead (www.exalead.fr).
Kartoo est un éditeur de logiciels et de technologies innovantes, il propose des logiciels de recherche d’informations, de visualisation graphique de l’information, de gestions de connaissances ou encore de cartographie. C’est une société française qui depuis 1997 multiplie les expériences dans le monde de la recherche d‘information, après le lancement en 2001 du moteur www.kartoo.com, elle a mis en ligne en 2004 un nouveau moteur de recherche www.ujiko.com. Le deuxième moteur de recherche utilise la base de connaissance de kartoo, mais fournit en plus une interface pour personnaliser les résultats.
L’avantage et l’innovation de ces deux moteurs, et principalement de kartoo, sont caractérisés par la présentation des résultats sous forme de fenêtres en formes de dossiers qui regroupent différents thèmes. En sélectionnant un thème le moteur de recherche nous propose une nouvelle division en sous thèmes, ceci jusqu’au niveau des pages individuelles.
Voici un exemple de recherche : « président France »
Figure III.3.a : Réponse à une requête sur kartoo : « président France »
On aperçoit au centre de l’écran plusieurs dossiers représentant plusieurs thèmes liés au terme président France, la grosseur du dossier est liée à la pertinence de la réponse. En passant la souris sur les dossiers on voit qu’il y a des liaisons entre les dossiers et donc entre les thèmes et un aperçu de la page est disponible sur la partie gauche de la fenêtre.
Figure III.3.b : Aperçu d’une page en passant la souris sur un dossier
En cliquant sur le thème « Jacques Chirac » dans la fenêtre de gauche une nouvelle fenêtre de kartoo nous présente une division plus précise des nouveaux thèmes trouvés en rapport avec Jacques Chirac et notamment dans la partie centrale différents liens vers des pages HTML.
Figure III.3.c : Précision de la requête en sélectionnant le thème Jacques Chirac
Ce moteur de recherche innovant, purement graphique est un outil manifestement très différent des outils de recherche actuels. Si l’on s’intéresse aux avantages et inconvénients de Kartoo, on va retrouver en points positifs :
les fonctionnalités nouvelles qui apportent de l’aide par rapport aux autres moteurs,
et en points négatifs
le temps de recherche nettement alourdi. En effet d’une part le temps de réponse du moteur est beaucoup plus long qu’un moteur de recherche classique et d’autre part le temps nécessaire pour parcourir les différents thèmes est lui aussi rallongé
Kartoo se montre donc efficace et novateur pour réaliser des recherches complexes mais assez lent et rebutant pour une recherche simple.
Exalead est à mi chemin entre les moteurs traditionnels tel que Google, Yahoo ou MSN et le moteur de recherche sémantique qu’est kartoo. En effet tout comme kartoo, exalead possède une classification de ces résultats par thèmes et c’est en ce sens qu’il fait parti de la nouvelle génération de moteurs de recherche dits sémantiques. Mais contrairement à kartoo, exalead ne veut pas trop jouer sur le changement et possède donc un affichage des résultats qui rappelle les moteurs traditionnels. Traditionnel oui mais avec des nouvelles fonctionnalités quand même. Voici donc les caractéristiques du moteur de recherche exalead :
la fenêtre centrale regroupe les résultats de la recherche, ils sont classés par pertinence comme tout moteur classique,
à droite de chaque résultat un aperçu présente l’aspect de la page correspondante,
la colonne de gauche montre le coté sémantique et innovateur du moteur, il est composé de plusieurs parties, à savoir les termes associés, les rubriques associées, la localisation géographique, les langues des documents et les types de document.
Voici donc la réponse à la requête « président France » :
Figure III.3.d : Réponse à une requête sur exalead : « président France »
L’arrivée sur le marché de moteurs de recherche tels que Kartoo et Exalead explique le fait que les leaders actuels (Google, Yahoo, MSN) se tournent vers les fonctions lexicales et les outils sémantiques pour indexer le web. Ces nouvelles fonctionnalités sont toutes récentes mais elles marquent un tournant dans la course à la séduction des utilisateurs pour les moteurs de recherche.
[1] XML, Langage de balise extensible (Extensible Markup Language) est un standard qui sert à créer des langages de balisages, il définit des règles formalisées pour construire un document.
[2] RDF, Modèle de description des ressources (de l’anglais Resource Description Framewrok) est un modèle de graphe associé au langage XML, il sert à traiter automatiquement les métadonnées.
[3] OWL, Langage d’Ontologie du Web (de l’anglais Ontology Web Language), c’est un langage de modélisation des ontologies.
[4] W3C, http://www.w3.org/, site regroupant de nombreux membres professionnels ou amateurs de ce consortium.
14 avril 2006
III - 2 - Les fonctions lexicales
L’étude des fonctions lexicales existe dans le domaine informatique dans le domaine du traitement automatique du langage naturel (TALN). C’est un domaine de recherche d’actualité depuis quelques années, en effet des applications informatiques récentes telles que dictionnaires de synonyme, traducteurs multilingues mais aussi les moteurs de recherche ont un réel besoin d’automatisation. Les utilisateurs sont de plus en plus exigeants sur la qualité attendue dans les nouvelles technologies de l’information.
Les fonctions lexicales sont utilisées dans le traitement d’un texte afin de désambiguïser le contenu du texte, c'est-à-dire trouver le sens de chaque mot. Dans toutes les langues chaque mot du dictionnaire peut avoir un ou plusieurs sens, la moyenne dans la langue française est d’environ 5 sens par mot, ces mots sont dits polysémiques.
Voici des exemples de fonctions lexicales :
la synonymie,
l’antonymie,
l’hyperonymie,
l’hyponymie.
Dans les moteurs de recherche les fonctions lexicales peuvent être utilisées à deux étapes très importantes que sont :
L’indexation des pages, le moteur d’indexation doit être capable de classer les pages par domaine même si au sein d’un même domaine les mots utilisés sont différents. En utilisant la synonymie, l’hyperonymie ou l’hyponymie le moteur va être capable de reconnaître le sens de chaque mot polysème, l’indexation ainsi réalisée facilitera l’étape suivante.
La réponse à une requête, ou plutôt la recherche d’informations similaires à al requête dans l’index du moteur de recherche. Tout comme pour l’étape d’indexation les fonctions lexicales vont donner des informations supplémentaires sur le sens recherché.
Google numéro un des moteurs de recherche ne peut pas passer à coté de ces nouvelles technologies de l’information. Encore une fois aucune information n’a été dévoilée mais depuis deux ans certains parlent déjà de l’algorithme PageRank sensible au contexte (de l’anglais topic sensitive PageRank).
a. Le PageRank sensible au contexte
1) Le constat
Le besoin pour Google de s’intéresser à la thématique d’une page découle d’un constat simple : Le PageRank classe par ordre d’importance des pages dont le contenu est identique mais il ne distingue pas de différence entre 2 mots identiques mais utilisés avec un sens différent. Ainsi des pages qui traitent de la voiture de marque Jaguar seront indexées avec des pages qui parlent des jaguars, animaux d’Afrique. L’ambiguïté existe pour de nombreux mots et ceci pour toutes les langues.
2) Les PageRank thématiques
Pour désambiguïser ses index Google décide de doter son PageRank de thématiques de départ et de suivre par le biais des robots d’indexation les liens de s pages en restant dans un même domaine. Le résultat est un vecteur de PageRank général et 16 vecteurs de PageRank spécialisés dans un certain domaine. Chaque page possède désormais 17 PageRank au lieu d’un. La difficulté demeure ensuite dans la clarté et le décryptage de la requête. Si la requête est assez complète et possède des mots qui, mis ensemble, donnent un sens à la requête alors il sera facile au moteur de recherche de retrouver dans son index les pages correspondantes. Par contre si la requête est vague, l’index a beau être classé par thématique il est difficile de savoir quel sens donné à un mot seul. En reprenant l’exemple du jaguar on sait que l’index peut séparer les polysèmes et donc on aura une partie des pages indexées qui seront dans l’automobile et l’autre partie dans les animaux, mais si la requête comporte le seul mot « jaguar », aucune précision ne guide le moteur pour savoir quelle thématique donner en réponse.
3) Une thématique pour chaque utilisateur
Les PageRank thématiques représentent une belle avancée dans la recherche de la pertinence mais Google, qui utilise déjà des robots localisés sur le PC de chaque utilisateur peut très bien utiliser des informations relatives à l’utilisateur et ses habitudes afin de mieux répondre à ses attentes.
Le moteur de recherche, en cas d’ambiguïté peut donc s’aider du contexte des recherches effectuées auparavant (répertoriées dans un historique) ou tout simplement des favoris ou de l’historique des pages Web visités par l’utilisateur. De plus l’utilisateur peut lui-même créer un profil dans lequel il renseigne ses centres d’intérêt qui pourront très certainement aider le moteur de recherche pour répondre à des requêtes.
Ces outils paraissent très utiles et très robuste face aux problèmes rencontrés dans la désambiguïsation d’une requête mais elle se heurte à la protection des données de l’utilisateur. Certains soupçonnent déjà Google d’utiliser ce genre de robots sans en exploiter les informations récupérées, mais ceci sans l’accord préalable de l’internaute qui installe la barre d’outils Google ou l’utilitaire de bureau Google (Google Desktop[1]).
[1] Google Desktop : Utilitaire installé en local sur le PC de l’utilisateur qui indexe tous les fichiers des disques dur et qui accélèrent donc la recherche pour l’utilisateur : résultat de recherche présenté sur une page Google.
III - 1 - Amélioration de la pertinence
Les moteurs de recherche ont fait d’énormes progrès en une quinzaine d’année. Le gain apporté aux utilisateurs se situe sur la rapidité d’indexation des pages du Web, la rapidité de réponse à une requête, la mise à l’écart des pages indésirables, et la plus grande diversité des formats de données proposées. La qualité des moteurs de recherche semble plafonner à son maximum, pourtant de nombreux chercheurs travaillent dans le sens de moteurs de recherches intelligents travaillant sur le coté linguistique des données, les fonctions lexicales.
D’un autre coté on voit aussi apparaître la volonté de certains développeurs de sites Web et de nombreux utilisateurs de mieux ordonner la toile afin de pouvoir trouver plus facilement une information et comprendre plus facilement le contenu d’une page, c’est le Web sémantique.
C’est donc ainsi que l’on a vu apparaître récemment des moteurs de recherche encore peu connus, peut-être du fait de leurs différences d’utilisation avec les moteurs plus conventionnels tel que Google, Yahoo et MSN.
Citons deux exemples :
Exalead (http://www.exalead.fr/search)
Kartoo (http://www.kartoo.com/flash04.php3)
Les nouveaux moteurs de recherche s’éloigne du coté algorithmique au sens mathématique pour se rapprocher du coté de l’étude du langage humain via des fonctions lexicales et de la signification des mots. C’est en cherchant à palier à leur plus gros défaut que les moteurs de recherche font ce choix, c'est-à-dire en essayant d’être plus pertinent sur les résultats.
Dans un point de vue général on peut parler de sémantique linguistique qui peut se définir comme l’étude du sens des mots d’une langue. On ne cherche plus un mot ou une expression précise mais on cherche un sens (une idée) et on souhaite avoir en réponse à une requête toutes les pages traitant du même domaine.
C’est à travers ces deux domaines que sont les fonctions lexicales et le web sémantique que ce chapitre va traiter des évolutions récentes et à venir dans les moteurs de recherche.
09 avril 2006
II - 3 - Google et le PageRank
Google est une société fondée en 1998 par Larry Page et Sergei Brin en Californie. Mais Google est avant tout un moteur de recherche créé en 1996 par les deux cofondateurs de la société alors qu’ils étaient encore étudiants à l’université de Stanford. Le projet Google traite d’un moteur de recherche dont le fondement est basé sur le principe d’une analyse des relations entre les sites Web.
a. Le fonctionnement du moteur de recherche Google
Le moteur de recherche tel qu’il est apparu en 1998 a
Depuis le printemps 2003 le moteur de recherche fonctionne comme suit :
Tout d’abord l’indexation, elle est réalisée par le Google bot[1], c’est un spider bot[2] qui est chargé de ré indexer les pages contenues dans l’index actuel mais aussi d’indexer les nouvelles pages. La période d’indexation s’adapte aux besoins de rafraîchissement des différentes pages, que ce soit des pages personnelles (mises à jour à une fréquence aléatoire) ou des pages d’actualité (avec des fréquences de mises à jour plus importantes). C’est une nouveauté de Google car dans sa première version le moteur de recherche effectuait ses trois fonctions via l’utilisation de plusieurs robots. Le Google bot est capable de suivre tout type de lien et il est donc capable d’indexer la totalité du Web.
En plus du Google bot, il existe deux autres robots d’indexation qui ont des fonctions bien particulières, elles sont liées aux nouveautés que proposent Google :
. Un robot qui se charge d’indexer les pages affichées ensuite dans Google News,
. Un robot qui se charge d’indexer les pages commerciales qui seront affichées dans le bandeau de droite d’une réponse à une requête quelconque, c’est le robot de Google AdSense.
La seconde étape durant laquelle le calcul des notes des pages en fonction du contenu et des liens.
Pendant que de nombreux chercheurs ont passé beaucoup de temps à imaginer des algorithmes capables d’indexer tout le Web ou de l’indexer le plus rapidement possible Larry Page et Sergei Brin se sont penchés sur le classement des résultats d’une recherche. Ils ont imaginé une méthode pour déterminer l’importance d’une page Web. Contrairement à d’autres algorithmes le pageRank ne se base pas sur le contenu total d’une page Web mais plutôt sur ses liens sortants mais aussi entrants.
En français PageRank signifie rang de la page, on retrouve dans cette dénomination la volonté de classer les pages par importance et de leur donner un rang pour les distinguer les unes des autres lors d’une requête sur le moteur de recherche.
Définition de l’algorithme du pageRank telle qu’énoncée dans la publication de Google :
Le PageRank peut être calculé en utilisant un simple algorithme itératif, et correspond au vecteur propre principal de la matrice normalisée des liens du Web.
1) Le concept de base de l’algorithme :
Un lien d’une page A vers une page B est traduit par le fait que le webmestre de la page A estime que la page B est de bonne qualité et, de plus, il y a de fortes chances pour que le domaine des informations contenues dans la page B ait un lien avec le domaine des informations de la page A. En possédant un lien vers la page B, A affecte donc un vote à B.
On comprend donc aisément que plus la page B reçoit de votes (possède des liens entrants) d’autres pages du Web plus elle est considérée comme importante par Google et plus elle aura de chances de se retrouver bien placée en réponse à une requête dans le domaine dont elle traite.
Remarques :
- L’importance de la page B émettrice du lien vers la page B n’est pas négligeable pour déterminer l’importance de la page B. En effet une page possédant une multitude de liens entrants de la part de sites persos n’obtiendra le même classement qu’une page qui possède quelques liens entrants de la part de sites reconnus et mondialement connus.
- Comme pour l’indexation incrémentale, et comme son nom l’indique l’algorithme pageRank n’attribue pas un classement pour un site complet mais pour chaque page qui le constitue. Aucune extrapolation (moyenne des pages d’un site ou autre) n’a été réalisée afin de noter le site plutôt que ses pages.
- L’algorithme pageRank ne scrute pas le contenu d’une page afin d’y déceler les méta données ou autres informations qui pourraient aider le moteur d’indexation à donner une note pertinente en rapport avec tel ou tel sujet. L’algorithme pageRank est basé sur le principe des liens et donc le fait qu’une page est un fort pageRank ne signifie pas que son contenu est très intéressant ni que les informations sont vraies, une page a un fort pageRank si de nombreuses pages pointent vers elle.
2) La barre d’outils de Google[3]
Afin de mieux sensibiliser les utilisateurs du moteur de recherche, Google propose une barre d’outils qui s’insère sous menus du navigateur Web. Cette barre d’outil Google donne la possibilité d’effectuer une recherche à l’aide d’une barre de saisie de texte, la réponse à la requête est transcrite dans la fenêtre de recherche de Google habituelle. La nouvelle fonctionnalité qui la différencie par rapport aux autres barres d’outils des moteurs de recherche est l’affichage du pageRank de la page en cours.
Figure II.3.a :La barre d’outil de Google ( la Google Toolbar
On voit ci-dessus, qu’en plus des outils habituels la barre d’outil de Google affiche sous la forme d’une progression verte sur fond blanc. Ici le pageRank est de 9/10, la page est www.cnn.com alors que la requête était « cnn ».
De nombreux articles traitent de l’algorithme pageRank depuis sa sortie en 1998. L’équipe de Google a volontairement gardé une part de secret dans cet algorithme en donnant seulement le principe de base qui pour une page donnée calcule le rang d’une page. De ce fait de nombreux mathématiciens ont émis des hypothèses pour retrouver l’algorithme exact. Avec la formule du pageRank ces derniers n’ont qu’à essayer avec plusieurs paramètres et plusieurs hypothèses pour se rapprocher des vrais résultats retournés actuellement par la « Google Toolbar ».
3) La formule de l’algorithme pageRank
Même si tous les secrets de l’algorithme pageRank n’ont pas été testés la plupart des informations ont été données et cela suffit pour, dans un premier temps, s’intéresser à la formule mathématique qui a fait la gloire du moteur de recherche Google.
Les pages T1, T2, …, Tn possèdent des liens sortants vers la page A, le pageRank de la page A est le suivant :
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
PR(A) est le pageRank calculée pour une page A (idem pour T1, Tn…).
d est un coefficient d’amortissement qui limite l’importance de la quantité des votes donnés à une page. Ce facteur peut être ajusté entre 0 et 1, il prend généralement la valeur 0.85.
La notation (1-d) est la garantie que la moyenne des pageRank de l’ensemble des pages Web est égal à 1.
T1 à Tn sont des pages qui émettent des liens vers la page A.
C(Tn) est le nombre de liens émis par la page Tn. Cette partie de la formule nous met la puce à l’oreille sur le fait que si une page Y qui pointe vers la page possède de nombreux liens sortants l’importance de chaque lien (et donc de celui pointant vers A) va être minimisé proportionnellement au nombre de liens.
Le résultat de cette formule donne dans la théorie des valeurs fractionnaires, en effet on peut s’apercevoir que le pageRank d’une page peut varier de 0.15 jusqu’à une valeur très grande. Hors nous avons vu précédemment (cf 2) la barre d’outils de Google) que les pageRank affichés dans la pratique sont compris entre 0 et 10 et ce ne sont que des valeurs entières.
Google cache une partie de son algorithme, certains parlent d’une échelle logarithmique de base 10 qui, en effet, fait retomber sur les bonnes valeurs les rangs calculés par le pageRank.
Voici les 11 possibilités de valeurs de pageRank affiché sur la barre d’outils de Google :
PageRank affiché[4] |
PageRank calculé par l'algo | ||
0 |
1 |
à |
10 |
1 |
10 |
à |
100 |
2 |
100 |
à |
1 000 |
3 |
1 000 |
à |
10 000 |
4 |
10 000 |
à |
100 000 |
5 |
100 000 |
à |
1 000 000 |
6 |
1 000 000 |
à |
10 000 000 |
7 |
10 000 000 |
à |
100 000 000 |
8 |
100 000 000 |
à |
1 000 000 000 |
9 |
1 000 000 000 |
à |
10 000 000 000 |
10 |
supérieur |
à |
100 000 000 000 |
Tableau II.3.b : PageRank affiché en fonction du pageRank calculé
Remarque :
L’échelle logarithmique de base 10 est reprise dans de nombreux articles traitant de l’algorithme pageRank de Google mais elle n’est en aucun cas énoncée explicitement par les fondateurs de l’algorithme. Cependant cette hypothèse offre des résultats qui se rapprochent du résultat retourné par la barre d’outil de Google et elle aide à la compréhension.
L’algorithme itératif
Si on s’intéresse de plus prés à la définition donnée dans la publication de Google on s’aperçoit que l’on parle d’un algorithme itératif et qui va donc de pages en pages pour calculer le pageRank de chacune d’elles, et ceci, en boucle. Une question se pose alors étant donnée la formule sur la valeur de pageRank de la première page visitée. Elle va influencer les valeurs des pageRank des pages vers qui elle a un lien sortant, et ainsi de suite. Il parait donc très important de connaître la valeur de pageRank de départ à donner ou à calculer et il faudrait pouvoir évaluer par la suite si la valeur choisie était la bonne.
→ En réalité le caractère itératif de l’algorithme fait que chaque itération fait converger les résultats vers une valeur de plus en plus précise. La valeur finale est retenue à chaque fin d’itération et est réinjectée dans l’itération suivante. On s’aperçoit alors que qu’elle que soit la valeur donnée en entrée l’itération fera toujours converger l’algorithme vers la même valeur. Pour accélérer le processus d’itération qui devrait boucler autant de fois que de pages visitées le facteur d’amortissement a été mis en place dans l’algorithme, il joue le rôle de modérateur et fait converger les valeurs rapidement. Le nombre d’itérations utilisé pour indexer le nombre impressionnant de pages Web existantes (quelques milliards) est d’environ 40.
Ce qui a été présenté jusque ici est la partie de l’algorithme du moteur de recherche. L’algorithme est la base du moteur de recherche Google mais depuis sa mise en fonctionnement en 1998 le moteur de recherche a subi des modifications. D’une part les robots d’indexation ont été améliorés (cf a-Le fonctionnement du moteur de recherche Google) et d’autre part des modifications ont été effectuées au niveau du PageRank afin que les notes données aux pages soient bien objectives et pertinentes.
En effet Google s’est intéressé de plus prés au contenu des pages et a mis en place un système pour évaluer si une page est bien en relation avec le texte du lien par lequel a est arrivé le robot d’indexation. Bien que Google ne dévoile rien sur les algorithmes utilisés sur de nombreux forums les administrateurs de sites parlent d’algorithme Hilltop et localrank.
De plus le PageRank veut se protéger des systèmes qui ont pour but de faire apparaître des pages dans le début des listes de réponse, et ceci en jouant avec l’algorithme PageRank. Pour se protéger de ses pages indésirables Google utiliserait des filtres identiques à ceux utilisés pour filtrer nos mails.
Le domaine des algorithmes des moteurs de recherche se montre divers et varié mais ce qui le caractérise le plus c’est l’évolution qu’il subit du fait de la forte demande des utilisateurs qui souhaitent trouver avec facilité, rapidité et fiabilité une réponse à leur requête. Dans le lot des moteurs de recherche Google a su se positionner dans les premiers dés son arrivée en 1998 avec son algorithme PageRank. Alors que sa place de numéro un est difficile à détrôner Google ne souhaite pas en rester là et, en plus des fonctionnalités de plus en plus nombreuses qu’il propose, renforce son algorithme afin de gagner en rapidité et en pertinence. Les caractéristiques présentées ci-dessus ne sont que des théories et, alors que les premiers moteurs de recherche sémantiques montrent le bout de leur nez certaines théories apparaissent désormais sur le fait que Google, lui aussi, se tournerait vers des outils sémantiques.
[1] GoogleBot : Robot d’indexation de Google
[2] Spider Bot : De l’anglais Robot araignée c’est un robot d’indexation qui parcourt les pages du Web telle une araignée du fait de la similitude de la structure d’Internet à une toile d’araignée.
[3] La barre d’outils de Google = Google Toolbar
[4] PageRank calculé selon une hypothèse d’utilisation d’une échelle logarithmique, cela dit très proche de la réalité.
