Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Les algorithmes des moteurs de recherche
Les algorithmes des moteurs de recherche
  • Ce blog décrit les différents algorithmes des moteurs de recherche avec notamment, HIT, PHIT, le pageRank de google et les différents outils qui vont utiliser les fonctions lexicales et le web sémantique
  • Accueil du blog
  • Créer un blog avec CanalBlog
Publicité
Archives
14 avril 2006

III - 2 - Les fonctions lexicales

L’étude des fonctions lexicales existe dans le domaine informatique dans le domaine du traitement automatique du langage naturel (TALN). C’est un domaine de recherche d’actualité depuis quelques années, en effet des applications informatiques récentes telles que dictionnaires de synonyme, traducteurs multilingues mais aussi les moteurs de recherche ont un réel besoin d’automatisation. Les utilisateurs sont de plus en plus exigeants sur la qualité attendue dans les nouvelles technologies de l’information.

Les fonctions lexicales sont utilisées dans le traitement d’un texte afin de désambiguïser le contenu du texte, c'est-à-dire trouver le sens de chaque mot. Dans toutes les langues chaque mot du dictionnaire peut avoir un ou plusieurs sens, la moyenne dans la langue française est d’environ 5 sens par mot, ces mots sont dits polysémiques.

Voici des exemples de fonctions lexicales :

*      la synonymie,

*      l’antonymie,

*      l’hyperonymie,

*      l’hyponymie.

            

Dans les moteurs de recherche les fonctions lexicales peuvent être utilisées à deux étapes très importantes que sont :

*      L’indexation des pages, le moteur d’indexation doit être capable de classer les pages par domaine même si au sein d’un même domaine les mots utilisés sont différents. En utilisant la synonymie, l’hyperonymie ou l’hyponymie le moteur va être capable de reconnaître le sens de chaque mot polysème, l’indexation ainsi réalisée facilitera l’étape suivante.

*      La réponse à une requête, ou plutôt la recherche d’informations similaires à al requête dans l’index du moteur de recherche. Tout comme pour l’étape d’indexation les fonctions lexicales vont donner des informations supplémentaires sur le sens recherché.

Google numéro un des moteurs de recherche ne peut pas passer à coté de ces nouvelles technologies de l’information. Encore une fois aucune information n’a été dévoilée mais depuis deux ans certains parlent déjà de l’algorithme PageRank sensible au contexte (de l’anglais topic sensitive PageRank).

a.      Le PageRank sensible au contexte

1)       Le constat

Le besoin pour Google de s’intéresser à la thématique d’une page découle d’un constat simple : Le PageRank classe par ordre d’importance des pages dont le contenu est identique mais il ne distingue pas de différence entre 2 mots identiques mais utilisés avec un sens différent. Ainsi des pages qui traitent de la voiture de marque Jaguar seront indexées avec des pages qui parlent des jaguars, animaux d’Afrique. L’ambiguïté existe pour de nombreux mots et ceci pour toutes les langues.

2)       Les PageRank thématiques

Pour désambiguïser ses index Google décide de doter son PageRank de thématiques de départ et de suivre par le biais des robots d’indexation les liens de s pages en restant dans un même domaine. Le résultat est un vecteur de PageRank général et 16 vecteurs de PageRank spécialisés dans un certain domaine. Chaque page possède désormais 17 PageRank au lieu d’un. La difficulté demeure ensuite dans la clarté et le décryptage de la requête. Si la requête est assez complète et possède des mots qui, mis ensemble, donnent un sens à la requête alors il sera facile au moteur de recherche de retrouver dans son index les pages correspondantes. Par contre si la requête est vague, l’index a beau être classé par thématique il est difficile de savoir quel sens donné à un mot seul. En reprenant l’exemple du jaguar on sait que l’index peut séparer les polysèmes et donc on aura une partie des pages indexées qui seront dans l’automobile et l’autre partie dans les animaux, mais si la requête comporte le seul mot « jaguar », aucune précision ne guide le moteur pour savoir quelle thématique donner en réponse.

3)       Une thématique pour chaque utilisateur

Les PageRank thématiques représentent une belle avancée dans la recherche de la pertinence mais Google, qui utilise déjà des robots localisés sur le PC de chaque utilisateur peut très bien utiliser des informations relatives à l’utilisateur et ses habitudes afin de mieux répondre à ses attentes.

Le moteur de recherche, en cas d’ambiguïté peut donc s’aider du contexte des recherches effectuées auparavant (répertoriées dans un historique) ou tout simplement des favoris ou de l’historique des pages Web visités par l’utilisateur. De plus l’utilisateur peut lui-même créer un profil dans lequel il renseigne ses centres d’intérêt qui pourront très certainement aider le moteur de recherche pour répondre à des requêtes.

*      Ces outils paraissent très utiles et très robuste face aux problèmes rencontrés dans la désambiguïsation d’une requête mais elle se heurte à la protection des données de l’utilisateur. Certains soupçonnent déjà Google d’utiliser ce genre de robots sans en exploiter les informations récupérées, mais ceci sans l’accord préalable de l’internaute qui installe la barre d’outils Google ou l’utilitaire de bureau Google (Google Desktop[1]).


[1] Google Desktop : Utilitaire installé en local sur le PC de l’utilisateur qui indexe tous les fichiers des disques dur et qui accélèrent donc la recherche pour l’utilisateur : résultat de recherche présenté sur une page Google.

Publicité
Publicité
Commentaires
Publicité