La sémantique au coeur de l`internet de demain
Transcription
La sémantique au coeur de l`internet de demain
Nn Netmarketing 2004 La sémantique au coeur de l'internet de demain outil de référencement, de KM et de pertinence pour les moteurs. Philippe YONNET Webmaster-hub.com Directeur du Département internet NM Netmarketing 2004 2/3 décembre 2004 Moteur de recherche sur la formation 1 webmaster-hub.com (Le HUB) Une communauté de passionnés d'internet • Forum créé par Dan Hetzel en août 2003 • 3600 membres, 56000 messages • Des outils, des publications, un annuaire Le point de rencontre de nombreux experts : - en en en en référencement et outils de recherche accessibilité et normes W3C programmation LAMP webmastering NM Netmarketing 2004 2/3 décembre 2004 2 STUDYRAMA et CURSUS Projet de moteur de recherche thématique sur les formations actuellement en version bêta NM Netmarketing 2004 2/3 décembre 2004 3 La sémantique dans l'internet de demain I : TOUR D'HORIZON 1. Quelques définitions et rappels (5) 2. L'autre sémantique : le “web sémantique” (3) 3. Pertinence des moteurs et apports de la sémantique (10) 4. Utiliser la sémantique dans le référencement (3) 5. Quelques exemples d'applications (10) Vos questions II : SEMANTIQUE ET LINGUISTIQUE DANS LA TECHNOLOGIE EXALEAD par François BOURDONCLE, PDG d'Exalead Vos questions NM Netmarketing 2004 2/3 décembre 2004 4 Définitions et rappels SEMANTIQUE La sémantique est la science qui étudie le "sens", la "signification" LINGUISTIQUE Au sens large, la linguistique est l’étude du langage humain SEMANTIQUE LINGUISTIQUE La sémantique linguistique est une "branche" de la sémantique qui étudie en particulier le sens des mots d’une langue. Il existe d’autres branches de la sémantique qui s’intéressent au sens des symboles par exemple. Les faux amis : SEMIOTIQUE et SEMIOLOGIE NM Netmarketing 2004 2/3 décembre 2004 5 Définitions et rappels LEXIQUE et LEXEMES Les lexèmes correspondent à ce que nous appelons "mots" dans le langage courant. L’ensemble des lexèmes forme le "lexique" d’une langue. DICTIONNAIRES Les dictionnaires, en linguistique informatique, sont des lexiques dans lesquels ont été ajoutés, pour chaque lexème, une "définition". THESAURUS Le thesaurus est une forme particulière de dictionnaire, dans lequel chaque mot du lexique est associé avec ses synonymes ou les mots ayant un sens proche. Des thesaurus plus évolués relient également les termes à des catégories, des classifications, des thématiques. NM Netmarketing 2004 2/3 décembre 2004 6 Définitions et rappels TAXONOMIES Les taxonomies sont des "classifications" de termes et de concepts. Cette classification permet de regrouper des unités à classer (les "taxons") dans des catégories, de manière hiérarchique. Il s’agit d’une forme très simplifiée d’ontologies, mais d’usage courant en linguistique pour ajouter de l’information à un lexique particulier (terminologies scientifiques ou jargons professionnel). La classification des espèces est une taxonomie NM Netmarketing 2004 2/3 décembre 2004 7 Définitions et rappels ONTOLOGIES Les ontologies sont des bases de données particulières, dont la structure permet de stocker à la fois des éléments (des termes, des entités, ou des concepts) et les relations entre ces éléments. Ex : CIRCA utilise onze types de relations différentes entre les concepts - synonymie (bateau/navire)/ antonymie (bien / mal) similarité (analogie : syntagme différent, même champ sémantique, connotations différentes) hyperonymie ("cheval" a une race "Arabe") appartenance ("l’équipier" appartient à une "équipe") métonymie (relation entre le tout et ses parties : la "maison" a un "toit") substance (le "parquet" est en "bois") production ("Microsoft Corporation" produit "Microsoft Access") attribut ("passé" et "futur" sont des attributs de "temps") causalité ("voyager" est la cause de "se déplacer") succession (il faut "payer" après avoir "acheté") liens connexes ("chien" et "collier" concepts proches mais non reliés par les autres relations) NM Netmarketing 2004 2/3 décembre 2004 8 Modélisation UML d'une ontologie ONTOLOGIES NM Netmarketing 2004 2/3 décembre 2004 9 L'autre sémantique : le “Web Sémantique” Un concept inventé par Tim Berners Lee A la base des langages web de demain ? Influence fortement le XHTML Souvent décrit comme une utopie... ... mais une utopie vers lequel tout nous dirige NM Netmarketing 2004 2/3 décembre 2004 10 L'autre sémantique : le “Web Sémantique” Resource Description Framework (RDF) {sujet,objet,prédicat} La page index a pour titre BNF et pour auteur Jean Gagnon Web Ontology Language (OWL) Langage de description d'ontologies “dialecte” XML basé sur une syntaxe RDF NM Netmarketing 2004 2/3 décembre 2004 11 L'autre sémantique : le “Web Sémantique” Web Ontology Language (OWL) Langage de description d'ontologies “dialecte” XML basé sur une syntaxe RDF NM Netmarketing 2004 2/3 décembre 2004 12 Pertinence et apports de la sémantique Rappel et précision NM Netmarketing 2004 2/3 décembre 2004 13 Pertinence et apports de la sémantique La recherche d'information bute sur des obstacles linguistiques et sémantiques Graphie : fautes d'orthographe et de frappe => recherche phonétique et correcteur orthographique Choix des stopwords : générateur d'erreurs => analyse syntaxique (grammaticale) Variantes morphologiques : orthographes multiples déclinaisons (conjugaisons) => stemming, ou lemmatisation après analyse syntaxique NM Netmarketing 2004 2/3 décembre 2004 14 Pertinence et apports de la sémantique La recherche d'information bute sur des obstacles linguistiques et sémantiques La polysémie : les mots ont plusieurs sens ! => analyse syntaxique (grammaticale) Les expressions composées => ontologies ou thesaurus travaillant sur des syntagmes. => Automate à états finis utilisant des n-grammes. Les synonymies => expansion de requête, à l'aide de thésaurus et/ou d'ontologies NM Netmarketing 2004 2/3 décembre 2004 15 Les algorithmes sémantiques et linguistiques Trois grandes familles d'algorithmes Modèle vectoriels Modèles probabilistes Plus expérimentaux Modèles logiques Modèles basés sur l'IA et algorithmes génétiques NM Netmarketing 2004 2/3 décembre 2004 16 Les algorithmes sémantiques et linguistiques MODELES VECTORIELS Repose sur les espaces vectoriels de Salton tf : term frequency idf : inverse document frequency tf*idf : mesure de fréquence pondérée Mesures de similarité utilisées : Dice, Jaccard, Cosinus, Coefficient de recouvrement (nombreuses variantes) NM Netmarketing 2004 2/3 décembre 2004 17 Les algorithmes sémantiques et linguistiques MODELES PROBABILISTES Déterminer la probabilité qu'un document soit pertinent sur une requête. - nécessite des calculs complexes - demande de disposer d'infos importantes sur la “pertinence” - mais dans la pratique donne souvent de meilleurs résultats que le modèle vectoriel - repose sur des bases théoriques plus solides que le modèle vectoriel Modèle utilisé par Applied Semantics (Google Adsense), combiné avec des calculs de similarité... NM Netmarketing 2004 2/3 décembre 2004 18 Les algorithmes sémantiques et linguistiques MODELES LOGIQUES Un document est jugé pertinent sur une requête si son contenu sémantique “implique” logiquement celle ci. => utilisation d'ontologies sophistiquées MODELES UTILISANT L'INTELLIGENCE ARTIFICIELLE programmes qu'il est possible d'”entrainer” et qui “apprenent” à résoudre les problèmes de désambiguation sémantique. Réseaux de neurones Algorithmes bayésiens Algorithmes génétiques NM Netmarketing 2004 2/3 décembre 2004 19 Utiliser la sémantique dans le référencement SEMANTIQUE, LINGUISTIQUE ET REFERENCEMENT NM Netmarketing 2004 2/3 décembre 2004 20 Utiliser la sémantique dans le référencement Choisir ses mots clés avec des outils sémantiques Les outils de suggestions de mots clés trouvent vite leurs limites -> outils “biaisés” -> outils limités (pas de résultats pour des requêtes rares) SOLUTION - Utiliser le moteur de recherche comme un corpus de texte - Tester les co-occurences de mots clés sur les pages de résultats pour trouver les termes voisins - Approche possible avec d'autres outils de mesures de similarité (Salton, Dice...) NM Netmarketing 2004 2/3 décembre 2004 21 Utiliser la sémantique dans le référencement Optimiser ses pages avec des outils sémantiques Les outils de mesure de densité de mots clé ne servent à rien... Le reverse engineering des moteurs* suppose plutôt des calculs de similarité, ou de co-occurrence. SOLUTION - aspirer les pages de ses concurrents sur les requêtes stratégiques - faire une analyse linguistique complète de leurs pages pour détecter leurs coefficients de similarité avec la requête, et comprendre pourquoi le moteur “préfère” certaines pages, toutes choses égales par ailleurs... CETTE METHODE PERMET UN REFERENCEMENT ORGANIQUE PLUS FIN *(interdit) NM Netmarketing 2004 2/3 décembre 2004 22 Utiliser la sémantique dans le référencement Optimiser ses pages avec des outils sémantiques Le “keyword stuffing” donne de mauvais résultats... Comment “renforcer” le “poids” d'une page sur un thème donné, et augmenter ses chances de sortir sur un grand nombre de requêtes autour de la thématique ? SOLUTION - bâtir un corpus de textes sur la thématique en “aspirant” les pages web sur le ce thème - utiliser ce corpus pour bâtir un thésaurus de manière automatique (en s'aidant éventuellement d'une ontologie et d'outils linguistiques) - s'aider du thésaurus pour renforcer la “sémantique” de la page, ou créer un groupe de pages sur la thématique LA GENERATION DE CONTENU AUTOMATIQUE EST POSSIBLE... NM Netmarketing 2004 2/3 décembre 2004 23 La sémantique dans l'internet de demain EXEMPLES D'APPLICATION NM Netmarketing 2004 2/3 décembre 2004 24 Exemples d'application : CLUSTERING VIVISIMO Le clustering est au programme Vivisimo. coeur du Vivisimo est un métamoteur qui regroupe les résultats d'autres moteurs de recherche en “clusters”. La version grand public de Vivisimo fonctionne grâce à une application de recherche client : “Clusty”. http://www.vivisimo.com NM Netmarketing 2004 2/3 décembre 2004 25 NM Netmarketing 2004 2/3 décembre 2004 26 Exemples d'application : CLUSTERING GROKKER NM Netmarketing 2004 2/3 décembre 2004 27 Exemples d'application : clustering (GROKKER) GROKKER NM Netmarketing 2004 2/3 décembre 2004 28 Exemples d'application : CLUSTERING Mapstan (technologie SINEQUA) NM Netmarketing 2004 2/3 décembre 2004 29 Exemples : Expansion de requête et clustering Mooter Requête : “jaguar” Présentation des clusters pour affiner ou étendrela requête NM Netmarketing 2004 2/3 décembre 2004 30 Exemples : Expansion de requête et clustering Mooter Requête : “jaguar” Résultat après clic sur “car” NM Netmarketing 2004 2/3 décembre 2004 31 Exemples : Expansion de requête et clustering Mooter Requête : “jaguar” Affichage des réponses NM Netmarketing 2004 2/3 décembre 2004 32 Exemples : ontologies, taxonomies, thésaurus, clustering TAP Ontologie et taxonomies développées à l'Université de Stanford NM Netmarketing 2004 2/3 décembre 2004 33 Exemples : ontologies, taxonomies, thésaurus, clustering TAP TAP est une application exploitant le Web Sémantique NM Netmarketing 2004 2/3 décembre 2004 34 Exemples : ontologies, taxonomies, thésaurus, clustering TAP TAP étend le champ d'application de la publicité contextuelle sur des moteurs comme Google NM Netmarketing 2004 2/3 décembre 2004 35 Exemples : ontologies et balisages sémantiques SEMTAG Outil de balisage sémantique de Webfountain (architecture d'OR d'IBM) NM Netmarketing 2004 2/3 décembre 2004 36 Exemples : extractions des entités nommées Webfountain (IBM) Noms propres Personne : Sam Palmisano -> PDG : Sam Palmisano Endroits : Brussels -> Ville : Brussels (Bruxelles) Brussels (Bruxelles) est en Belgique => Pays : Belgique La belgique est en Europe => Continent : Europe => Ce texte est pertinent comme réponse à la requête “PDG en Europe” NM Netmarketing 2004 2/3 décembre 2004 37 Exemples : extractions des entités nommées Webfountain (IBM) NM Netmarketing 2004 2/3 décembre 2004 38 L'intervenant Philippe YONNET Directeur du Département Internet de STUDYRAMA Chef de projet du moteur Cursus, le premier moteur de recherche sémantique sur la formation. Administrateur du forum Webmaster-Hub.com contact : [email protected] Retrouvez les articles de Philippe YONNET sur la sémantique et les moteurs de recherche sur le Hub : http://www.webmaster-hub.com/publication/rubrique20.html NM Netmarketing 2004 2/3 décembre 2004 39