Relations sémantiques à partir de contributions d`usagers
Transcription
Relations sémantiques à partir de contributions d`usagers
IFT6282 - Web Sémantique Relations sémantiques extraites des contributions d’usagers Marc-Antoine Sayn-Urpar L’article présenté “Mining various semantic relationships from unstructured user-generated web data“ Journal of Web Semantics 2015 2 Introduction - Émergence du Web 2.0 - Augmentation des données générées par les utilisateurs sur le Web - Plusieurs solutions pour extraire des informations utiles de ces données - Structurer ces données → Construction de relations sémantiques - Hiérarchiques Non hiérarchiques 3 Contribuer à l’ajout de nouvelles connaissances - Web → Plus grande source de savoir - Web : Ouvert, libre d’accès, tout le monde peut participer - Données ajoutées : Redondantes, dispersées ou complémentaires → L’organisation de ces données est cruciale! 4 Wikipedia - Encyclopédie créée et mise à jour par ses utilisateurs - Le contenu des articles est structuré grâce à un schéma prédéfini de métadonnées (auteur, type de l’article, résumé de l’article,...) - Recherches en fonction de mots clés contenu dans ces métadonnées - D’autres informations sont intéressantes mais non conservées: Liaisons avec d’autres sujets, actualités, événements,... - Ces informations déstructurées se trouvent dans : - Les historiques de recherches Les recommandations de pages web par les utilisateurs 5 Données collaboratives issues de Wikipedia (En) - Des bases de données recensent le contenu structuré de Wikipedia - → Utilise différents templates d’attributs - → Harmonise les données avec WordNet, dispose de plusieurs types (TYPE, SUBCLASSOF, MEANS, OTHERS, META) → Mais la majorité des données de Wikipedia sont non structurées! 6 Extraction de relations sémantiques à partir de données non structurées Contrairement à la majorité des articles trouvés sur le Web, Wikipedia facilite cette extraction grâce à deux particularités : 1. Les phrases possèdent un haut niveau grammatical 2. Il ne peut y avoir qu’un seul article par concept Plusieurs algorithmes d’extraction sont présentés dans cet article 7 Exemple d’algorithme d’extraction - Associe chaque entité de Wikipedia à un synset (synonym set) sur WordNet - Une relation est créée si WordNet confirme la correspondance, et un champ lexical est généré - Puis, tous les champs lexicaux sont comparés pour former des schémas - Ces schémas détectent de nouvelles relations sémantiques sur Wikipedia Résultat : 1200 nouvelles relations extraites avec 65% de précision 8 Pour aller plus loin dans l’extraction de relations - Ne pas seulement se restreindre aux données structurées et non structurées - Prendre en compte les intentions des utilisateurs - Intentions de navigation : L’utilisateur recherche une page en particulier → Généralement suivies par moins de deux clics sur des liens (URLs) - Intentions d’information : L’utilisateur recherche plusieurs bribes d’informations → Généralement suivies par plusieurs clics sur des liens (URLs) On peut donc extraire de nouvelles relations pour compléter les ontologies existantes! 9 Données utilisées pour extraire de nouvelles relations - Historiques de recherche - Succession d'interactions entre utilisateur et serveur Utilisation de mots clés sur un moteur de recherches Sélection de pages web par l’utilisateur - Open Directory Project (ODP) - Annuaire regroupant des sites web par catégories - Annotations et recommandations de pages web par les utilisateurs → Classes et catégories sur ODP 10 Séparation des mots clés en sets 7 types de fonctions de séparations : - Contain Function Combine Word Sequencies Function Remove Words Function Strip Words Functipn N-Gram Function Abbreviation Function Splyt-by-Of Function 1 set → 1 nouveau concept Tous les sets reliés → Concept d’origine 11 Les concepts candidats - Correspondance avec des concepts existants - Correspondance avec des dictionnaires (noms) - “Crowd wisdom” → On retient des concepts souvent demandés “star wars lightsaber” retenu par rapport à “star wars light saber” (plus rare) - Le mot clé “of” → concept_1 “of” concept_2 12 Déduction de relations sémantiques Il y a deux enjeux : - Identifier les relations entre les concepts extraits - Nommer ces relations - Relations hiérarchiques (plant has subclass tree, tree is a plant) - Relations non hiérarchiques - Synonymes : is equal to, has meaning - Corrélations : has website, has data about 13 Expérimentation - Dataset : Historique de recherches MSN (Mai 2006, 15 millions de requêtes) - Machine de test : Intel Core i7 4770 processor and 14 GB RAM - Application de l’algorithme Semantic Context Relationships (SCR) - Comparaison des résultats obtenus avec l’algorithme Query Log Graphs (QLG) → Algorithme uniquement basé sur des données non structurés, avec utilisation de graphes - Validation des relations par Amazon Mechanical Turk (134 évaluateurs) 14 Résultats obtenus Validation : Amazon Mechanical Turk (134 évaluateurs, chaque relation évaluée 3 fois) → 2534 relations validées sur un échantillon de 3375 → Précision SCR : 75% 15 Conclusion - Augmentation des données sur le Web - Pour trouver des informations efficacement, il est nécessaire de les structurer - Il existe des algorithmes d’extraction de nouvelles relations sémantiques - On peut utiliser les intentions des utilisateurs pour créer ces relations - Dans l’avenir, utilisation des réseaux sociaux 16 Merci pour votre attention