Relations sémantiques à partir de contributions d`usagers

Transcription

Relations sémantiques à partir de contributions d`usagers
IFT6282 - Web Sémantique
Relations sémantiques extraites
des contributions d’usagers
Marc-Antoine Sayn-Urpar
L’article présenté
“Mining various semantic relationships from
unstructured user-generated web data“
Journal of Web Semantics 2015
2
Introduction
- Émergence du Web 2.0
- Augmentation des données générées par les utilisateurs sur le Web
- Plusieurs solutions pour extraire des informations utiles de ces données
- Structurer ces données → Construction de relations sémantiques
-
Hiérarchiques
Non hiérarchiques
3
Contribuer à l’ajout de nouvelles connaissances
- Web → Plus grande source de savoir
- Web : Ouvert, libre d’accès, tout le monde peut participer
- Données ajoutées : Redondantes, dispersées ou complémentaires
→ L’organisation de ces données est cruciale!
4
Wikipedia
- Encyclopédie créée et mise à jour par ses utilisateurs
- Le contenu des articles est structuré grâce à un schéma prédéfini de
métadonnées (auteur, type de l’article, résumé de l’article,...)
- Recherches en fonction de mots clés contenu dans ces métadonnées
- D’autres informations sont intéressantes mais non conservées: Liaisons avec
d’autres sujets, actualités, événements,...
- Ces informations déstructurées se trouvent dans :
-
Les historiques de recherches
Les recommandations de pages web par les utilisateurs
5
Données collaboratives issues de Wikipedia (En)
- Des bases de données recensent le contenu structuré de Wikipedia
-
→ Utilise différents templates d’attributs
-
→ Harmonise les données avec WordNet, dispose de plusieurs types
(TYPE, SUBCLASSOF, MEANS, OTHERS, META)
→ Mais la majorité des données de Wikipedia sont non structurées!
6
Extraction de relations sémantiques à partir de
données non structurées
Contrairement à la majorité des articles trouvés sur le Web, Wikipedia
facilite cette extraction grâce à deux particularités :
1. Les phrases possèdent un haut niveau grammatical
2. Il ne peut y avoir qu’un seul article par concept
Plusieurs algorithmes d’extraction sont présentés dans cet article
7
Exemple d’algorithme d’extraction
- Associe chaque entité de Wikipedia à un synset (synonym set) sur WordNet
- Une relation est créée si WordNet confirme la correspondance, et un champ
lexical est généré
- Puis, tous les champs lexicaux sont comparés pour former des schémas
- Ces schémas détectent de nouvelles relations sémantiques sur Wikipedia
Résultat : 1200 nouvelles relations extraites avec 65% de précision
8
Pour aller plus loin dans l’extraction de relations
- Ne pas seulement se restreindre aux données structurées et non structurées
- Prendre en compte les intentions des utilisateurs
-
Intentions de navigation : L’utilisateur recherche une page en particulier
→ Généralement suivies par moins de deux clics sur des liens (URLs)
-
Intentions d’information : L’utilisateur recherche plusieurs bribes d’informations
→ Généralement suivies par plusieurs clics sur des liens (URLs)
On peut donc extraire de nouvelles relations pour compléter les ontologies
existantes!
9
Données utilisées pour extraire de nouvelles
relations
- Historiques de recherche
-
Succession d'interactions entre utilisateur et serveur
Utilisation de mots clés sur un moteur de recherches
Sélection de pages web par l’utilisateur
- Open Directory Project (ODP)
-
Annuaire regroupant des sites web par catégories
-
Annotations et recommandations de pages web par les utilisateurs
→ Classes et catégories sur ODP
10
Séparation des mots clés en sets
7 types de fonctions de séparations :
-
Contain Function
Combine Word Sequencies Function
Remove Words Function
Strip Words Functipn
N-Gram Function
Abbreviation Function
Splyt-by-Of Function
1 set → 1 nouveau concept
Tous les sets reliés → Concept d’origine
11
Les concepts candidats
- Correspondance avec des concepts existants
- Correspondance avec des dictionnaires (noms)
- “Crowd wisdom” → On retient des concepts souvent demandés
“star wars lightsaber” retenu par rapport à “star wars light saber” (plus rare)
- Le mot clé “of” → concept_1 “of” concept_2
12
Déduction de relations sémantiques
Il y a deux enjeux :
- Identifier les relations entre les concepts extraits
- Nommer ces relations
-
Relations hiérarchiques (plant has subclass tree, tree is a plant)
-
Relations non hiérarchiques
-
Synonymes : is equal to, has meaning
-
Corrélations : has website, has data about
13
Expérimentation
- Dataset : Historique de recherches MSN (Mai 2006, 15 millions de requêtes)
- Machine de test : Intel Core i7 4770 processor and 14 GB RAM
- Application de l’algorithme Semantic Context Relationships (SCR)
- Comparaison des résultats obtenus avec l’algorithme Query Log Graphs (QLG)
→ Algorithme uniquement basé sur des données non structurés, avec utilisation de graphes
- Validation des relations par Amazon Mechanical Turk (134 évaluateurs)
14
Résultats obtenus
Validation : Amazon Mechanical Turk (134 évaluateurs, chaque relation évaluée 3 fois)
→ 2534 relations validées sur un échantillon de 3375
→ Précision SCR : 75%
15
Conclusion
- Augmentation des données sur le Web
- Pour trouver des informations efficacement, il est nécessaire de les structurer
- Il existe des algorithmes d’extraction de nouvelles relations sémantiques
- On peut utiliser les intentions des utilisateurs pour créer ces relations
- Dans l’avenir, utilisation des réseaux sociaux
16
Merci
pour votre attention