La sémantique au coeur de l`internet de demain

Transcription

La sémantique au coeur de l`internet de demain
Nn Netmarketing 2004
La sémantique au coeur de
l'internet de demain
outil de référencement, de KM et de pertinence pour les moteurs.
Philippe YONNET
Webmaster-hub.com
Directeur du Département internet
NM Netmarketing 2004 2/3 décembre 2004
Moteur de recherche
sur la formation
1
webmaster-hub.com (Le HUB)
Une communauté de passionnés d'internet
• Forum créé par Dan Hetzel en août 2003
• 3600 membres, 56000 messages
• Des outils, des publications, un annuaire
Le point de rencontre de nombreux experts :
-
en
en
en
en
référencement et outils de recherche
accessibilité et normes W3C
programmation LAMP
webmastering
NM Netmarketing 2004 2/3 décembre 2004
2
STUDYRAMA et CURSUS
Projet de moteur de recherche
thématique
sur les formations
actuellement en version bêta
NM Netmarketing 2004 2/3 décembre 2004
3
La sémantique dans l'internet de demain
I : TOUR D'HORIZON
1. Quelques définitions et rappels (5)
2. L'autre sémantique : le “web sémantique” (3)
3. Pertinence des moteurs et apports de la sémantique (10)
4. Utiliser la sémantique dans le référencement (3)
5. Quelques exemples d'applications (10)
Vos questions
II : SEMANTIQUE ET LINGUISTIQUE DANS LA
TECHNOLOGIE EXALEAD
par François BOURDONCLE, PDG d'Exalead
Vos questions
NM Netmarketing 2004 2/3 décembre 2004
4
Définitions et rappels
SEMANTIQUE
La sémantique est la science
qui étudie le "sens", la "signification"
LINGUISTIQUE
Au sens large, la linguistique est l’étude du langage humain
SEMANTIQUE LINGUISTIQUE
La sémantique linguistique est une "branche" de la
sémantique qui étudie en particulier
le sens des mots d’une langue.
Il existe d’autres branches de la sémantique qui
s’intéressent au sens des symboles par exemple.
Les faux amis : SEMIOTIQUE et SEMIOLOGIE
NM Netmarketing 2004 2/3 décembre 2004
5
Définitions et rappels
LEXIQUE et LEXEMES
Les lexèmes correspondent à ce que nous appelons
"mots" dans le langage courant.
L’ensemble des lexèmes forme le "lexique" d’une langue.
DICTIONNAIRES
Les dictionnaires, en linguistique informatique, sont des
lexiques dans lesquels ont été ajoutés,
pour chaque lexème, une "définition".
THESAURUS
Le thesaurus est une forme particulière de dictionnaire,
dans lequel chaque mot du lexique est associé avec ses
synonymes ou les mots ayant un sens proche.
Des thesaurus plus évolués relient également les termes à
des catégories, des classifications, des thématiques.
NM Netmarketing 2004 2/3 décembre 2004
6
Définitions et rappels
TAXONOMIES
Les taxonomies sont des
"classifications" de termes et de
concepts. Cette classification
permet de regrouper des unités à
classer (les "taxons") dans des
catégories, de manière
hiérarchique.
Il s’agit d’une forme très simplifiée
d’ontologies, mais d’usage courant
en linguistique pour ajouter de
l’information à un lexique
particulier (terminologies
scientifiques ou jargons
professionnel).
La classification des espèces
est une taxonomie
NM Netmarketing 2004 2/3 décembre 2004
7
Définitions et rappels
ONTOLOGIES
Les ontologies sont des bases de données particulières, dont la
structure permet de stocker à la fois des éléments (des termes, des
entités, ou des concepts) et les relations entre ces éléments.
Ex : CIRCA utilise onze types de relations différentes entre les concepts
-
synonymie (bateau/navire)/ antonymie (bien / mal)
similarité (analogie : syntagme différent, même champ sémantique, connotations différentes)
hyperonymie ("cheval" a une race "Arabe")
appartenance ("l’équipier" appartient à une "équipe")
métonymie (relation entre le tout et ses parties : la "maison" a un "toit")
substance (le "parquet" est en "bois")
production ("Microsoft Corporation" produit "Microsoft Access")
attribut ("passé" et "futur" sont des attributs de "temps")
causalité ("voyager" est la cause de "se déplacer")
succession (il faut "payer" après avoir "acheté")
liens connexes ("chien" et "collier" concepts proches mais non reliés par les autres relations)
NM Netmarketing 2004 2/3 décembre 2004
8
Modélisation UML d'une ontologie
ONTOLOGIES
NM Netmarketing 2004 2/3 décembre 2004
9
L'autre sémantique : le “Web Sémantique”
Un concept inventé par Tim Berners Lee
A la base des langages web de
demain ?
Influence fortement le XHTML
Souvent décrit comme une utopie...
... mais une utopie vers lequel tout
nous dirige
NM Netmarketing 2004 2/3 décembre 2004
10
L'autre sémantique : le “Web Sémantique”
Resource Description Framework (RDF)
{sujet,objet,prédicat}
La page index a pour titre BNF
et pour auteur Jean Gagnon
Web Ontology Language (OWL)
Langage de description d'ontologies
“dialecte” XML basé sur une syntaxe RDF
NM Netmarketing 2004 2/3 décembre 2004
11
L'autre sémantique : le “Web Sémantique”
Web Ontology Language (OWL)
Langage de description d'ontologies
“dialecte” XML basé sur une syntaxe RDF
NM Netmarketing 2004 2/3 décembre 2004
12
Pertinence et apports de la sémantique
Rappel et précision
NM Netmarketing 2004 2/3 décembre 2004
13
Pertinence et apports de la sémantique
La recherche d'information bute sur des obstacles
linguistiques et sémantiques

Graphie : fautes d'orthographe et de frappe
=> recherche phonétique et correcteur
orthographique

Choix des stopwords : générateur d'erreurs
=> analyse syntaxique (grammaticale)

Variantes morphologiques :

orthographes multiples

déclinaisons (conjugaisons)
=> stemming, ou lemmatisation après analyse
syntaxique
NM Netmarketing 2004 2/3 décembre 2004
14
Pertinence et apports de la sémantique
La recherche d'information bute sur des obstacles
linguistiques et sémantiques

La polysémie : les mots ont plusieurs sens !
=> analyse syntaxique (grammaticale)

Les expressions composées
=> ontologies ou thesaurus travaillant sur des
syntagmes.
=> Automate à états finis utilisant des n-grammes.

Les synonymies
=> expansion de requête, à l'aide de thésaurus et/ou
d'ontologies
NM Netmarketing 2004 2/3 décembre 2004
15
Les algorithmes sémantiques et linguistiques
Trois grandes familles d'algorithmes
Modèle vectoriels
Modèles probabilistes
Plus expérimentaux
Modèles logiques
Modèles basés sur l'IA et algorithmes génétiques
NM Netmarketing 2004 2/3 décembre 2004
16
Les algorithmes sémantiques et linguistiques
MODELES VECTORIELS
Repose sur les espaces vectoriels de Salton
tf : term frequency
idf : inverse document frequency
tf*idf : mesure de fréquence pondérée
Mesures de similarité utilisées :
Dice, Jaccard, Cosinus, Coefficient de
recouvrement
(nombreuses variantes)
NM Netmarketing 2004 2/3 décembre 2004
17
Les algorithmes sémantiques et linguistiques
MODELES PROBABILISTES
Déterminer la probabilité qu'un document soit
pertinent sur une requête.
- nécessite des calculs complexes
- demande de disposer d'infos importantes sur la “pertinence”
- mais dans la pratique donne souvent de meilleurs résultats
que le modèle vectoriel
- repose sur des bases théoriques plus solides que le modèle
vectoriel
Modèle utilisé par Applied Semantics (Google Adsense),
combiné avec des calculs de similarité...
NM Netmarketing 2004 2/3 décembre 2004
18
Les algorithmes sémantiques et linguistiques
MODELES LOGIQUES
Un document est jugé pertinent sur une requête si
son contenu sémantique “implique” logiquement
celle ci.
=> utilisation d'ontologies sophistiquées
MODELES UTILISANT L'INTELLIGENCE ARTIFICIELLE
programmes qu'il est possible d'”entrainer” et qui “apprenent”
à résoudre les problèmes de désambiguation sémantique.
Réseaux de neurones

Algorithmes bayésiens

Algorithmes génétiques

NM Netmarketing 2004 2/3 décembre 2004
19
Utiliser la sémantique dans le référencement
SEMANTIQUE, LINGUISTIQUE
ET
REFERENCEMENT
NM Netmarketing 2004 2/3 décembre 2004
20
Utiliser la sémantique dans le référencement
Choisir ses mots clés avec des outils sémantiques
Les outils de suggestions de mots clés trouvent vite leurs
limites
-> outils “biaisés”
-> outils limités (pas de résultats pour des requêtes rares)
SOLUTION
- Utiliser le moteur de recherche comme un corpus de texte
- Tester les co-occurences de mots clés sur les pages de résultats pour trouver les
termes voisins
- Approche possible avec d'autres outils de mesures de similarité (Salton, Dice...)
NM Netmarketing 2004 2/3 décembre 2004
21
Utiliser la sémantique dans le référencement
Optimiser ses pages avec des outils sémantiques
Les outils de mesure de densité de mots clé ne servent à
rien...
Le reverse engineering des moteurs* suppose plutôt des
calculs de similarité, ou de co-occurrence.
SOLUTION
- aspirer les pages de ses concurrents sur les requêtes stratégiques
- faire une analyse linguistique complète de leurs pages pour détecter leurs
coefficients de similarité avec la requête, et comprendre pourquoi le moteur “préfère”
certaines pages, toutes choses égales par ailleurs...
CETTE METHODE PERMET UN REFERENCEMENT ORGANIQUE PLUS FIN
*(interdit)
NM Netmarketing 2004 2/3 décembre 2004
22
Utiliser la sémantique dans le référencement
Optimiser ses pages avec des outils sémantiques
Le “keyword stuffing” donne de mauvais résultats...
Comment “renforcer” le “poids” d'une page sur un thème
donné, et augmenter ses chances de sortir sur un grand
nombre de requêtes autour de la thématique ?
SOLUTION
- bâtir un corpus de textes sur la thématique en “aspirant” les pages web sur le ce
thème
- utiliser ce corpus pour bâtir un thésaurus de manière automatique (en s'aidant
éventuellement d'une ontologie et d'outils linguistiques)
- s'aider du thésaurus pour renforcer la “sémantique” de la page, ou créer un groupe
de pages sur la thématique
LA GENERATION DE CONTENU AUTOMATIQUE EST POSSIBLE...
NM Netmarketing 2004 2/3 décembre 2004
23
La sémantique dans l'internet de demain
EXEMPLES
D'APPLICATION
NM Netmarketing 2004 2/3 décembre 2004
24
Exemples d'application : CLUSTERING
VIVISIMO
Le clustering est au
programme Vivisimo.
coeur
du
Vivisimo est un métamoteur qui
regroupe
les
résultats
d'autres
moteurs de recherche en “clusters”.
La version grand public de Vivisimo
fonctionne grâce à une application de
recherche client : “Clusty”.
http://www.vivisimo.com
NM Netmarketing 2004 2/3 décembre 2004
25
NM Netmarketing 2004 2/3 décembre 2004
26
Exemples d'application : CLUSTERING
GROKKER
NM Netmarketing 2004 2/3 décembre 2004
27
Exemples d'application : clustering (GROKKER)
GROKKER
NM Netmarketing 2004 2/3 décembre 2004
28
Exemples d'application : CLUSTERING
Mapstan (technologie SINEQUA)
NM Netmarketing 2004 2/3 décembre 2004
29
Exemples : Expansion de requête et clustering
Mooter
Requête : “jaguar”
Présentation des clusters pour affiner
ou étendrela requête
NM Netmarketing 2004 2/3 décembre 2004
30
Exemples : Expansion de requête et clustering
Mooter
Requête : “jaguar”
Résultat après clic sur “car”
NM Netmarketing 2004 2/3 décembre 2004
31
Exemples : Expansion de requête et clustering
Mooter
Requête : “jaguar”
Affichage des réponses
NM Netmarketing 2004 2/3 décembre 2004
32
Exemples : ontologies, taxonomies, thésaurus, clustering
TAP
Ontologie et taxonomies
développées
à l'Université de Stanford
NM Netmarketing 2004 2/3 décembre 2004
33
Exemples : ontologies, taxonomies, thésaurus, clustering
TAP
TAP est une application exploitant le Web Sémantique
NM Netmarketing 2004 2/3 décembre 2004
34
Exemples : ontologies, taxonomies, thésaurus, clustering
TAP
TAP étend
le champ
d'application
de la publicité
contextuelle
sur des moteurs
comme Google
NM Netmarketing 2004 2/3 décembre 2004
35
Exemples : ontologies et balisages sémantiques
SEMTAG
Outil de balisage sémantique de Webfountain
(architecture d'OR d'IBM)
NM Netmarketing 2004 2/3 décembre 2004
36
Exemples : extractions des entités nommées
Webfountain (IBM)
Noms propres
Personne : Sam Palmisano
-> PDG : Sam Palmisano
Endroits : Brussels
-> Ville : Brussels (Bruxelles)
Brussels (Bruxelles) est en Belgique
=> Pays : Belgique
La belgique est en Europe
=> Continent : Europe
=> Ce texte est pertinent comme réponse à la requête
“PDG en Europe”
NM Netmarketing 2004 2/3 décembre 2004
37
Exemples : extractions des entités nommées
Webfountain (IBM)
NM Netmarketing 2004 2/3 décembre 2004
38
L'intervenant
Philippe YONNET
Directeur du Département Internet de STUDYRAMA
Chef de projet du moteur Cursus,
le premier moteur de recherche sémantique
sur la formation.
Administrateur du forum Webmaster-Hub.com
contact : [email protected]
Retrouvez les articles
de Philippe YONNET
sur la sémantique et les moteurs de recherche sur le Hub :
http://www.webmaster-hub.com/publication/rubrique20.html
NM Netmarketing 2004 2/3 décembre 2004
39