Les cartes topologiques auto-organisatrices SOM pour la

Transcription

Les cartes topologiques auto-organisatrices SOM pour la
Les cartes topologiques auto-organisatrices SOM
pour la construction d'ontologies à partir de documents textuels.
Nourredine Aliane
{[email protected]}
sous la direction de:
Gilles Bernard
Laboratoire d'Informatique Avancée de Saint-Denis
UFR Informatique
Université Paris 8 Vincennes Saint-Denis
Résumé :
La production et l'exploitation de la masse importante de données de type textuel disponible
sur internet nécessite le développement de nouveaux systèmes de gestion spécifiques pour la
gestion de cette information.
Vu la forte croissance de documents textuels sur les plate formes des sites internet, elle rend, de plus
en plus difficile, la recherche d'une information précise. Ceci complique par conséquent
l'exploitation des documents par l'utilisateur.
Pour rechercher une information sur une plate-forme, nous pouvons utiliser plusieurs types de
moteurs de recherche. Mais les résultats obtenus sont le plupart du temps affichés sous forme de
grande liste. Nous sommes obligé à parcourir toute la liste pour vérifier si un des résultats
correspond à notre recherche.
Au contraire, si on veut faciliter l'exploitation de ces documents, il est nécessaire de les organiser et
les regrouper dans des catégories étiquetées. Le processus de construction d'ontologies à partir de
documents textuels devient donc une tâche essentielle. Pour une recherches internet rationnelle.
Mon projet de thèse consiste à concevoir et développer un système d’extraction des ontologies à
partir d'une plate forme de documents textuels. En se basant sur deux méthodes complémentaires :
1) Une méthode de représentation statistique de documents textuels. Il s'agit de représenter
chaque document par un vecteur de valeurs. Dont les composantes décrivent le mieux possible
le contenu de ce document.
2) Une méthode de classification automatique. Je vais utiliser un réseau de neurones de type
cartes topologiques auto-organisatrices SOM. La notion de voisinage du SOM et sa carte
topologique. Ils ont permis à développer des outils puissants. Pour la classification et la
visualisation des données.
Comme on sait, les ontologies servent essentiellement à structurer des connaissances déjà existantes
dans des documents textuels, nous pourrons ultérieurement ainsi les réutiliser ou nous en servir pour
générer ou extraire d'autres connaissances.
Les cartes topologiques ou auto-organisatrices SOM (Self Organizing Maps), font partie d’une
grande famille de réseaux de neurones artificiels. Elles ont été introduites pour la première fois par
Teuvo Kohonen en 1982. Elles reposent sur un algorithme d’apprentissage compétitif non supervisé
nommé l’algorithme de Kohonen.
L’algorithme de Kohonen est un algorithme de classification, il regroupe des classes de données
similaires au sens d'une métrique, le plus souvent euclidienne, sur des amas d'unités dans des cartes
topologiques auto-organisatrices. L’algorithme de Kohonen est par conséquent une simple
généralisation de l’algorithme d’apprentissage compétitif, en y ajoutant la notion de voisinage entre
les neurones.
Avant de lancer le processus de regroupement, il faudra déterminer une méthode qui représente les
documents textuels. Cependant, il existe plusieurs méthodes pour ce faire. Il y a des méthodes
terminologiques, basées sur des connaissances préalables dans la langue naturelle dans laquelle les
documents textuels sont écrits. On considérera également des méthodes non terminologiques, dites
statistiques. Elles produisent généralement des vecteurs à valeurs, avec une dimension raisonnable.
Il est facile de les automatiser sans avoir recours à des experts linguistiques.
Une fois la représentation de documents terminée, nous aurons des vecteurs à présenter aux entrées
de la carte topologique auto-organisatrices de Kohonen SOM. Nous avons choisi SOM pour la
tâche de regroupement, pour sa puissance et sa capacité à traiter un grand nombre de documents. En
plus, SOM représente les catégories de documents sur sa carte topologique. Ce qui facilitera la
visualisation des résultats.
Mots-clés : Ontologie, Fouille de textes, SOM, Classification