Les cartes topologiques auto-organisatrices SOM pour la
Transcription
Les cartes topologiques auto-organisatrices SOM pour la
Les cartes topologiques auto-organisatrices SOM pour la construction d'ontologies à partir de documents textuels. Nourredine Aliane {[email protected]} sous la direction de: Gilles Bernard Laboratoire d'Informatique Avancée de Saint-Denis UFR Informatique Université Paris 8 Vincennes Saint-Denis Résumé : La production et l'exploitation de la masse importante de données de type textuel disponible sur internet nécessite le développement de nouveaux systèmes de gestion spécifiques pour la gestion de cette information. Vu la forte croissance de documents textuels sur les plate formes des sites internet, elle rend, de plus en plus difficile, la recherche d'une information précise. Ceci complique par conséquent l'exploitation des documents par l'utilisateur. Pour rechercher une information sur une plate-forme, nous pouvons utiliser plusieurs types de moteurs de recherche. Mais les résultats obtenus sont le plupart du temps affichés sous forme de grande liste. Nous sommes obligé à parcourir toute la liste pour vérifier si un des résultats correspond à notre recherche. Au contraire, si on veut faciliter l'exploitation de ces documents, il est nécessaire de les organiser et les regrouper dans des catégories étiquetées. Le processus de construction d'ontologies à partir de documents textuels devient donc une tâche essentielle. Pour une recherches internet rationnelle. Mon projet de thèse consiste à concevoir et développer un système d’extraction des ontologies à partir d'une plate forme de documents textuels. En se basant sur deux méthodes complémentaires : 1) Une méthode de représentation statistique de documents textuels. Il s'agit de représenter chaque document par un vecteur de valeurs. Dont les composantes décrivent le mieux possible le contenu de ce document. 2) Une méthode de classification automatique. Je vais utiliser un réseau de neurones de type cartes topologiques auto-organisatrices SOM. La notion de voisinage du SOM et sa carte topologique. Ils ont permis à développer des outils puissants. Pour la classification et la visualisation des données. Comme on sait, les ontologies servent essentiellement à structurer des connaissances déjà existantes dans des documents textuels, nous pourrons ultérieurement ainsi les réutiliser ou nous en servir pour générer ou extraire d'autres connaissances. Les cartes topologiques ou auto-organisatrices SOM (Self Organizing Maps), font partie d’une grande famille de réseaux de neurones artificiels. Elles ont été introduites pour la première fois par Teuvo Kohonen en 1982. Elles reposent sur un algorithme d’apprentissage compétitif non supervisé nommé l’algorithme de Kohonen. L’algorithme de Kohonen est un algorithme de classification, il regroupe des classes de données similaires au sens d'une métrique, le plus souvent euclidienne, sur des amas d'unités dans des cartes topologiques auto-organisatrices. L’algorithme de Kohonen est par conséquent une simple généralisation de l’algorithme d’apprentissage compétitif, en y ajoutant la notion de voisinage entre les neurones. Avant de lancer le processus de regroupement, il faudra déterminer une méthode qui représente les documents textuels. Cependant, il existe plusieurs méthodes pour ce faire. Il y a des méthodes terminologiques, basées sur des connaissances préalables dans la langue naturelle dans laquelle les documents textuels sont écrits. On considérera également des méthodes non terminologiques, dites statistiques. Elles produisent généralement des vecteurs à valeurs, avec une dimension raisonnable. Il est facile de les automatiser sans avoir recours à des experts linguistiques. Une fois la représentation de documents terminée, nous aurons des vecteurs à présenter aux entrées de la carte topologique auto-organisatrices de Kohonen SOM. Nous avons choisi SOM pour la tâche de regroupement, pour sa puissance et sa capacité à traiter un grand nombre de documents. En plus, SOM représente les catégories de documents sur sa carte topologique. Ce qui facilitera la visualisation des résultats. Mots-clés : Ontologie, Fouille de textes, SOM, Classification