Ingénieur de Recherche en Traitement Automatique des Langues

Transcription

Ingénieur de Recherche en Traitement Automatique des Langues
Anthony Sigogne
Nationalité : Française
Titulaire du permis B
25 ans
4 bis cours du buisson
77186 Noisiel
Tel : 06.49.82.69.26
[email protected]
Objectif : Ingénieur de Recherche en Traitement Automatique des Langues
Formation et diplômes
Oct 2009 – Nov 2012
Doctorat en Informatique
Spécialité Traitement Automatique des Langues
Université Paris-Est Marne-la-Vallée (77)
Sept 2007 - Sept 2009
Master Informatique
Mention Bien
Université Paris-Est Marne-la-Vallée (77)
Sept 2004 - Sept 2007
Licence Mathématiques et Informatique
Mention Assez Bien
Université Paris-Est Marne-la-Vallée (77)
Juin 2004
Baccalauréat général scientifique
Spécialité Sciences de l’Ingénieur
Mention Assez Bien
Lycée Gustave Eiffel de Gagny (93)
Expériences professionnelles
Oct 2009 – Oct 2012
Enseignant
Université Paris-Est Marne-la-Vallée (77)
TD/TP/Cours d'Ingénierie linguistique et d'Informatique (Structures de données,
Programmation C, HTML, Système).
Avr 2009 – Sept 2009
Chercheur (Stage de Master 2)
Université Paris-Est Marne-la-Vallée (77)
Expériences sur la levée d'ambiguités dans le cadre du processus d'étiquetage
morpho-syntaxique : utilisation d'une méthode hybride combinant une approche
symbolique à base de grammaires construites manuellement et une approche
statistique basée sur un modèle probabiliste.
Nov 2008 – Avr 2009
Développeur
Xeres, Issy-les-Moulineaux (92)
Création d'un plugin Thunderbird en JavaScript/XUL permettant de filtrer les emails
non pertinents grâce à des requêtes paramétrées.
Avr 2008 – Sept 2008
Chercheur (Stage de Master 1)
Xeres, Issy-les-Moulineaux (92)
Création d'un outil pour la veille internet permettant de classer automatiquement les
documents web de l'actualité en fonction du sujet principal de ces documents. Des
connaissances linguistiques et statistiques ont été combinées afin d'améliorer les
performances du système pour un usage intensif.
Compétences
Traitement des Langues
Analyse syntaxique, Etiquetage morpho-syntaxique, Indexation automatique,
Extraction d'informations, Statistiques, Graphes (automates, arbres)
Programmation
C/C++, Java, Python, Caml, XHTML, CSS, PHP, JavaScript, XML, XSL, XUL, Django,
SQL, Latex
Logiciels et outils
GNUMake, Ant, Eclipse, Eric4, SVN, CVS, Suite Open Office, Suite Microsoft Office
Systèmes
GNU/Linux, Microsoft Windows
Bases de données
MySQL, PostgreSQL, Oracle
Thèse de doctorat
« Intégration de ressources lexicales riches dans un analyseur syntaxique probabiliste », effectué actuellement
au laboratoire de l'Institut Gaspard Monge de l'Université Paris-Est Marne-la-Vallée, et sous la direction d'Eric Laporte
et de Matthieu Constant.
Dans cette thèse, plusieurs thématiques autour du processus d'analyse syntaxique probabiliste sont abordées :
(i) segmentation automatique d'un texte en unités simples et composées, et son impact sur l'analyse syntaxique. Nous
proposons deux stratégies de segmentation performantes, l'une étant basée sur une pré-segmentation discriminative
avant analyse, et l'autre sur une post-segmentation après analyse au moyen d'un réordonnanceur discriminatif. Ces
deux stratégies font usage de ressources lexicales externes traitant d'unités multi-mots.
(ii) exploitation de lexiques syntaxiques pour l'amélioration des performances d'analyseurs syntaxiques. Notre
approche consiste à remplacer les mots des textes à analyser par des classes plus générales calculées à partir de
données lexicales (étiquettes grammaticales) et syntaxiques (informations de sous-catégorisation). L'utilisation de
classes de verbes a permis de réduire significativement le taux d'erreurs de plusieurs analyseurs syntaxiques.
Publications (liste sélective)
Matthieu Constant, Anthony Sigogne et Patrick Watrin. « Discriminative strategies to integrate multiword
expression recognition and parsing ». 50ème conférence internationale Association for Computational Linguistics
(ACL 2012). Jeju, Corée.
Dans cet article, nous proposons deux stratégies discriminantes d’intégration des mots composés dans un processus
réel d’analyse syntaxique : (i) pré-segmentation lexicale avant analyse, (ii) post-segmentation lexicale après analyse au
moyen d’un réordonnanceur. Le segmenteur de l’approche (i) se fonde sur un modèle CRF et permet d’obtenir un
reconnaisseur de mots composés état-de-l’art. Le réordonnanceur de l’approche (ii) repose sur un modèle d'Entropie
Maximale intégrant des traits dédiés aux mots composés.
Anthony Sigogne, Matthieu Constant et Eric Laporte. « Integration of data from a syntactic lexicon into a
generative and a discriminative probabilistic parsers ». 14ème conférence internationale Recent Advances in NLP
(RANLP 2011). Hyssaria, Bulgarie.
Dans cet article, nous proposons une méthode performante d'intégration de données issues d'un lexique syntaxique du
français, le Lexique-Grammaire, dans divers analyseurs syntaxiques probabilistes. Ces données (informations de souscatégorisation) sont utilisées dans le but de créer des classes de verbes. Ces classes sont destinées à remplacer les
étiquettes morpho-syntaxiques des verbes du corpus d'apprentissage des analyseurs.
Anthony Sigogne. « HybridTagger : un étiqueteur hybride pour le français ». 8ème Manifestation des jeunes
chercheurs en Sciences et Technologies de l’Information et de la Communication (MajecSTIC 2010). Bordeaux ,
France.
Dans cet article, une approche hybride de l’étiquetage morpho-syntaxique est proposée. Les approches de
désambiguisation symbolique et statistique sont combinées dans un même processus d’étiquetage. De plus, ce
processus utilise massivement des ressources lexicales externes qui permettent d’obtenir un étiquetage performant
des mots inconnus.
Anthony Sigogne et Matthieu Constant. « Real-time unsupervised classification of web documents ». 2ème
conférence internationale Computational Linguistics and Applications (CLA 2009). Mragowo, Pologne.
Dans cet article, le problème de la classification dynamique de collections de documents web est abordé. Nous
proposons un algorithme statistique itératif basé sur l'extraction de mots clés d'un document (mots simples et
composés, noms propres) grâce à des grammaires et des ressources lexicales. L'implémentation de cet algorithme a
été intégrée avec succès dans une application utilisée pour de la veille internet.
Prix
Conférence TALN 2012
Meilleur article long
Conférence MajecSTIC 2010
Meilleur article long
Langues
Anglais
Niveau TOEIC (score : 860)
Espagnol
Notions
Loisirs
Théâtre, Voyages, Cuisine
Cyclisme amateur, Musculation

Documents pareils