Classification semi-automatique de documents d`entreprise

Transcription

Classification semi-automatique de documents d`entreprise
Classification semi-automatique de documents d’entreprise scannés
Description succincte
Le but de ce stage est de mettre en place un système d’extraction d’informations textuelles depuis une base
de documents scannés et de générer un graphe de proximité des documents à partir de ces informations.
Le graphe sera ensuite utilisé par une application de visualisation existante pour naviguer dans la base
de documents. Le travail consiste à développer, à partir d’outils d’OCR existants, une méthode robuste
d’extraction de texte associée à une méthode d’extraction de sémantique du texte afin de générer des
descripteurs de documents permettant d’améliorer la classification des documents scannés. Nous disposons
d’une base de données d’évaluation d’environ 30 000 documents.
Encadrement
Encadrants :
• Romain Giot [email protected] / Bordeaux, LaBRI
• Antoine Doucet [email protected] / La Rochelle, L3i
Lieu : LaBRI
Contexte
Certaines entreprises proposent de classer manuellement des documents scannés (factures, documents
administratifs, tickets de train, . . . ) à la demande de leurs clients afin d’effectuer archivage et traitements.
La classification manuelle de tels documents est sujette à erreur et nécessite un contrôle manuel systématique
afin de vérifier la qualité des lots étiquetés, afin de décider de valider les classes ou de les réassigner
manuellement.
Cette vérification de qualité demande encore plus de temps que l’annotation elle-même. Il est donc nécessaire
d’améliorer ce processus en proposant un logiciel interactif de détection d’erreurs.
Solution Existante et limites
Une première solution a été proposée [Giot2015]. Il s’agit d’utiliser un outil de visualisation de documents.
La méthode de visualisation prend en compte l’annotation manuelle des documents afin de les représenter
sous la forme d’un graphe hiérarchique. Le graphe est généré à partir de données extraites depuis les
images des documents ainsi que de résultats d’outils de reconnaissance de texte. À l’aide de la topologie
de ce graphe, différentes mesures sont calculées afin d’estimer la qualité de l’étiquetage et de fournir des
propositions de correction d’étiquetage à l’utilisateur.
La performance du système proposé (en terme de suggestion de corrections et de visualisation) réside dans
la génération du graphe depuis différents types de données extraites. Mais les données actuellement utilisées
sont simplistes et limitent donc le système.
Améliorations
Une première piste consiste à améliorer le calcul des données extraites de type image et de type textuel
[Mikolov2013, Salton1975].
• Les caractéristiques textuelles sont le point d’amélioration prioritaire du travail proposé. Le nouveau
descripteur de données utilisé devra contenir des informations sur la sémantique du texte extraites
depuis les documents. Pour cela, plusieurs outils sont disponibles et prêts à l’emploi en OpenSource,
notamment Word2Vec [Mikolov2013] et la librairie NLTK (www.nltk.org/).
1
• Exploiter les caractéristiques textuelles requière au passage d’améliorer l’OCRisation du texte. En
effet les outils d’OCR ne fonctionnent pas très bien sur de tels types de données. Parmi les idées
d’améliorations, on peut citer :
–
–
–
–
–
–
l’apprentissage de méthode d’OCR sur des fontes spécifiques à nos données
la reconnaissance de fontes au sein de documents pour sélectionner le meilleur modèle d’OCR
la rotation des images pour prendre en compte les textes verticaux
le changement d’échelle pour prendre en compte différentes tailles de police
prendre en compte la localisation des phrases dans le documents
...
• Il est nécessaire de calculer des caractéristiques images plus pertinentes afin de mieux discriminer
les documents en fonction de leur classe. Le stagiaire devrait proposer de nouvelles métriques, les
implémenter et les évaluer. Mais ce point n’est pas le plus prioritaire.
• Il peut également être intéressant d’analyser si la sémantique de la classe à laquelle appartient un
document peut être prise en compte dans le calcul des données extraites.
Bibliographie
• Tomas Mikolov, Kai Chen, Greg Corrado, and Jerey Dean. “Efficient estimation of word representations
in vector space”. CoRR, abs/1301.3781, 2013 https://code.google.com/p/word2vec/
• G. Salton , A. Wong , C. S. Yang, A vector space model for automatic indexing, Communications of
the ACM, v.18 n.11, p. 613-620, novembre 1975.
• Giot, R., Bourqui, R., Journet, N., & Vialard, A. (2015). Visual Graph Analysis for Quality Assessment
of Manually Labelled Documents Image Database. In 13th International Conference on Document
Analysis and Recognition (ICDAR 2015). t of Manually Labelled Documents Image Database. In
13th International Conference on Document Analysis and Recognition (ICDAR 2015) (p. 7).
2