Classification semi-automatique de documents d`entreprise
Transcription
Classification semi-automatique de documents d`entreprise
Classification semi-automatique de documents d’entreprise scannés Description succincte Le but de ce stage est de mettre en place un système d’extraction d’informations textuelles depuis une base de documents scannés et de générer un graphe de proximité des documents à partir de ces informations. Le graphe sera ensuite utilisé par une application de visualisation existante pour naviguer dans la base de documents. Le travail consiste à développer, à partir d’outils d’OCR existants, une méthode robuste d’extraction de texte associée à une méthode d’extraction de sémantique du texte afin de générer des descripteurs de documents permettant d’améliorer la classification des documents scannés. Nous disposons d’une base de données d’évaluation d’environ 30 000 documents. Encadrement Encadrants : • Romain Giot [email protected] / Bordeaux, LaBRI • Antoine Doucet [email protected] / La Rochelle, L3i Lieu : LaBRI Contexte Certaines entreprises proposent de classer manuellement des documents scannés (factures, documents administratifs, tickets de train, . . . ) à la demande de leurs clients afin d’effectuer archivage et traitements. La classification manuelle de tels documents est sujette à erreur et nécessite un contrôle manuel systématique afin de vérifier la qualité des lots étiquetés, afin de décider de valider les classes ou de les réassigner manuellement. Cette vérification de qualité demande encore plus de temps que l’annotation elle-même. Il est donc nécessaire d’améliorer ce processus en proposant un logiciel interactif de détection d’erreurs. Solution Existante et limites Une première solution a été proposée [Giot2015]. Il s’agit d’utiliser un outil de visualisation de documents. La méthode de visualisation prend en compte l’annotation manuelle des documents afin de les représenter sous la forme d’un graphe hiérarchique. Le graphe est généré à partir de données extraites depuis les images des documents ainsi que de résultats d’outils de reconnaissance de texte. À l’aide de la topologie de ce graphe, différentes mesures sont calculées afin d’estimer la qualité de l’étiquetage et de fournir des propositions de correction d’étiquetage à l’utilisateur. La performance du système proposé (en terme de suggestion de corrections et de visualisation) réside dans la génération du graphe depuis différents types de données extraites. Mais les données actuellement utilisées sont simplistes et limitent donc le système. Améliorations Une première piste consiste à améliorer le calcul des données extraites de type image et de type textuel [Mikolov2013, Salton1975]. • Les caractéristiques textuelles sont le point d’amélioration prioritaire du travail proposé. Le nouveau descripteur de données utilisé devra contenir des informations sur la sémantique du texte extraites depuis les documents. Pour cela, plusieurs outils sont disponibles et prêts à l’emploi en OpenSource, notamment Word2Vec [Mikolov2013] et la librairie NLTK (www.nltk.org/). 1 • Exploiter les caractéristiques textuelles requière au passage d’améliorer l’OCRisation du texte. En effet les outils d’OCR ne fonctionnent pas très bien sur de tels types de données. Parmi les idées d’améliorations, on peut citer : – – – – – – l’apprentissage de méthode d’OCR sur des fontes spécifiques à nos données la reconnaissance de fontes au sein de documents pour sélectionner le meilleur modèle d’OCR la rotation des images pour prendre en compte les textes verticaux le changement d’échelle pour prendre en compte différentes tailles de police prendre en compte la localisation des phrases dans le documents ... • Il est nécessaire de calculer des caractéristiques images plus pertinentes afin de mieux discriminer les documents en fonction de leur classe. Le stagiaire devrait proposer de nouvelles métriques, les implémenter et les évaluer. Mais ce point n’est pas le plus prioritaire. • Il peut également être intéressant d’analyser si la sémantique de la classe à laquelle appartient un document peut être prise en compte dans le calcul des données extraites. Bibliographie • Tomas Mikolov, Kai Chen, Greg Corrado, and Jerey Dean. “Efficient estimation of word representations in vector space”. CoRR, abs/1301.3781, 2013 https://code.google.com/p/word2vec/ • G. Salton , A. Wong , C. S. Yang, A vector space model for automatic indexing, Communications of the ACM, v.18 n.11, p. 613-620, novembre 1975. • Giot, R., Bourqui, R., Journet, N., & Vialard, A. (2015). Visual Graph Analysis for Quality Assessment of Manually Labelled Documents Image Database. In 13th International Conference on Document Analysis and Recognition (ICDAR 2015). t of Manually Labelled Documents Image Database. In 13th International Conference on Document Analysis and Recognition (ICDAR 2015) (p. 7). 2