Etude de Faisabilité d`une Chaîne de lecture Automatique de

Transcription

Etude de Faisabilité d`une Chaîne de lecture Automatique de
INOVATIC SERVICES
. Titre :
Reconnaissance Globale de Mots dans le Cadre de Vocabulaires Réduits.
. Thématique : reconnaissance globale de mots illisibles par OCR, car constitués de caractères petits et collés
entre eux, dans un « micro monde » au vocabulaire limité.
. Labo : département R & D de la société SYSIPHE,
. Ville et pays : 78180 Montigny le Bretonneux FRANCE
. Equipe ou projet dans le labo
La société SYSIPHE est essentiellement une société de R & D. Depuis 16 ans, la spécialité de la Société est
l’Extraction Automatique de Données dans les Documents Structurés Répétitifs.
A son actif : 1ére application mise en production dans sa filiale opérationnelle INOVATIC SERVICES:
Lecture de liasses fiscales de Sociétés pour le compte des banques (service démarré fin 2000).
R & D poursuivie tout au long de l’exploitation pour améliorations algorithmiques. CIR depuis 2008.
. Nom et adresse électronique du directeur du laboratoire : [email protected].
. Le directeur de stage est Philippe Vincent, secondé par un chercheur expérimenté arrivant début 2017.
. Présentation générale du domaine :
Les documents structurés répétitifs sont des documents d’un type donné produits à de nombreux exemplaires,
relevant d’une logique commune avec des variantes de présentation: bilans de Sociétés, bulletins de salaire…
L’extraction des données suppose de les localiser, par la structure (tableaux) et/ou les légendes (textes).
Dans certaines applications, les textes qui permettraient de localiser les données sont imprimés en petits
caractères pâteux et chaque mot apparait comme une concaténation de caractères collés constituant un
ensemble connexe de pixels noirs. Aucun OCR n’est capable de les lire.
. Objectifs du stage :
L’idée (inspirée de la Méthode Globale d’apprentissage de la lecture) est de réaliser une représentation
spécifique des silhouettes graphiques des mots (leur « Profil »). Une fois traduits dans ces Profils, les mots
seront enregistrés dans un « vocabulaire des mots attendus dans la page ». Une formule de corrélation entre
Profils permettra de reconnaitre ces mots sur un nouveau document à traiter. Remarque : on n’a pas
forcément à connaître l’expression alphabétique des mots. Un simple n° de référence suffit à leur maniement.
Les mots peuvent être regroupés en « expressions » caractéristiques composées de plusieurs mots consécutifs.
Sur un premier document, le logiciel peut, par exemple par un apprentissage supervisé, noter dans une table,
les expressions caractéristiques en regard des données à lire, puis se servir de la localisation de ces
expressions sur les documents suivants, pour localiser, puis extraire, les données associées.
Les expressions caractéristiques retenues pour un type de document devront posséder les propriétés
- d’exhaustivité (plusieurs expressions alternatives retenues pour la même localisation en cas de variantes)
- de non ambiguïté (l’expression ne peut se retrouver ailleurs dans la page).
Le stagiaire devra établir les variables physiques définissant les Profils, définir la formule de corrélation à
appliquer et réaliser les algorithmes d’utilisation de ces données avec exhaustivité et non ambiguïté.
Une grande quantité d’exemples seront à sa disposition pour les tests en « grandeur réelle ».
. Références bibliographiques : aucune spécifique. Tout ouvrage de Reconnaissance des Formes (OCR).
. Compétences espérées : agilité en informatique et en algorithmique, inventivité, enthousiasme, goût pour la
création conceptuelle et sa confrontation au réel…
Souhaité: connaissance d’environnements de développement classiques et adaptabilité à de nouveaux…
Siège social : 9, place Alexandre 1er - 78000 VERSAILLES FRANCE - RCS VERSAILLES B 432 598 621
Bureaux : 1, place Charles de Gaulle – 78180 MONTIGNY LE BRETONNEUX
 01 61 37 24 90 Fax : 01 61 37 33 12 Email : [email protected]
1/1