Etude de Faisabilité d`une Chaîne de lecture Automatique de

Transcription

Etude de Faisabilité d`une Chaîne de lecture Automatique de
INOVATIC SERVICES
. Titre : Utilisation ciblée de Réseaux de Neurones pour résoudre des cas de substitutions
classiques dans la Reconnaissance de Caractères.
. Thématique : Résoudre des problèmes fins de reconnaissance de caractères pour les formes trop voisines qui
sont souvent confondus, conduisant à des « substitutions ».
. Labo : département R & D de la société SYSIPHE,
. Ville et pays : 78180 Montigny le Bretonneux FRANCE
. Equipe ou projet dans le labo
La société SYSIPHE est essentiellement une société de R & D. Depuis 16 ans, la spécialité de la Société est
l’Extraction Automatique de Données dans les Documents Structurés Répétitifs.
et la Reconnaissance de Caractères en milieux fortement dégradés
A son actif : 1ére application mise en production dans sa filiale opérationnelle INOVATIC SERVICES:
Lecture de liasses fiscales de Sociétés pour le compte des banques (service démarré fin 2000).
R & D poursuivie tout au long de l’exploitation pour améliorations algorithmiques. CIR depuis 2008.
. Nom et adresse électronique du directeur du laboratoire : [email protected].
. Le directeur de stage est Philippe Vincent, secondé par un chercheur revenant dans la Société début 2017.
. Présentation générale du domaine :
Les méthodes classiques de reconnaissance de caractères trouvent leurs limites en cas de mauvaise qualité
des textes à lire. Principal problème : la présence aléatoire de caractères détériorés mal reconnus
(« substitutions »), nécessitant la vérification visuelle par opérateur de tout le texte (les caractères non
reconnus sont identifiés, les mal reconnus sont noyés au milieu des bons). C’est en particulier le cas avec les
chiffres 6, 8, 9, et certains 5, lorsque les boucles s’ouvrent (traits trop fins) ou se referment (traits gras).
Les techniques globales d’apprentissage comme les Réseaux de Neurones ont l’inconvénient que, « Tout
réagissant sur tout », l’affinage de l’apprentissage pour résoudre ces cas de substitutions sur des différences
de détail risque de perturber l’ensemble de la reconnaissance : la coexistence de deux niveaux de finesse du
discernement est néfaste au résultat global.
D’où l’idée de traiter les substitutions « classiques » dans un deuxième temps, par des algorithmes
discriminants limités aux « groupes substitutifs », en particulier au groupe « 6895 ».
. Objectifs du stage : Développer un module de discrimination des caractères 6,8,9,5 suspects de
substitutions, par une technique d’apprentissage par Réseaux de Neurones.
Remarque : la Société, dans son Service Bureau, lit essentiellement des données numériques.
La société dispose de millions d’exemples d’images de ces caractères et de leur vraie valeur, accumulés
depuis des années sur les résultats obtenus en production, et vérifiés par les opératrices, qui seront utilisés
pour l’apprentissage du Réseau.
Bénéfice pour le Stagiaire : apprendre sur un exemple réel la mise en œuvre d’un Réseau de Neurones.
. Références bibliographiques : aucune spécifique. Tout ouvrage de Reconnaissance des formes.
. Compétences espérées :
Agilité en Informatique et en algorithmique, connaissance théorique des Réseaux de Neurones,
Inventivité, enthousiasme, goût pour la création conceptuelle et sa confrontation au réel …
Souhaité: connaissance d’environnements de développement classiques et adaptabilité à de nouveaux …
Siège social : 9, place Alexandre 1er - 78000 VERSAILLES FRANCE - RCS VERSAILLES B 432 598 621
Bureaux : 1, place Charles de Gaulle – 78180 MONTIGNY LE BRETONNEUX
 01 61 37 24 90 Fax : 01 61 37 33 12 Email : [email protected]
1/1