Numen Digital et les Editions Francis Lefebvre mettent les

Transcription

Numen Digital et les Editions Francis Lefebvre mettent les
 COMMUNIQUE DE PRESSE Paris, le 4 juillet 2013 Numen Digital et les Editions Francis Lefebvre mettent les techniques du Big Data au service du traitement des textes juridiques. Google, après avoir épuisé l’intégralité des corpus bilingues disponibles pour nourrir les mémoires de traduction statistiques de son système Google Translate, a annoncé en 2012 avoir entrepris la comparaison deux à deux de toutes les pages du Web de langues distinctes, dans l’espoir de découvrir des couples de pages traduites. À une échelle moins titanesque, Numen Digital a récemment développé pour les Editions Francis Lefebvre (EFL) un système de recherche de similarité entre textes juridiques qui utilise des techniques apparentées. Numen Digital est la filiale du groupe Numen spécialisée dans les services éditoriaux et la numérisation patrimoniale. L’innovation technologique est un élément essentiel pour le développement du groupe, qui consacre 7% de son chiffre d’affaires à la R&D. L’objectif était de rétablir les correspondances existantes entre la Documentation Pratique Fiscale EFL, pierre angulaire d’une partie de la production éditoriale de l’éditeur, et la doctrine fiscale de la Direction Générale des Finances Publiques (DGFIP), récemment remaniée et réorganisée à l’occasion de sa mise en ligne par l’Administration sous forme du Bulletin Officiel des Finances Publiques-­‐Impôts" (BOFIP-­‐Impôts). Afin de fournir le meilleur service à ses abonnés, les EFL devaient donc mettre à jour très rapidement les millions de liens référençant la doctrine de la DGFIP dans leurs publications, tâche inenvisageable en traitement manuel. « Nous avons fait appel à Numen Digital, explique Sumi Saint-­‐Auguste, Assistante à maîtrise d’ouvrage aux EFL, parce que l’approche technologique innovante était susceptible de résoudre le problème de manière largement automatique, malgré les très courts délais impartis et la difficulté du problème posé. Il s’agissait en effet d’établir des correspondances « n : n » entre plus de 100 000 paragraphes de part et d’autre, sachant qu’on ne pouvait s’appuyer sur aucune hypothèse préalable du fait du remaniement récent de la base BOFIP. De plus nos textes, s’ils s’inspirent de la doctrine administrative et en incorporent des fragments, sont largement remaniés et enrichis de commentaires par rapport à cette source. » Un process en trois étapes : la caractérisation, l’indexation et la présentation Dans ce projet, Numen Digital a exploité diverses techniques récemment mises au point pour traiter des problèmes de propriété intellectuelle ou de recherche d’antériorité sur les brevets à l’échelle du Web. « C’est un problème de recherche de similarité floue entre documents, explique François Chahuneau, Directeur des Technologies Numen Digital. Trois aspects devaient être traités : la caractérisation de la similarité entre fragments textuels, son indexation pour obtenir des temps de calcul raisonnables, et la présentation ergonomique et efficace des résultats aux experts maison, chargés de valider ou invalider certaines hypothèses faites par le système. Des trois aspects, le second est le plus redoutable : sans les méthodes d’indexation avancées que nous avons mises en œuvre, la comparaison naïve des paragraphes deux à deux aurait impliqué 10 milliards de comparaisons complexes, soit un temps de traitement de plus d’une centaine de jours incompatible avec les délais du projet ». Les associations qui présentent un taux de confiance trop faible sont soumises à la validation d’experts internes, sous forme d’une interface Web qui matérialise les écarts entre textes par un système de couleurs. Interface de validation des liens Selon Dominique Péré, Directeur adjoint à la stratégie au sein de la DSI des EFL « Un tel système contribue à faire évoluer nos méthodes de travail et à donner confiance dans les techniques modernes d’intelligence artificielle et de traitement de la langue. Nos experts maison ont admis, avec une certaine surprise, que le système était capable, grâce au caractère exhaustif de sa démarche, d’établir des correspondances entre textes qu’ils n’auraient pas pu identifier eux-­‐mêmes. » À propos des Editions Francis Lefebvre Créées en 1930 les Editions Francis Lefebvre comptent parmi les plus importants éditeurs français par leurs effectifs (près de 400 collaborateurs en France), leurs performances (100 M€ de chiffre d’affaires en France) et la qualité de leurs produits. Grâce à leur expérience les Editions Francis Lefebvre sont la référence en matière de documentation dans le domaine fiscal, social, comptable, droit des affaires, civil, patrimonial, immobilier et droit des associations. Leur expertise s’adresse aux entreprises, aux particuliers et à leurs conseils (experts comptables, avocats, notaires, gestionnaires de patrimoine…). Outre les Mémentos, revues, formulaires et ouvrages divers, elles fournissent des solutions juridiques en ligne et de nombreux logiciels et outils d’aide à la décision. Les Editions Francis Lefebvre appartiennent au groupe Lefebvre-­‐Sarrut, 1er éditeur de droit en France et 2ème en Europe. À propos de Numen Le groupe Numen fédère 1 000 collaborateurs experts en projets d’externalisation de données et documents sensibles. Depuis 40 ans, Numen crée une relation de confiance avec ses clients, parmi lesquels : des banques, des compagnies d’assurances et mutuelles, des enseignes de grande distribution et entreprises industrielles, des éditeurs, des institutions européennes, des bibliothèques nationales et organismes publics. Organisé en 3 divisions – Paiement Services, Document Services et Business Services – le groupe Numen réalise un chiffre d’affaires de près de 70 M€ avec ses implantations en Europe. Pour en savoir plus : www.numen.fr / www.linkedin.com/company/494479 CONTACTS PRESSE NUMEN AGENCE SCENARII Sophie LASBLEIS / Sarah OUSAHLA 01 55 60 20 44 / 01 55 60 20 47 [email protected] / [email protected]