EXALEAD - François` Blog
Transcription
EXALEAD - François` Blog
EXALEAD L'innovation au service de l'accès à l'information François Lagunas, Responsable Architecture 24 mai 2005 1 Les axes de l'innovation Recherche Produits Modèle économique Développement Utilisateurs Marketing 2 Sommaire ● ● ● ● ● ● ● Présentation Une recherche centrée sur l’utilisateur Structurer l'information Outils d'extraction Une infrastructure non intrusive Cas clients et exemples Conclusion 3 Présentation ● Profil – – ● Ecole Polytechnique, DEA + Thèse Participation à la création d'Exalead Spécialités – – – – Algorithmique fondamentale Traitements linguistiques automatiques Architecture des systèmes d'information grande échelle (DB, moteurs de recherche) Gestion partenariats industriels et académiques 4 Exalead : historique ● Créée en Septembre 2000 par 2 chercheurs de l’ENSMP – – – – – – 1996 – 1997 : participation à l’aventure AltaVista 1998 – 1999 : création d’un labo de Maths Apps (Mines de Paris) Septembre 2000 : création d’Exalead 2001: partenariat avec Qualis, un groupe industriel français 2002 : réalisation du logiciel Exalead Corporate v.2.0 (Bouygues Telecom, AOL France, Scoot.fr) 2003 – 2005 : déploiement commercial ● France ● Italie ● Etats-Unis ● Grande Bretagne 5 Exalead : produits ● ● ● ● Exalead Corporate v.3.1 – pour les entreprises Un index de 1 milliard de pages : www.exalead.com – pour le grand public Exalead Desktop search en beta-test – pour le grand public Une gamme complète en cours d'élaboration – PC / Entreprises / Web – Intégration avancée entre les différentes échelles 6 La gamme Exalead Exalead Desktop Exalead Small Business Exalead Corporate www.exalead.com WAP iMode 7 exalead.com : 1 milliard de pages 8 Commerce électronique ● Manutan : http://webshop.manutan.fr 9 Applications intranet 10 Exalead Desktop 11 Exalead : quelques chiffres ● ● Ventes: – Plus de 40 Clients en France, Italie, UK et US – Partenariats avec les intégrateurs (IBM France, EDS France, Capgemini, Atos Origin, Unilog) – Accords commerciaux et accords OEM (Telecom Italia, …) Entreprise: – 26 personnes: Paris: 22, Milan: 2, San Francisco: 2 – CA 2003: 1.1 M€ - CA 2004: 2 M€ – Objectif 2005: 6 M€ 12 Exalead : références ● Applications Internet – AOL France : web search engine (France) – Manutan International : e-catalog (France) – Kiwee (American Greetings France) : e-catalog (France) – Ministère des Finances Italien : moteur de recherche sur le site web (Italie) – Torino 2006 : Winter Olympic Games websites (Italie) – INPS – Sécurité Sociale Italienne (Italie) – CareerBase : Job Seekers and Employers (USA) 13 Exalead : références ● ● Applications Intranet (Federated search applications) – Société Générale : fédération de plus de 100 sites web – BNP Paribas : annuaire des employés (France) – Air Liquide : Notes, Livelink, FS, web (France) – Fromageries BEL : Notes, SPS, FS, web (France) – GLN : word & pdf, documentation (France) – Carlson Wagonlit Travel : fédération de 30 Intranet Européens (France) – INRIA : documentation interne (France) Projets spéciaux – DST (France) – Wellcome Trust Sanger Institute (UK) 14 Innovation scientifique ● Une R&D Centrale – – – ● Très forte activité : nombre de chercheurs Passage très rapide aux applications Relations nombreuses et durables avec le milieu académique Suivi de domaines très actifs 15 Innovation technique 16 Recherche phonétique 17 Recherche approchée 18 Correction d'orthographe 19 Correction d'orthographe ● Adaptation automatique au corpus ● Correction sémantique 20 Recherche de motif ● Recherche par expressions régulières : 21 Recherche de motif 22 Recherche de motif 23 Innovation industrielle ● Industrialiser un outil – – ● Whenever / Whatever – – ● Objet moteur de recherche => packagé Object industriel : robustesse Changement de monde ! Web => desktop Support multilingue Automatisation 24 Exemple : support multi-lingue ● Infrastructure Support unicode complet – 54 langues reconnues ● Toutes les langues de l'Union Européenne ● Chinois (en cours) ● Japonais, Coréen (partiel) Méthodes statistiques indépendantes de la langue – ● – – ● Lemmatisation Correction d'orthographe Données nécessaires dépendantes de la langue – – Règles de construction des mots composés Règles phonétiques 25 Langues: Russe 26 Langues:Arabe 27 Langues:Hébreu 28 Innovation produits ● Du plus petit au plus grand – – – ● Outil omniprésent Même source ! Gamme Pousser la logique jusqu'au bout 29 Les outils actuels Information non structurée 80 % Information structurée 20 % Web Mail ERP PC Server EDM « Moteurs de recherche » « Plans de classement » 30 Exalead Information non structurée 80 % Web Mail Exalead PC Information structurée 20 % ERP (IAT) Server EDM « Information Access Technology » 31 Innovation interaction utilisateur 32 Moteur Classique 33 Recherche transversale 34 Raffinement 35 Prévisualisation 1 36 Prévisualisation : 2 37 Vignettes 38 Innovation marketing ● Logiciel et pas service ● Tarifs : au volume/trafic, connecteurs – Autres : nombre de postes, processeurs, nb de documents ● Relais commerciaux ● Internationalisation – Gestion de langues multiples ● Très orienté entreprises ● Pas trop gouvernemental 39 Innovation économique 40 Innovation managériale ● Sources d'innovation ● Feedback permanent entre tous les acteurs ● Question de la taille ● Source de problèmes – – Gestion de langues multiples / peu d'employés ! Devient une force : automatisation 41 Un constat simple ● L’information augmente de manière exponentielle ● L’information importante n’est pas structurée… – 21 milliards de courriels émis par jour en 2004 (IDC) – 45% de l’information est dans les pièces jointes (IDC) – 5000 comptes courriel = 50 millions de pages Web ● … est stockée un peu n’importe où ● … et devient donc rapidement inaccessible ● Sa maîtrise n’a jamais été aussi critique 42 La mission d'Exalead ● Devenir leader du marché de l’accès à l’information – – ● Promouvoir une offre industrielle – – – ● Mettre au point des technologies innovantes Les rendre accessibles à tous Infrastructure non-intrusive Technologies centrées sur l’utilisateur Plate-forme pour le développement : nouveaux services Permettre un accès universel – A tout type d’information – Depuis n’importe quel endroit – Via n’importe quel terminal – Sur des très grands volumes 43 Sommaire ● ● ● ● ● ● ● Présentation Une recherche centrée sur l’utilisateur Structurer l'information Outils d'extraction Une infrastructure non intrusive Cas clients et exemples Conclusion 44 Au service de l'utilisateur ● Modes de recherche avancés – – – ● Recherche approchée Recherche phonétique Lemmatisation automatique (méthodes statistiques) Tolérance à ses erreurs – – Correction orthographique automatique Suggestions basées sur le corpus 45 Mots clés et navigation ● Une approche radicalement différente – – – ● Catégorisation par le contenu Automatisation totale, indépendant du contenu Contraintes linguistiques et algorithmes statistiques Recherche transversale et en profondeur – – Découverte du contenu : recherche multi-axiale Approfondissement : recherche ciblée 46 Au service de l'utilisateur ● Adaptation à son mode de fonctionnement – – – – – Mise en contexte des résultats Lecture rapide par table des matières Aide à l’affinage des recherches Recherche et raisonnement par association d’idées Prévisualisation et aide à la localisation 47 Au service de l'utilisateur ● Respect de ses habitudes – – ● Réutilisation du pré-existant – – – ● Prise en compte du nomadisme Accès temps réel et instantané à l’information Utilisation des éléments familiers de classement Cohabitation des plans de classement Utilisation de son vocabulaire habituel Mais d'où viennent ces informations ? – Acquisition ? – Traitement ? – Unification ? 48 Sommaire ● ● ● ● ● ● ● Présentation Une recherche centrée sur l’utilisateur Structurer l'information Outils d'extraction Une infrastructure non intrusive Cas clients et exemples Conclusion 49 Structurer l'information ● Exploitation des structures pré-existentes – – – Souvent sous-estimée Structure implicite / cachée Outils semi-automatiques : ● ● ● Découverte de structure Exploitation de la structure Un cas extrême : le web – – – “Non-structuré”, “Totalement anarchique” etc. Pourtant, graphe des liens => information riche ! Le contenu des pages est lui-même structuré 50 Wikipedia: encyclopédie libre 51 Systèmes de catégories ● Hiérarchie de catégories – – Classique : Yahoo, Open Directory Problèmes : ● ● ● Pas toujours rigoureux, mais c'est presque inévitable Données indépendantes : localisation / thèmes Catégorisation multi-axiale – – – Fusion de catégorisations indépendantes Extensible facilement Réutilisation de l'existant 52 Navigation : 1 Raffinement de la recherche 53 Navigation : 2 54 Structuration multi-axiale Transducteurs Métas données / Transducteurs Entités nommées 55 Adaptation au corpus 56 Sources de catégorisation ● Sources “manuelles” – Annotation / enrichissement ● ● – Classification des documents ● ● ● Mots clés ajoutés : documentalistes Informations mises en valeur (noms propres) Web : Open Directory Classification par des documentalistes Sources semi-automatiques – Thésaurus préexistant de classification ● Règles : mots spécifiques -> catégories 57 Sources de catégorisation ● Sources automatiques – – Méta-données : date, auteur, type de document Extraction de données implicites ● ● – Mots composés ● – Techniques statistiques automatiques Extraction par transducteurs ● – Utilisation de l'arborescence des répertoires / urls Structure des documents (site web inria) Entités nommées Extension de catégorisation ● Catégorisation manuelle sous-ensemble => extension 58 Avantages ● Construction et navigation dynamiques – – – – Adaptation automatique au contenu des nouveaux documents Nouveaux documents => nouvelles catégories Mise à jour continuelle, pas de maintenance Temps réel : nouvelles catégories disponibles instantanément 59 Outils nécessaires ● Infrastructure – – ● Indexation des catégories Exploitation : interface utilisateur Outils fondamentaux – – – Mots composés : méthodes statistiques Entitées nommées : transducteurs Détourage / structuration : automates XML 60 Sommaire ● ● ● ● ● ● ● Présentation Une recherche centrée sur l’utilisateur Structurer l'information Outils d'extraction Une infrastructure non intrusive Cas clients et exemples Conclusion 61 Méthodes statistiques ● Identification de mots composés – – Méthodes statistiques Données linguistiques nécessaires très limitées ● ● Nouvelle langue => quelques jours (en cours) Correction d'orthographe – – – – Automatique => construit sur le corpus-même ! Intègre le vocabulaire spécifique, les noms propres Correction sémantique statistique Nécessité de données linguistiques annexes : ● Règles de phonétisation 62 Définition de transducteurs ● Transducteurs – Détection et extraction dans le texte ● ● ● – Gain ● ● Noms de personnes Dates Thésaurus Méta-données => catégories Interfaçage avec Unitex – – Conversion des automates en format “Exalead” Production d'une sortie compatible Unitex 63 Transducteurs 64 Extraction de structure ● Extraction dans des structures (pages html) – Assembler des données homogènes / formatage hétérogène : ● ● ● – articles de journaux (site, date, titre, texte, image? ...) blogs (site, titre, texte, commentaires, date) produits (site, référence, description, prix) Gain : ● ● ● Nettoyage (publicité, menus de navigation) Structure => production de catégories Prévisualisation centrée sur le coeur de l'information 65 Titre Date Image Texte commentaire 66 Applications ● 67 68 69 Sommaire ● ● ● ● ● ● ● Présentation Une recherche centrée sur l’utilisateur Structurer l'information Outils d'extraction Une infrastructure non intrusive Cas clients et exemples Conclusion 70 Une infrastructure non intrusive ● ● ● ● ● Installation facile et rapide Qui réutilise le « meilleur » des systèmes existants Fonctionnement totalement automatique Qui peut évoluer en temps réel Des outils de configuration simples – – – Connecteurs Classement des résultats ● Proximité ● Autres (opérations sur types de sources, termes) Affichage des résultats ● Création de « vues » 71 Architecture WEB HTTP C onnector HTTP Front End Relational Database ODB C C onnector LDAP Directory LDAP C onnector Exalead Index Server S tandard Terminals File System File S ys tem C onnector Index Database Exalead Corporate Search Third Party Application E xalead C orporate Indexing Java API Third Party Application Java API 72 Une plate-forme logicielle ouverte ● Permet d’inclure de nouveaux services – ● Modules sémantiques (thesaurus, traduction, …) Adapter le produit aux besoins de l’utilisateur – – Une communauté spécifique peut utiliser une interface spécifique Des API JAVA pour une intégration simple au sein d’applicatifs métiers (Gestion de contenu, services à valeur ajoutée (secteur bancaire, RH), Catalogues électroniques, Mobilité 73 Une plateforme robuste ● ● Passage à l'échelle – Du monde du web au monde de l'entreprise – Validation logicielle Exalead Corporate est une plate-forme industrielle – – – Qui tourne 7 jours sur 7 Parfaitement apte à la production (crash proof product, load balancing, redondancy, ...) A l’architecture flexible (remote connector) 74 Moteurs de recherche Principes Entrepôt de documents Mise en forme Crawler Utilisateur Web Index Site Web Documents bruts Requête Documents normalisés Résultats de la requête 75 Sommaire ● ● ● ● ● ● ● Présentation Une recherche centrée sur l’utilisateur Structurer l'information Outils d'extraction Une infrastructure non intrusive Cas clients et exemples Conclusion 76 AOL France ● La problématique d’AOL France – – – ● Les avantages d’Exalead – – – ● Produit standard permettant une parfaite adaptation aux besoins du Client Performant et qui passe à l’échelle tout en restant économique Une navigation intuitive permet à l’utilisateur d’être à l’aise dans sa recherche Les résultats avec Exalead – – – – ● Devenir un des leaders français Augmenter le chiffre d’affaires provenant des liens sponsorisés Augmenter la qualité du site et la fidélité des Clients AOL.fr est passé en France de la 11ème place à la 4ème place devant MSN Excellente fidélité des Clients Le trafic a été multiplié par 2.5 en moins de deux ans L’objectif relatif au revenu provenant des liens sponsorisé a été dépassé Frédéric Mahé (Directeur de la Division Recherche) – “Deux ans d’étroite collaboration ont confirmé la vison d’AOL: Exalead est aujourd’hui la meilleure technologie de recherche disponible. La flexibilité, la capacité d’innover et la maturité de cette technologie ont permis à AOL France de bénéficier d’un réel avantage compétitif et d’établir un nouveau standard en matière de recherche d’information.” 77 AOL France et Netscape France 78 Gide Loyrette Nouel ● La problématique de GLN – – – – ● Les avantages d’Exalead – – – – ● Une réponse instantanée aux besoins des utilisateurs Une mise en place simple et rapide Une intégration immédiate avec les systèmes existants Aucun changement dans le SI n’a été nécessaire Les résultats avec Exalead – – ● Réutiliser et partager la connaissance Améliorer la productivité Utiliser un logiciel standard Éviter une mise en place pénible et coûteuse Amélioration de la productivité quotidienne Point de départ pour un reengineering progressif Olivier Dauchez (Directeur du Service Fiscal) – “C’est comme après avoir installé le téléphone, nous utilisons Exalead quotidiennement, et avec Exalead, nous avons découvert d’autres façons de travailler.” 79 Scoot France ● ● Scoot.fr : activité Pages Jaunes de VIVENDI La problématique de Scoot France – – – ● Les avantages d’Exalead – – ● Un démarrage en moins de 3 mois Aucun changement dans le SI existant Les résultats avec Exalead – – – ● Créer un meilleur service que celui de France Telecom Le rendre disponible sur le web et pour le centre d’appel SFR Gérer un annuaire de plus de 4 millions de professionnels et d’environ 26 millions de particuliers Le temps de réponse n’a jamais dépassé 1 seconde Pratiquement aucune panne Gestion aisée des mises à jour et développement rapide de nouvelles fonctionnalités Jean Gondé (CTO) – “Ce que Scoot.com n’a jamais été capable de réaliser a été réalisé par Scoot.fr avec Exalead en seulement quelques mois” 80 1 2 3 4 81 Carlson Wagonlit Travel ● La problématique de CWT – – – – ● Les avantages d’Exalead – – ● Fournir une recherche fédérée pour des intranets tout à fait hétérogènes Une fédération de 30 Intranet Européens 4000 utilisateurs Des intranets relativement anciens (juillet 2000) 3 solutions ont été évaluées : Exalead, Go Albert et Spirit 100% des testeurs (25 personnes) ont choisi Exalead Extraits des commentaires – – – – “Facile à utiliser, facile à apprendre” “Moteur très rapide” “La fonctionnalité Suggestion est très efficace” “Moteur très intelligent qui vous aide à affiner votre requête” 82 BNP PARIBAS ● Un référentiel mondial : – – ● Besoins exprimés – – – ● 1000 administrateurs locaux, 100 000 documents Un outil de recherche intégré : Ergonomie « peu conviviale » Recherche « statique » et « lente » Pouvoir proposer des corrections orthographiques pertinentes Faciliter les recherches des utilisateurs Fédérer différentes sources d’information (LDAP, Notes, etc.) Les commentaires sur Exalead Corporate « Le produit a été simple à installer et non intrusif dans l’architecture ». « Adoptée très rapidement par les utilisateurs » « Les temps de réponses sont bons » « La catégorisation des informations procure des axes de liberté dans la recherche » ● Les chiffres – – – 55 000 utilisateurs France Moyenne près de 1000 recherches différentes par jour avec un maximum de 1255 recherches différentes Sur 2 mois, 600 personnes ont choisi Explora et l’ont mis dans leur favoris 83 Institut Sanger ● Contexte – – – ● 3ème centre mondial de recherche sur le génome basé à Cambridge (UK) Base de connaissances consultées par une vaste communauté internationale de scientifiques Ancien outil de recherche : Alta Vista Les enjeux – Optimiser l’accès aux bases de connaissances pour les chercheurs ● ● ● – ● ● Favoriser les échanges et donc le travail des la recherche Exalead choisi après prototype (devant Verity et Lucene) Les raisons du choix – – – – – – ● Bases de données du génome (Oracle) soit plusieurs dizaines de millions d’entrées Des structures et meta-données (Gènes, protéines, maladies) Documentation internationale (Internet, Intranet, Répertoire) Architecture moderne et robuste Exploitation de l’architecture existante Une interface de recherche unique vers l’ensemble de sources disponibles Des nouvelles fonctionnalités de recherche intuitive Passage à l‘échelle assurée (Nombre de documents, Ajout de sources et de fonctionnalités) Rapidité de mise en œuvre et flexibilité Exalead considéré comme « l’unique éditeur dans le monde capable de répondre à la complexité du cahier des charges pour un investissement raisonnable » 84 MANUTAN ● Un des Leaders européens de la vente de matériel de bureau – – 18 filiales en Europe, plusieurs catalogues, près de 150 000 références, plusieurs bases de données relationnelles Un moteur Oracle ● ● ● Les enjeux – – – ● Réduire le nombre de requêtes non abouties et donc la perte de chiffre d’affaires : Encourager le cross-selling Offrir un outil européen simple à décliner et à maintenir Le choix Exalead – Fonctionnel : ● ● – Correction orthographique, recherche approchée pour réduire les silences Navigation pour éviter les bruits (trop plein de réponses) Technique ● ● ● Efficace sur les références mais très lent sur les requêtes textuelles 30% de requêtes sans réponse Fonctionnement automatique et minimum de maintenance Mise en oeuvre rapide (outil de configuration, API Java et XML) Les premiers résultats – Déploiement européen sur 15 sites en quelques mois ● – – www.manutan.fr, www.overtoom.nl, www.keyind.co.uk, Baisse de 20 à 30% du nombre de requêtes non abouties selon les pays Vers une hausse du chiffre d’affaires relatif à la vente en ligne 85 MANUTAN 86 Fromageries Bel ● ● Groupe Bel : International et multi-marques (Babybel, Vache Kiri, etc.) 3000 collaborateurs dans le monde Intranet d’or 2004 en France Enjeux : Faire de l’intranet un outil de référence. – – – ● ● Exalead choisi après un benchmark de plusieurs mois (par Business interactive) au profit d’Autonomy Les raisons : – – – ● Encourager la cohésion du groupe Offrir des outils supplémentaires d’aide à la décision Promouvoir la capitalisation des savoirs (300 000 documents bureautiques en ligne) Fédération de sources hétérogènes (Bases Lotus Notes,Annuaire LDAP, Système de fichiers) Respect de l’infrastructure globale de sécurité Mise en œuvre rapide Résultats – Prise en main immédiate du logiciel par les équipes IT ● – – Une trentaine de source intégrées et service mis en ligne en 1 mois Création de plusieurs vues métiers Vers de nouveaux projets : intégration SPS, outil de veille, etc. 87 Sommaire ● ● ● ● ● ● ● Présentation Une recherche centrée sur l’utilisateur Structurer l'information Outils d'extraction Une infrastructure non intrusive Cas clients et exemples Conclusion 88 Conclusion ● Une activité de R&D forte – – – – ● Ancien laboratoire de l'Ecole des Mines de Paris 4 Docteurs, 2 Doctorants sur 26 employés ! A permis la création de l'entreprise Relations fortes avec le milieu académique Des axes de recherche diversifiés – – – Utilisation de méthodes statistiques Extension de méthodes plus traditionnelles Ouverture d'esprit ! 89 Conclusion ● Une plateforme pour l'accès à l'information – – – ● Une architecture ouverte – – ● Unification de sources multiples Réutilisation de l'existant De la plus petite à la plus grande échelle Nouveaux composants / produits Exalead Produits “third-party” Une interface utilisateur unique – – Pour tous les produits Exalead Pour tous les terminaux 90 Conclusion ● Les axes de développement futurs : – Support multi-lingue ● – Diversifier les sources de données ● – Mise en forme des contenus S'adapter à un plus grand nombre de terminaux ● ● Son, Image, Vidéo Affiner les méthodes d'extraction ● – Europe de l'Est, Asie Mobilité, Téléphonie Recruter de nouveaux collaborateurs !!! – A vous de jouer ;-) 91