EXALEAD - François` Blog

Transcription

EXALEAD - François` Blog
EXALEAD
L'innovation au service
de l'accès à l'information
François Lagunas, Responsable Architecture
24 mai 2005
1
Les axes de l'innovation
Recherche
Produits
Modèle
économique
Développement
Utilisateurs
Marketing
2
Sommaire
●
●
●
●
●
●
●
Présentation
Une recherche centrée sur l’utilisateur
Structurer l'information
Outils d'extraction
Une infrastructure non intrusive
Cas clients et exemples
Conclusion
3
Présentation
●
Profil
–
–
●
Ecole Polytechnique, DEA + Thèse
Participation à la création d'Exalead
Spécialités
–
–
–
–
Algorithmique fondamentale
Traitements linguistiques automatiques
Architecture des systèmes d'information grande
échelle (DB, moteurs de recherche)
Gestion partenariats industriels et académiques
4
Exalead : historique
●
Créée en Septembre 2000 par 2 chercheurs de l’ENSMP
–
–
–
–
–
–
1996 – 1997 : participation à l’aventure AltaVista
1998 – 1999 : création d’un labo de Maths Apps (Mines de Paris)
Septembre 2000 : création d’Exalead
2001: partenariat avec Qualis, un groupe industriel français
2002 : réalisation du logiciel Exalead Corporate v.2.0
(Bouygues Telecom, AOL France, Scoot.fr)
2003 – 2005 : déploiement commercial
● France
● Italie
● Etats-Unis
● Grande Bretagne
5
Exalead : produits
●
●
●
●
Exalead Corporate v.3.1
– pour les entreprises
Un index de 1 milliard de pages : www.exalead.com
– pour le grand public
Exalead Desktop search en beta-test
– pour le grand public
Une gamme complète en cours d'élaboration
–
PC / Entreprises / Web
–
Intégration avancée entre les différentes échelles
6
La gamme Exalead
Exalead Desktop
Exalead Small Business
Exalead Corporate
www.exalead.com
WAP
iMode
7
exalead.com : 1 milliard de pages
8
Commerce électronique
●
Manutan : http://webshop.manutan.fr
9
Applications intranet
10
Exalead Desktop
11
Exalead : quelques chiffres
●
●
Ventes:
–
Plus de 40 Clients en France, Italie, UK et US
–
Partenariats avec les intégrateurs (IBM France, EDS
France, Capgemini, Atos Origin, Unilog)
–
Accords commerciaux et accords OEM
(Telecom Italia, …)
Entreprise:
–
26 personnes: Paris: 22, Milan: 2, San Francisco: 2
–
CA 2003: 1.1 M€ - CA 2004: 2 M€
–
Objectif 2005: 6 M€
12
Exalead : références
●
Applications Internet
– AOL France : web search engine (France)
– Manutan International : e-catalog (France)
– Kiwee (American Greetings France) : e-catalog (France)
– Ministère des Finances Italien : moteur de recherche sur
le site web (Italie)
– Torino 2006 : Winter Olympic Games websites (Italie)
– INPS – Sécurité Sociale Italienne (Italie)
– CareerBase : Job Seekers and Employers (USA)
13
Exalead : références
●
●
Applications Intranet (Federated search applications)
– Société Générale : fédération de plus de 100 sites web
– BNP Paribas : annuaire des employés (France)
– Air Liquide : Notes, Livelink, FS, web (France)
– Fromageries BEL : Notes, SPS, FS, web (France)
– GLN : word & pdf, documentation (France)
– Carlson Wagonlit Travel : fédération de 30 Intranet
Européens (France)
– INRIA : documentation interne (France)
Projets spéciaux
– DST (France)
– Wellcome Trust Sanger Institute (UK)
14
Innovation scientifique
●
Une R&D Centrale
–
–
–
●
Très forte activité : nombre de chercheurs
Passage très rapide aux applications
Relations nombreuses et durables avec le milieu
académique
Suivi de domaines très actifs
15
Innovation technique
16
Recherche phonétique
17
Recherche approchée
18
Correction d'orthographe
19
Correction d'orthographe
●
Adaptation automatique au corpus
●
Correction sémantique
20
Recherche de motif
●
Recherche par expressions régulières :
21
Recherche de motif
22
Recherche de motif
23
Innovation industrielle
●
Industrialiser un outil
–
–
●
Whenever / Whatever
–
–
●
Objet moteur de recherche => packagé
Object industriel : robustesse
Changement de monde ! Web => desktop
Support multilingue
Automatisation
24
Exemple : support multi-lingue
●
Infrastructure
Support unicode complet
– 54 langues reconnues
● Toutes les langues de l'Union Européenne
● Chinois (en cours)
● Japonais, Coréen (partiel)
Méthodes statistiques indépendantes de la langue
–
●
–
–
●
Lemmatisation
Correction d'orthographe
Données nécessaires dépendantes de la langue
–
–
Règles de construction des mots composés
Règles phonétiques
25
Langues: Russe
26
Langues:Arabe
27
Langues:Hébreu
28
Innovation produits
●
Du plus petit au plus grand
–
–
–
●
Outil omniprésent
Même source !
Gamme
Pousser la logique jusqu'au bout
29
Les outils actuels
Information non structurée
80 %
Information structurée
20 %
Web
Mail
ERP
PC
Server
EDM
« Moteurs de recherche »
« Plans de classement »
30
Exalead
Information non structurée
80 %
Web
Mail
Exalead
PC
Information structurée
20 %
ERP
(IAT)
Server
EDM
« Information Access Technology »
31
Innovation interaction utilisateur
32
Moteur Classique
33
Recherche transversale
34
Raffinement
35
Prévisualisation 1
36
Prévisualisation : 2
37
Vignettes
38
Innovation marketing
●
Logiciel et pas service
●
Tarifs : au volume/trafic, connecteurs
–
Autres : nombre de postes, processeurs, nb de
documents
●
Relais commerciaux
●
Internationalisation
–
Gestion de langues multiples
●
Très orienté entreprises
●
Pas trop gouvernemental
39
Innovation économique
40
Innovation managériale
●
Sources d'innovation
●
Feedback permanent entre tous les acteurs
●
Question de la taille
●
Source de problèmes
–
–
Gestion de langues multiples / peu d'employés !
Devient une force : automatisation
41
Un constat simple
●
L’information augmente de manière exponentielle
●
L’information importante n’est pas structurée…
–
21 milliards de courriels émis par jour en 2004 (IDC)
–
45% de l’information est dans les pièces jointes (IDC)
–
5000 comptes courriel = 50 millions de pages Web
●
… est stockée un peu n’importe où
●
… et devient donc rapidement inaccessible
●
Sa maîtrise n’a jamais été aussi critique
42
La mission d'Exalead
●
Devenir leader du marché de l’accès à l’information
–
–
●
Promouvoir une offre industrielle
–
–
–
●
Mettre au point des technologies innovantes
Les rendre accessibles à tous
Infrastructure non-intrusive
Technologies centrées sur l’utilisateur
Plate-forme pour le développement : nouveaux services
Permettre un accès universel
– A tout type d’information
– Depuis n’importe quel endroit
– Via n’importe quel terminal
– Sur des très grands volumes
43
Sommaire
●
●
●
●
●
●
●
Présentation
Une recherche centrée sur l’utilisateur
Structurer l'information
Outils d'extraction
Une infrastructure non intrusive
Cas clients et exemples
Conclusion
44
Au service de l'utilisateur
●
Modes de recherche avancés
–
–
–
●
Recherche approchée
Recherche phonétique
Lemmatisation automatique (méthodes statistiques)
Tolérance à ses erreurs
–
–
Correction orthographique automatique
Suggestions basées sur le corpus
45
Mots clés et navigation
●
Une approche radicalement différente
–
–
–
●
Catégorisation par le contenu
Automatisation totale, indépendant du contenu
Contraintes linguistiques et algorithmes
statistiques
Recherche transversale et en profondeur
–
–
Découverte du contenu : recherche multi-axiale
Approfondissement : recherche ciblée
46
Au service de l'utilisateur
●
Adaptation à son mode de fonctionnement
–
–
–
–
–
Mise en contexte des résultats
Lecture rapide par table des matières
Aide à l’affinage des recherches
Recherche et raisonnement par association
d’idées
Prévisualisation et aide à la localisation
47
Au service de l'utilisateur
●
Respect de ses habitudes
–
–
●
Réutilisation du pré-existant
–
–
–
●
Prise en compte du nomadisme
Accès temps réel et instantané à l’information
Utilisation des éléments familiers de classement
Cohabitation des plans de classement
Utilisation de son vocabulaire habituel
Mais d'où viennent ces informations ?
–
Acquisition ?
–
Traitement ?
–
Unification ?
48
Sommaire
●
●
●
●
●
●
●
Présentation
Une recherche centrée sur l’utilisateur
Structurer l'information
Outils d'extraction
Une infrastructure non intrusive
Cas clients et exemples
Conclusion
49
Structurer l'information
●
Exploitation des structures pré-existentes
–
–
–
Souvent sous-estimée
Structure implicite / cachée
Outils semi-automatiques :
●
●
●
Découverte de structure
Exploitation de la structure
Un cas extrême : le web
–
–
–
“Non-structuré”, “Totalement anarchique” etc.
Pourtant, graphe des liens => information riche !
Le contenu des pages est lui-même structuré
50
Wikipedia: encyclopédie libre
51
Systèmes de catégories
●
Hiérarchie de catégories
–
–
Classique : Yahoo, Open Directory
Problèmes :
●
●
●
Pas toujours rigoureux, mais c'est presque inévitable
Données indépendantes : localisation / thèmes
Catégorisation multi-axiale
–
–
–
Fusion de catégorisations indépendantes
Extensible facilement
Réutilisation de l'existant
52
Navigation : 1
Raffinement de la
recherche
53
Navigation : 2
54
Structuration multi-axiale
Transducteurs
Métas données / Transducteurs
Entités nommées
55
Adaptation au corpus
56
Sources de catégorisation
●
Sources “manuelles”
–
Annotation / enrichissement
●
●
–
Classification des documents
●
●
●
Mots clés ajoutés : documentalistes
Informations mises en valeur (noms propres)
Web : Open Directory
Classification par des documentalistes
Sources semi-automatiques
–
Thésaurus préexistant de classification
●
Règles : mots spécifiques -> catégories
57
Sources de catégorisation
●
Sources automatiques
–
–
Méta-données : date, auteur, type de document
Extraction de données implicites
●
●
–
Mots composés
●
–
Techniques statistiques automatiques
Extraction par transducteurs
●
–
Utilisation de l'arborescence des répertoires / urls
Structure des documents (site web inria)
Entités nommées
Extension de catégorisation
●
Catégorisation manuelle sous-ensemble => extension
58
Avantages
●
Construction et navigation dynamiques
–
–
–
–
Adaptation automatique au contenu des
nouveaux documents
Nouveaux documents => nouvelles catégories
Mise à jour continuelle, pas de maintenance
Temps réel : nouvelles catégories disponibles
instantanément
59
Outils nécessaires
●
Infrastructure
–
–
●
Indexation des catégories
Exploitation : interface utilisateur
Outils fondamentaux
–
–
–
Mots composés : méthodes statistiques
Entitées nommées : transducteurs
Détourage / structuration : automates XML
60
Sommaire
●
●
●
●
●
●
●
Présentation
Une recherche centrée sur l’utilisateur
Structurer l'information
Outils d'extraction
Une infrastructure non intrusive
Cas clients et exemples
Conclusion
61
Méthodes statistiques
●
Identification de mots composés
–
–
Méthodes statistiques
Données linguistiques nécessaires très limitées
●
●
Nouvelle langue => quelques jours (en cours)
Correction d'orthographe
–
–
–
–
Automatique => construit sur le corpus-même !
Intègre le vocabulaire spécifique, les noms propres
Correction sémantique statistique
Nécessité de données linguistiques annexes :
●
Règles de phonétisation
62
Définition de transducteurs
●
Transducteurs
–
Détection et extraction dans le texte
●
●
●
–
Gain
●
●
Noms de personnes
Dates
Thésaurus
Méta-données => catégories
Interfaçage avec Unitex
–
–
Conversion des automates en format “Exalead”
Production d'une sortie compatible Unitex
63
Transducteurs
64
Extraction de structure
●
Extraction dans des structures (pages html)
–
Assembler des données homogènes / formatage
hétérogène :
●
●
●
–
articles de journaux (site, date, titre, texte, image? ...)
blogs (site, titre, texte, commentaires, date)
produits (site, référence, description, prix)
Gain :
●
●
●
Nettoyage (publicité, menus de navigation)
Structure => production de catégories
Prévisualisation centrée sur le coeur de l'information
65
Titre
Date
Image
Texte
commentaire
66
Applications
●
67
68
69
Sommaire
●
●
●
●
●
●
●
Présentation
Une recherche centrée sur l’utilisateur
Structurer l'information
Outils d'extraction
Une infrastructure non intrusive
Cas clients et exemples
Conclusion
70
Une infrastructure non intrusive
●
●
●
●
●
Installation facile et rapide
Qui réutilise le « meilleur » des systèmes existants
Fonctionnement totalement automatique
Qui peut évoluer en temps réel
Des outils de configuration simples
–
–
–
Connecteurs
Classement des résultats
● Proximité
● Autres (opérations sur types de sources, termes)
Affichage des résultats
● Création de « vues »
71
Architecture
WEB
HTTP C onnector
HTTP
Front End
Relational
Database
ODB C C onnector
LDAP
Directory
LDAP C onnector
Exalead
Index
Server
S tandard
Terminals
File System
File S ys tem
C onnector
Index
Database
Exalead
Corporate
Search
Third Party
Application
E xalead C orporate
Indexing Java API
Third Party
Application
Java API
72
Une plate-forme logicielle ouverte
●
Permet d’inclure de nouveaux services
–
●
Modules sémantiques (thesaurus, traduction, …)
Adapter le produit aux besoins de l’utilisateur
–
–
Une communauté spécifique peut utiliser une
interface spécifique
Des API JAVA pour une intégration simple au sein
d’applicatifs métiers (Gestion de contenu, services
à valeur ajoutée (secteur bancaire, RH),
Catalogues électroniques, Mobilité
73
Une plateforme robuste
●
●
Passage à l'échelle
– Du monde du web au monde de l'entreprise
– Validation logicielle
Exalead Corporate est une plate-forme industrielle
–
–
–
Qui tourne 7 jours sur 7
Parfaitement apte à la production (crash proof
product, load balancing, redondancy, ...)
A l’architecture flexible (remote connector)
74
Moteurs de recherche
Principes
Entrepôt de
documents
Mise en
forme
Crawler
Utilisateur
Web
Index
Site Web
Documents bruts
Requête
Documents normalisés
Résultats de la requête
75
Sommaire
●
●
●
●
●
●
●
Présentation
Une recherche centrée sur l’utilisateur
Structurer l'information
Outils d'extraction
Une infrastructure non intrusive
Cas clients et exemples
Conclusion
76
AOL France
●
La problématique d’AOL France
–
–
–
●
Les avantages d’Exalead
–
–
–
●
Produit standard permettant une parfaite adaptation aux besoins du Client
Performant et qui passe à l’échelle tout en restant économique
Une navigation intuitive permet à l’utilisateur d’être à l’aise dans sa recherche
Les résultats avec Exalead
–
–
–
–
●
Devenir un des leaders français
Augmenter le chiffre d’affaires provenant des liens sponsorisés
Augmenter la qualité du site et la fidélité des Clients
AOL.fr est passé en France de la 11ème place à la 4ème place devant MSN
Excellente fidélité des Clients
Le trafic a été multiplié par 2.5 en moins de deux ans
L’objectif relatif au revenu provenant des liens sponsorisé a été dépassé
Frédéric Mahé (Directeur de la Division Recherche)
–
“Deux ans d’étroite collaboration ont confirmé la vison d’AOL: Exalead est
aujourd’hui la meilleure technologie de recherche disponible. La flexibilité, la capacité
d’innover et la maturité de cette technologie ont permis à AOL France de bénéficier
d’un réel avantage compétitif et d’établir un nouveau standard en matière de
recherche d’information.”
77
AOL France et Netscape France
78
Gide Loyrette Nouel
●
La problématique de GLN
–
–
–
–
●
Les avantages d’Exalead
–
–
–
–
●
Une réponse instantanée aux besoins des utilisateurs
Une mise en place simple et rapide
Une intégration immédiate avec les systèmes existants
Aucun changement dans le SI n’a été nécessaire
Les résultats avec Exalead
–
–
●
Réutiliser et partager la connaissance
Améliorer la productivité
Utiliser un logiciel standard
Éviter une mise en place pénible et coûteuse
Amélioration de la productivité quotidienne
Point de départ pour un reengineering progressif
Olivier Dauchez (Directeur du Service Fiscal)
–
“C’est comme après avoir installé le téléphone, nous utilisons Exalead
quotidiennement, et avec Exalead, nous avons découvert d’autres façons
de travailler.”
79
Scoot France
●
●
Scoot.fr : activité Pages Jaunes de VIVENDI
La problématique de Scoot France
–
–
–
●
Les avantages d’Exalead
–
–
●
Un démarrage en moins de 3 mois
Aucun changement dans le SI existant
Les résultats avec Exalead
–
–
–
●
Créer un meilleur service que celui de France Telecom
Le rendre disponible sur le web et pour le centre d’appel SFR
Gérer un annuaire de plus de 4 millions de professionnels et d’environ 26
millions de particuliers
Le temps de réponse n’a jamais dépassé 1 seconde
Pratiquement aucune panne
Gestion aisée des mises à jour et développement rapide de nouvelles
fonctionnalités
Jean Gondé (CTO)
–
“Ce que Scoot.com n’a jamais été capable de réaliser a été réalisé par Scoot.fr
avec Exalead en seulement quelques mois”
80
1
2
3
4
81
Carlson Wagonlit Travel
●
La problématique de CWT
–
–
–
–
●
Les avantages d’Exalead
–
–
●
Fournir une recherche fédérée pour des intranets tout à fait hétérogènes
Une fédération de 30 Intranet Européens
4000 utilisateurs
Des intranets relativement anciens (juillet 2000)
3 solutions ont été évaluées : Exalead, Go Albert et Spirit
100% des testeurs (25 personnes) ont choisi Exalead
Extraits des commentaires
–
–
–
–
“Facile à utiliser, facile à apprendre”
“Moteur très rapide”
“La fonctionnalité Suggestion est très efficace”
“Moteur très intelligent qui vous aide à affiner votre requête”
82
BNP PARIBAS
●
Un référentiel mondial :
–
–
●
Besoins exprimés
–
–
–
●
1000 administrateurs locaux, 100 000 documents
Un outil de recherche intégré : Ergonomie « peu conviviale » Recherche « statique » et
« lente »
Pouvoir proposer des corrections orthographiques pertinentes
Faciliter les recherches des utilisateurs
Fédérer différentes sources d’information (LDAP, Notes, etc.)
Les commentaires sur Exalead Corporate
« Le produit a été simple à installer et non intrusif dans l’architecture ».
« Adoptée très rapidement par les utilisateurs »
« Les temps de réponses sont bons »
« La catégorisation des informations procure des axes de liberté dans la recherche »
●
Les chiffres
–
–
–
55 000 utilisateurs France
Moyenne près de 1000 recherches différentes par jour avec un maximum de 1255
recherches différentes
Sur 2 mois, 600 personnes ont choisi Explora et l’ont mis dans leur favoris
83
Institut Sanger
●
Contexte
–
–
–
●
3ème centre mondial de recherche sur le génome basé à Cambridge (UK)
Base de connaissances consultées par une vaste communauté internationale de scientifiques
Ancien outil de recherche : Alta Vista
Les enjeux
–
Optimiser l’accès aux bases de connaissances pour les chercheurs
●
●
●
–
●
●
Favoriser les échanges et donc le travail des la recherche
Exalead choisi après prototype (devant Verity et Lucene)
Les raisons du choix
–
–
–
–
–
–
●
Bases de données du génome (Oracle) soit plusieurs dizaines de millions d’entrées
Des structures et meta-données (Gènes, protéines, maladies)
Documentation internationale (Internet, Intranet, Répertoire)
Architecture moderne et robuste
Exploitation de l’architecture existante
Une interface de recherche unique vers l’ensemble de sources disponibles
Des nouvelles fonctionnalités de recherche intuitive
Passage à l‘échelle assurée (Nombre de documents, Ajout de sources et de fonctionnalités)
Rapidité de mise en œuvre et flexibilité
Exalead considéré comme « l’unique éditeur dans le monde capable de répondre à la
complexité du cahier des charges pour un investissement raisonnable »
84
MANUTAN
●
Un des Leaders européens de la vente de matériel de bureau
–
–
18 filiales en Europe, plusieurs catalogues, près de 150 000 références, plusieurs bases de données
relationnelles
Un moteur Oracle
●
●
●
Les enjeux
–
–
–
●
Réduire le nombre de requêtes non abouties et donc la perte de chiffre d’affaires :
Encourager le cross-selling
Offrir un outil européen simple à décliner et à maintenir
Le choix Exalead
–
Fonctionnel :
●
●
–
Correction orthographique, recherche approchée pour réduire les silences
Navigation pour éviter les bruits (trop plein de réponses)
Technique
●
●
●
Efficace sur les références mais très lent sur les requêtes textuelles
30% de requêtes sans réponse
Fonctionnement automatique et minimum de maintenance
Mise en oeuvre rapide (outil de configuration, API Java et XML)
Les premiers résultats
–
Déploiement européen sur 15 sites en quelques mois
●
–
–
www.manutan.fr, www.overtoom.nl, www.keyind.co.uk,
Baisse de 20 à 30% du nombre de requêtes non abouties selon les pays
Vers une hausse du chiffre d’affaires relatif à la vente en ligne
85
MANUTAN
86
Fromageries Bel
●
●
Groupe Bel : International et multi-marques (Babybel, Vache Kiri, etc.)
3000 collaborateurs dans le monde
Intranet d’or 2004 en France
Enjeux : Faire de l’intranet un outil de référence.
–
–
–
●
●
Exalead choisi après un benchmark de plusieurs mois (par Business interactive) au profit
d’Autonomy
Les raisons :
–
–
–
●
Encourager la cohésion du groupe
Offrir des outils supplémentaires d’aide à la décision
Promouvoir la capitalisation des savoirs (300 000 documents bureautiques en ligne)
Fédération de sources hétérogènes (Bases Lotus Notes,Annuaire LDAP, Système de fichiers)
Respect de l’infrastructure globale de sécurité
Mise en œuvre rapide
Résultats
–
Prise en main immédiate du logiciel par les équipes IT
●
–
–
Une trentaine de source intégrées et service mis en ligne en 1 mois
Création de plusieurs vues métiers
Vers de nouveaux projets : intégration SPS, outil de veille, etc.
87
Sommaire
●
●
●
●
●
●
●
Présentation
Une recherche centrée sur l’utilisateur
Structurer l'information
Outils d'extraction
Une infrastructure non intrusive
Cas clients et exemples
Conclusion
88
Conclusion
●
Une activité de R&D forte
–
–
–
–
●
Ancien laboratoire de l'Ecole des Mines de Paris
4 Docteurs, 2 Doctorants sur 26 employés !
A permis la création de l'entreprise
Relations fortes avec le milieu académique
Des axes de recherche diversifiés
–
–
–
Utilisation de méthodes statistiques
Extension de méthodes plus traditionnelles
Ouverture d'esprit !
89
Conclusion
●
Une plateforme pour l'accès à l'information
–
–
–
●
Une architecture ouverte
–
–
●
Unification de sources multiples
Réutilisation de l'existant
De la plus petite à la plus grande échelle
Nouveaux composants / produits Exalead
Produits “third-party”
Une interface utilisateur unique
–
–
Pour tous les produits Exalead
Pour tous les terminaux
90
Conclusion
●
Les axes de développement futurs :
–
Support multi-lingue
●
–
Diversifier les sources de données
●
–
Mise en forme des contenus
S'adapter à un plus grand nombre de terminaux
●
●
Son, Image, Vidéo
Affiner les méthodes d'extraction
●
–
Europe de l'Est, Asie
Mobilité, Téléphonie
Recruter de nouveaux collaborateurs !!!
–
A vous de jouer ;-)
91