adhocSearch
Transcription
adhocSearch
adhocSearch Moteur de recherche cohérent, souple et extensible : • Filtres linguistiques • Langage de recherche complet • Recherche de type booléenne • Recherche en texte libre sur les fichiers électroniques adhocSearch adhoc dispose de son propre moteur de recherche basé sur le composant open source Lucene, une des meilleurs références dans le monde des logiciels libres. La technologie Lucene a été adaptée et intégrée pour répondre aux besoins d’adhoc, et ainsi offrir aux utilisateurs un module de recherche cohérent, souple et extensible. L’atout majeur du module de recherche adhoc est de pouvoir mixer les recherches structurées de type booléennes et les recherches en texte libre sur des fichiers électroniques. Par ailleurs, les logiques d’indexation, basées sur la technologie Lucene, sont très souples. Un langage de requête complet permet de poser des équations complexes en intégrant : - des opérateurs booléens (ET/OU/SAUF), - des possibilités d’expansion des termes (synonymie), - la pondération des termes, - le parenthésage - la recherche ciblée sur une ou plusieurs propriétés. Des filtres linguistiques traitant de la langue française ont été ajoutés afin de garantir une indexation cohérente des termes et une identification des radicaux, des terminaisons, des pluriels et une neutralisation efficace des accents. Des algorithmes complémentaires permettent des recherches par approximation (recherche floue) ou des recherches par l’exemple ou par similarité de document. Chaque réponse est complétée d’un facteur de pertinence de type T/IDF (Terme index frequency), afin de présenter en premier lieu les réponses les plus pertinentes. Paris—73, rue de Turbigo 75003 PARIS Tél. : 01 42 78 01 95 - Fax : 01 42 78 60 48 - Email : [email protected] Sites Internet :www.elp.fr / www.adhoc.eu.com adhocSearch Quelques exemples de requêtes Exemple Descriptif +content : ELF -contents : TOTAL content : ELF DatePub : [01 /01/2005 TO 30/06/2005] (ELF ou FINA) et TOTAL « TOTAL ELF » Cheval Trouve tous les documents traitant de ELF mais pas de TOTAL dans la rubrique « contents ». Trouve tous les documents qui traitent de ELF et qui ont été publiés dans le premier semestre 2005. Exemple de parenthésage. Trouve tous les documents qui traitent de TOTAL en association avec ELF ou FINA. Trouve l’expression exacte « TOTAL ELF » Trouve les documents contenant le terme cheval ainsi que ces dérivés chevaux, chevalin, etc.. Lorsque l’analyseur Français est branché Trouve les documents contenant le terme dont le radical Cheval* Trouve les documents contenant les termes commençant par « te » une lettre (n’importe laquelle) et ce terminant par « te » Trouvent les documents contenant les termes loi et application dans une proximité maximale de 10 termes Modification de la pondération des termes d’une requête. Trouve les documents contenant les termes loi et application en mettant en tête de réponse les documents comportant le terme loi. Utilisation du filtrage des mots vides (stopwords). Cette requête trouvera les documents contenant les termes loi et finance. Le terme « de » sera ignoré de la requête car présent dans la liste des mots vide de la langue Française. Te ?te « loi application » ~20 Loi^10 application « loi de finance » itinérance Motscles :[décret TO loi] Note : Les mots vides sont gérés par langue dans un fichier texte comportant un terme par ligne. Recherches floues basées sur l'algorithme de calcul de la distance de Levenshtein ou de la distance d'édition. Pour effectuer une recherche floue, utiliser le symbole tilde, « ~ », à la fin d'un terme comportant un seul mot. Par exemple, chercher les documents comportant des termes dont la forme est semblable à « itinérance » comme itinérant et itinéraire. Recherche tous les documents comportant des mots clés compris entre « décret » et « loi » dans le champ Motscles. Paris—73, rue de Turbigo 75003 PARIS Tél. : 01 42 78 01 95 - Fax : 01 42 78 60 48 - Email : [email protected] Sites Internet : www.elp.fr / www.adhoc.eu.com adhocSearch Cas particuliers Certains caractères sont réservés, il est toutefois possible de rechercher sur ces caractères dans ce cas il est nécessaire de les protéger. Ces caractères spéciaux sont actuellement : + - && || ! ( ) { } [ ] ^ " ~ * ? : \ Pour ignorer un caractère, il faut utiliser le symbole « \ » avant ce caractère. Par exemple, pour chercher (1+1) :2, il faut utiliser la forme suivante : \(1\+1\)\:2 Parfois, plusieurs syntaxes sont possibles. Par exemple : Pour l’opérateur ET on peut écrire : AND , && Pour l’opérateur OU on peut écrire : OR , || Pour l’opérateur SAUF on peut écrire : NOT, ~~ De même il est possible d’écrire la même équation de plusieurs façons : a ET b Æ +a +b a OU b Æab a ET SAUF b Æ +a –b Une fois la recherche effectuée, les résultats sont retournés sous la forme d’une collection de réponses « Hits ». Par défaut, la collection est triée par pertinence. L’ordre de tri (croissant ou décroissant) ainsi que la rubrique de tri peuvent être spécifiés. Le rendu des résultats se fait par page de N réponses ou globalement (toutes les pages). La base d’indexation correspond à un ensemble de fichiers regroupés Stockage et volumétrie dans un même répertoire. Les fichiers sont en format binaire ; ils contiennent des vecteurs et des clés de hachage, il n’est donc pas possible d’en extraire directement des données. La volumétrie de la base varie en fonction du nombre de Documents et de Fields pris en compte. En règle générale il faut compter 30% de la taille initiale des textes indexés. Paris—73, rue de Turbigo 75003 PARIS Tél. : 01 42 78 01 95 - Fax : 01 42 78 60 48 - Email : [email protected] Sites Internet : www.elp.fr / www.adhoc.eu.com adhocSearch Seuil de pertinence Pour chaque Field ou de façon plus globale au niveau du document, il est possible de déterminer des seuils de pertinence en fixant un poids. Lorsqu’un document est retrouvé, si un seuil de pertinence lui a été affecté, il apparaitra plutôt en tête de résultat. Cette notion permet de mettre en avant certaines rubriques ou certains documents. Paramétrage Une des particularités de la technologie Lucene est d’être extrêmement paramétrable. L’ensemble des composants décrits dans le schéma d’architecture exposent des interfaces permettant d’enrichir les mécanismes du moteur. De plus, la représentation des données à indexer sous la forme d’un dictionnaire au format xml (schema.xml) permet d’étendre dynamiquement le schéma de la base d’indexation. Lucene est une technologie open source multi plateformes qui a fait la Fiabilité preuve de sa robustesse et de sa fiabilité. De nombreux produits intègrent cette technologie : OpenSolaris de Sun, Lookout (MSN Toolbar) Microsoft, Wikipedia, Noheto, AuchanDirect (site internet) etc … Formats des fichiers électroniques reconnus MS-Word MS-Excel MS-Powerpoint PDF Texte HTML XML Indexation de 2Go/Heure en moyenne sur Pentium IV/ Performance Indexation incrémentale aussi rapide que l’indexation en mode batch Taille des index générés : en moyenne 30 % de la taille du texte indexé Nécessite peut de mémoire vive : consomme env. 10 Mo de RAM (réglable) Paris 73, rue de Turbigo 75003 PARIS Tél. : 01 42 78 01 95 - Fax : 01 42 78 60 48 Email : [email protected] Sites Internet : www.elp.fr / www.adhoc.eu.com Dreux 16, rue de Moronval 28100 DREUX Tél. : 02 37 38 92 40 - Fax : 02 37 38 92 43 Email : [email protected] Sites Internet : www.elp.fr / www.adhoc.eu.com