adhocSearch

Transcription

adhocSearch
adhocSearch
Moteur de recherche cohérent, souple et extensible :
• Filtres linguistiques
• Langage de recherche complet
• Recherche de type booléenne
• Recherche en texte libre sur les fichiers électroniques
adhocSearch
adhoc dispose de son propre moteur de recherche basé sur le composant open source
Lucene, une des meilleurs références dans le monde des logiciels libres.
La technologie Lucene a été adaptée et intégrée pour répondre aux besoins d’adhoc, et ainsi offrir
aux utilisateurs un module de recherche cohérent, souple et extensible.
L’atout majeur du module de recherche adhoc est de pouvoir mixer les recherches structurées de
type booléennes et les recherches en texte libre sur des fichiers électroniques. Par ailleurs, les logiques d’indexation, basées sur la technologie Lucene, sont très souples.
Un langage de requête complet permet de poser des équations complexes en intégrant :
- des opérateurs booléens (ET/OU/SAUF),
- des possibilités d’expansion des termes (synonymie),
- la pondération des termes,
- le parenthésage
- la recherche ciblée sur une ou plusieurs propriétés.
Des filtres linguistiques traitant de la langue française ont été ajoutés afin de garantir une indexation cohérente des termes et une identification des radicaux, des terminaisons, des pluriels et une
neutralisation efficace des accents.
Des algorithmes complémentaires permettent des recherches par approximation (recherche floue)
ou des recherches par l’exemple ou par similarité de document.
Chaque réponse est complétée d’un facteur de pertinence de type T/IDF (Terme index frequency),
afin de présenter en premier lieu les réponses les plus pertinentes.
Paris—73, rue de Turbigo 75003 PARIS
Tél. : 01 42 78 01 95 - Fax : 01 42 78 60 48 - Email : [email protected]
Sites Internet :www.elp.fr / www.adhoc.eu.com
adhocSearch
Quelques exemples de requêtes
Exemple
Descriptif
+content : ELF -contents : TOTAL
content : ELF
DatePub : [01 /01/2005 TO
30/06/2005]
(ELF ou FINA) et TOTAL
« TOTAL ELF »
Cheval
Trouve tous les documents traitant de ELF mais pas de
TOTAL dans la rubrique « contents ».
Trouve tous les documents qui traitent de ELF et qui ont
été publiés dans le premier semestre 2005.
Exemple de parenthésage. Trouve tous les documents qui
traitent de TOTAL en association avec ELF ou FINA.
Trouve l’expression exacte « TOTAL ELF »
Trouve les documents contenant le terme cheval ainsi que
ces dérivés chevaux, chevalin, etc.. Lorsque l’analyseur
Français est branché
Trouve les documents contenant le terme dont le radical
Cheval*
Trouve les documents contenant les termes commençant
par « te » une lettre (n’importe laquelle) et ce terminant par
« te »
Trouvent les documents contenant les termes loi et application dans une proximité maximale de 10 termes
Modification de la pondération des termes d’une requête.
Trouve les documents contenant les termes loi et application en mettant en tête de réponse les documents comportant le terme loi.
Utilisation du filtrage des mots vides (stopwords). Cette requête trouvera les documents contenant les termes loi et
finance. Le terme « de » sera ignoré de la requête car présent dans la liste des mots vide de la langue Française.
Te ?te
« loi application » ~20
Loi^10 application
« loi de finance »
itinérance
Motscles :[décret TO loi]
Note : Les mots vides sont gérés par langue dans un fichier
texte comportant un terme par ligne.
Recherches floues basées sur l'algorithme de calcul de la
distance de Levenshtein ou de la distance d'édition. Pour
effectuer une recherche floue, utiliser le symbole tilde, « ~
», à la fin d'un terme comportant un seul mot. Par exemple,
chercher les documents comportant des termes dont la forme est semblable à « itinérance » comme itinérant et itinéraire.
Recherche tous les documents comportant des mots clés
compris entre « décret » et « loi » dans le champ Motscles.
Paris—73, rue de Turbigo 75003 PARIS
Tél. : 01 42 78 01 95 - Fax : 01 42 78 60 48 - Email : [email protected]
Sites Internet : www.elp.fr / www.adhoc.eu.com
adhocSearch
Cas particuliers
Certains caractères sont réservés, il est toutefois possible de rechercher
sur ces caractères dans ce cas il est nécessaire de les protéger.
Ces caractères spéciaux sont actuellement :
+ - && || ! ( ) { } [ ] ^ " ~ * ? : \
Pour ignorer un caractère, il faut utiliser le symbole « \ » avant ce caractère.
Par exemple, pour chercher (1+1) :2, il faut utiliser la forme suivante :
\(1\+1\)\:2
† Parfois, plusieurs syntaxes sont possibles.
Par exemple :
Pour l’opérateur ET on peut écrire : AND , &&
Pour l’opérateur OU on peut écrire : OR , ||
Pour l’opérateur SAUF on peut écrire : NOT, ~~
De même il est possible d’écrire la même équation de plusieurs façons :
a ET b
Æ +a +b
a OU b
Æab
a ET SAUF b Æ +a –b
Une fois la recherche effectuée, les résultats sont retournés sous la forme d’une collection de réponses « Hits ». Par défaut, la collection est
triée par pertinence. L’ordre de tri (croissant ou décroissant) ainsi que la
rubrique de tri peuvent être spécifiés. Le rendu des résultats se fait par
page de N réponses ou globalement (toutes les pages).
La base d’indexation correspond à un ensemble de fichiers regroupés
Stockage et volumétrie
dans un même répertoire. Les fichiers sont en format binaire ; ils
contiennent des vecteurs et des clés de hachage, il n’est donc pas possible d’en extraire directement des données. La volumétrie de la base
varie en fonction du nombre de Documents et de Fields pris en compte.
En règle générale il faut compter 30% de la taille initiale des textes indexés.
Paris—73, rue de Turbigo 75003 PARIS
Tél. : 01 42 78 01 95 - Fax : 01 42 78 60 48 - Email : [email protected]
Sites Internet : www.elp.fr / www.adhoc.eu.com
adhocSearch
Seuil de pertinence
Pour chaque Field ou de façon plus globale au niveau du document, il est
possible de déterminer des seuils de pertinence en fixant un poids. Lorsqu’un document est retrouvé, si un seuil de pertinence lui a été affecté, il
apparaitra plutôt en tête de résultat. Cette notion permet de mettre en
avant certaines rubriques ou certains documents.
Paramétrage
Une des particularités de la technologie Lucene est d’être extrêmement
paramétrable. L’ensemble des composants décrits dans le schéma d’architecture exposent des interfaces permettant d’enrichir les mécanismes du
moteur. De plus, la représentation des données à indexer sous la forme
d’un dictionnaire au format xml (schema.xml) permet d’étendre dynamiquement le schéma de la base d’indexation.
Lucene est une technologie open source multi plateformes qui a fait la
Fiabilité
preuve de sa robustesse et de sa fiabilité. De nombreux produits intègrent
cette technologie : OpenSolaris de Sun, Lookout (MSN Toolbar) Microsoft,
Wikipedia, Noheto, AuchanDirect (site internet) etc …
Formats des fichiers électroniques
reconnus
MS-Word
MS-Excel
MS-Powerpoint
PDF
Texte
HTML
XML
Indexation de 2Go/Heure en moyenne sur Pentium IV/
Performance
Indexation incrémentale aussi rapide que l’indexation en mode batch
Taille des index générés : en moyenne 30 % de la taille du texte indexé
Nécessite peut de mémoire vive : consomme env. 10 Mo de RAM
(réglable)
Paris
73, rue de Turbigo 75003 PARIS
Tél. : 01 42 78 01 95 - Fax : 01 42 78 60 48
Email : [email protected]
Sites Internet : www.elp.fr / www.adhoc.eu.com
Dreux
16, rue de Moronval 28100 DREUX
Tél. : 02 37 38 92 40 - Fax : 02 37 38 92 43
Email : [email protected]
Sites Internet : www.elp.fr / www.adhoc.eu.com

Documents pareils