Les agents de recherche sur Internet

Transcription

Les agents de recherche sur Internet
Les agents de recherche sur Internet
Table des matières
Définition ................................................................................................................................... 2
Fonctionnalités attendues ....................................................................................................... 2
Pourquoi ce besoin d’agent pour internet................................................................................... 3
Caractéristiques de l’internet.................................................................................................. 3
Modélisation de la structure du web ...................................................................................... 3
Les méta-moteurs ....................................................................................................................... 4
En ligne .................................................................................................................................. 4
Généralistes ........................................................................................................................ 4
Spécialisés .......................................................................................................................... 5
En logiciel .............................................................................................................................. 6
Généraliste.......................................................................................................................... 6
Spécialisé pour les groupes de discussions ........................................................................ 7
Les agents de veille .................................................................................................................... 8
De pages ................................................................................................................................. 8
De sites ................................................................................................................................... 8
Revue de presse...................................................................................................................... 9
De moteurs de recherche ........................................................................................................ 9
Les agents d’alerte des serveurs ............................................................................................. 9
Les aspirateurs.......................................................................................................................... 10
Les analyseurs .......................................................................................................................... 11
Extraction terminologique & résumé ................................................................................... 11
Métamoteur Extracteur et Catégoriseur ............................................................................... 11
Métamoteur Extracteur et Constructeur de Carte................................................................. 11
Les solutions intégrées ............................................................................................................. 12
Références bibliographiques .................................................................................................... 13
Ouvrages............................................................................................................................... 13
Sites web .............................................................................................................................. 13
Les agents de recherche sur Internet
Définition
Par le terme d'agents de recherche d'informations, nous qualifierons toute la gamme de
logiciels intermédiaires entre les moteurs de recherche et les "agents intelligents", consacrés à
la recherche d'informations. Leur intérêt réside dans leur capacité à remplir et à automatiser
des tâches à la place de l'utilisateur. Ils suivent à la lettre la définition du terme agent : "entité
agissant pour le compte de quelqu'un".
Cette vague définition admise, les agents de recherche d'informations sont d'une grande
diversité, remplissant rarement les mêmes tâches. On peut les distinguer par les fonctions
qu'ils remplissent, tout en gardant à l'esprit que nous allons vers des outils de plus en plus
complets, intégrant ces diverses fonctionnalités dans un même produit.
Fonctionnalités attendues
Différentes catégories de recherche (Web, science, Newsgroup…).
Pas de limitation du nombre de réponses.
Personnalisation d’une catégorie de recherche.
Annotation sur les pages.
Filtrage des domaines dans la recherche (.edu, .com).
Filtrage des domaines dans les résultats.
Crawling supplémentaire à partir des liens des pages trouvées.
Prise en compte de bases de données telles que Medline, INIST…
Option « Résumé » d’une page.
Télédéchargement de sites entiers.
Filtrage par site.
Recherche sur les résultats.
Catégorisation des pages selon leur contenu.
Cartographie des résultats
Veille sur le contenu des pages
Planification de la veille des pages.
Pourquoi ce besoin d’agent pour internet
Caractéristiques de l’internet
Information massive
Information dynamique
Information désorganisée
Faiblesse des moteurs de recherche
Modélisation de la structure du web
Etude conjointe entre AltaVista Company, IBM Almaden Research Center et Compaq
Systems Research (Broder A., Kumar R., Maghoul F., Raghavan P., Rajagopalan S., Stata R.,
Tomkins A., Wierner J., 2000, Graph structure in the web. Actes du Colloque : Proceedings
of the 9th International World Wide Web Conference, p. 309-320)
Les méta-moteurs
Un méta-moteur est « un moteur au-dessus des moteurs ». Dans la pratique, un méta-moteur
interroge au moins deux moteurs voire plusieurs centaines de moteurs, pour les plus
performants. L'avantage d'un méta-moteur est de permettre de poser une requête en une seule
fois et d'obtenir en une interrogation les résultats de plusieurs index. L’avantage de tels outils
est la rapidité de recherche : plus besoin d’aller sur chaque outil de recherche, de poser sa
requête et d’attendre les résultats. L’inconvénient d’un tel procédé d’interrogation de masse
est qu’il ne permet pas d’exploiter toutes les fonctionnalités d’un outil de recherche, et reste
limité à des interrogations sommaires, avec les opérateurs booléens les plus courants ET, OU,
SAUF.
Les méta-moteurs peuvent être dissociés en deux catégories : en ligne et hors-ligne, ou
téléchargeables. Les méta-moteurs en ligne interrogent souvent moins de moteurs que leurs
confrères téléchargeables et ne disposent pas de toutes les fonctionnalités (en autres
d’archivage) offertes par une solution sur poste.
On distinguera quatre fonctions principales :
Recherche d'informations : celle-ci peut se faire de manière "intelligente" par l'utilisation de
méta-moteurs perfectionnés (WebSeeker, Copernic Pro), d'outils d'analyse linguistique des
requêtes (Autonomy, DigOut4U) ou par exploration de liens hypertextes à partir d'une URL
(adresse d'une page web) donnée, sans utilisation d'un moteur de recherche (DigOut4U)
Analyse des informations récupérées : indexation sémantique des résultats (EchoSearch,
WebCompass), résumé automatique (EchoSearch, WebCompass, DigOut4U)
Filtrage, édition, archivage, mise à jour des résultats (WebSeeker, BullsEye)
Navigation off-line parmi des pages ou des sites web téléchargés (WebWhacker, Teleport Pro)
En ligne
Généralistes
Répertoire comparatif des métamoteurs
Version
Version
Métamoteur.net : http://www.meta-moteur.net/
All Metasearch : http://www.allmetasearch.com/
KartOO
http://www.kartoo.com/
Ce métamoteur intelligent puise ses résultats dans une quinzaine de
moteurs français et anglais (Yahoo, Google, Excite, Nomade...) et
affiche les résultats sur une carte thématique. Il propose des
fonctionnalités innovantes telles que l’interrogation en langage naturel,
l’interprétation booléenne automatique, l’envoi des résultats à un
tiers, ...
Ixquick
http://www.ixquick.com/
Ixquick connaît les moteurs de recherche qui peuvent s’occuper des
expressions, de la logique booléenne, des caractères jokers et d’autres
commandes de recherche. Ixquick traduira puis expédiera votre
recherche, uniquement sur les moteurs qui peuvent gérer la complexité
de votre recherche.
Mamma
http://www.mamma.com/
Mamma interroge simultanément dix des principaux moteurs de
recherche après leur avoir adapté le format des mots et la syntaxe.
Mamma crée ensuite une base de données virtuelle, organise les
résultats, les met dans un format uniforme et les présente selon leur
pertinence et leur source
MapStan Search
http://search.mapstan.net/
Ce méta-moteur de capitalisation des recherches vous offre :une
vision synthétique des résultats,des suggestions complétant les
résultats,un catalogue dynamique des sites WEB
ProFusion
http://www.profusion.com
Spécialisés
http://www.seeq.com/popupwrapper.jsp?referrer=&domain=intelligenc
ealert.com&direct=true
En logiciel
Généraliste
Répertoire comparatif des logiciels
Métamoteur.net
http://www.meta-moteur.net/logiciel/
Copernic
http://www.copernic.com/
Copernic Agent , une solution complète de recherche, d’analyse et de veille
Info complémentaire
http://www.agentland.fr/pages/learn/articles/loupe/loupe_copernicagent.html
Strategic finder
http://www.strategicfinder.com/
Glooton
Glooton est un métamoteur idéal pour les néophytes et les personnes
qui veulent se familiariser avec ce type d’outil de recherche. Quant aux
utilisateurs avancés, cet agent leur obéira au doigt et au clavier grâce à
l’ajout manuel de sources. En effet, bien que Glooton ne permette pas
d’ajouter ses propres sources, il est possible, pour ceux qui ont l’âme
d’un programmeur, de développer eux-même leurs propres plug-ins en
utilisant le langage « Internet Search Interface (ISIL) » disponible à
cette adresse http://developer.apple.com/technotes/tn/tn1141.html
Info complémentaires
http://www.agentland.fr/pages/learn/articles/glooton.html
WebSeeker
http://www.bluesquirrel.com/products/seeker/
Info complémentaires
http://www.agentland.fr/pages/learn/articles/webseeker.html
WebFoil
http://webfoil.iwarp.com/
FirstStop Websearch
http://www.firststopwebsearch.com/index.html
Subject Search Spider
http://www.kryltech.com/spider.htm
WebFerret
http://www.ferretsoft.com/
Bullseye
N’est plus commercialisé ! Ancien produit de Intelliseek
http://www.intelliseek.com/
Spécialisé pour les groupes de discussions
répertoire
http://www.freedownloadscenter.com/Network_and_Internet/Newsreader_Tools/NewsMonge
r.html
NewzCrawler
http://www.newzcrawler.com/
Les agents de veille
De pages
http://www.copernic.com/en/products/tracker/index.html
http://www.activeurls.com/en/
Info complémentaires
http://www.agentland.fr/pages/learn/articles/checkget.html
News Watch http://www.xemico.com/newswatch/index.html
http://www.wysigot.com/
De sites
http://aignes.com/
Info complémentaires
http://www.agentland.fr/pages/learn/articles/websitewatcher.html
http://www.timelyweb.com
Info complémentaires
http://www.agentland.fr/pages/learn/articles/timelyweb.html
Revue de presse
http://www.headlineviewer.com/
http://www.bbc.co.uk/newsline/
De moteurs de recherche
Les agents d’alerte des serveurs
Les aspirateurs
Website Extractor
http://www.internet-soft.com/extractor.htm
Grab-a-site
http://www.bluesquirrel.com/products/grabasite/index.html
Subject Search Siter
http://www.kryltech.com/siter.htm
Subject Search Siter (SSSiter™) permet de rechercher dans un
site Web (mots clés, expressions, questions etc.) et de recevoir un
rapport avec les liens classés par pertinence et une partie du texte.
Il recherche les résultats dans 36 langues (correspondance totale,
partielle et approximative).
Les analyseurs
Extraction terminologique & résumé
GuideBeam
http://www.guidebeam.com/
Copernic summarizer
http://www.copernic.com/en/products/summarizer/download.html
Sinope summarizer
http://www.sinope.nl/en/sinope/
Subject Search Summarizer
SSSummarizer™
http://www.kryltech.com/summarizer.htm
Métamoteur Extracteur et Catégoriseur
Exalead
http://www.exalead.com/cgi/exalead/l=en
Vivisimo
http://vivisimo.com/
Métamoteur Extracteur et Constructeur de Carte
Mapstan search
http://search.mapstan.net/
Kartoo
http://www.kartoo.com/
Les solutions intégrées
Panorama des principales solutions intégrées
Editeur
Solution
Commentaires
Alogic
Aperto Libro
Solution réalisant l’identification et la valorisation des sources
d'information ; l’exploration, l’acquisition et le stockage de contenus à
exploiter ; la création de bases de connaissances textes et images,
d'infothèques mises à jour en permanence propriétaires ou mutualisées.
Arisem
KM Server /
Competitive
Intelligence
Surveillance du Web en continu, classification de l'information selon des
catégories prédéfinies et sous forme d'arborescence, diffusion de
l'information en mode alerte. La KM server propose en outre de multiples
fonctionnalités de travail coopératif.
Datops
Pericles 2.0
Suite logicielle modulaire qui se définit comme solution de Business
Intelligence. La brique ETL peut capter toute source d’information
électronique (Web, presse, intranet, bases de données, mail,
newsgroups). La brique InfoWarehouse assure le stockage. La brique
InfoMining permet l'analyse lexicale, linguistique ou sémantique ainsi que
la catégorisation. Pericles Report met à disposition des utilisateurs des
outils de recherches, des tableaux de bords graphiques et des outils
interactifs de datamining et d’exploration.
Evolution
Solution intégrée composée d'une plate-forme de base sur laquelle
viennent se greffer des modules additionnels. La surveillance de pages ou
de sites Web est possible, ainsi que des alertes par mail en fonction d'un
niveau de modification prédéterminé : modification de plus de x % du
contenu d'une page, modification des images, des liens par exemple. Le
Web invisible, les listes de discussion et les groupes de discussion Usenet
sont également surveillables.
Intelliseek
Marketing
intelligence
Propose une gamme de solutions permettant de scruter l'information
disponible sur le Web, à hauteur de cinq millions de pages par jour.
L'information peut concerner la marque de l'entreprise, l'impact d'une
campagne de publicité, les avis de consommateurs postés sur des forums,
etc.
Sinequa
Intuition /
iInternet
Avec le produit iInternet, le moteur de recherche Intuition indexe pages et
sites Internet. Avec le produit iPush (développé en collaboration avec
Thales TRT), les utilisateurs sont prévenus des résultats de leurs filtrages
sélectifs.
Verity
Verity K2
Enterprise
Solution intégrée de recherche et de catégorisation, K2 Entreprise indexe
de multiples sources de données textuelles (e-mail, bases de données,
sites Web) et référence automatiquement les nouveaux documents. La
solution fusionne et catégorise les résultats issus de recherches sur les
index de sources d’information Internet telles que Altavista, Factiva,
Google, Hoover ou Moreover.
Albert
AMI Market
Intelligence
Automatise la collecte et l'analyse d'informations situées sur des sites
concurrents, des fichiers, des groupes de discussion, etc. Interface Web.
Digimind
Références bibliographiques
Ouvrages
Recherche et veille sur le web visible et invisible.
Agents intelligents. Annaires sélectifs.
Interfaces des grands serveurs. Portails
thématiques.
de Riou Foenix
Éditeur : Tech.& Doc./Lavoisier (11 avril 2001)
ISBN : 2743004509
Intelligence stratégique sur Internet : Comment
développer des activités de veille et
d’intelligence économique sur le web. Moteurs
de recherche, réseaux d’experts, agents
intelligents.
de Carlo Revelli
Éditeur : Dunod (1 mai 2000)
Collection : Stratégies et Management
ISBN : 2100051547
La recherche intelligente sur l'Internet
de Henry Samier, Victor Sandoval
Éditeur : Hermes Sciences Publicat. (21 septembre 1999)
ISBN : 2746200708
Guide de la recherche sur Internet : Outils et
méthodes
de Béatrice Foenix-Riou
Éditeur : Nathan Université (16 mai 2002)
Collection : Collection 128
ISBN : 2091911933
Sites web
http://www.agentland.fr/
Ce site consacré aux agents intelligents, est développé par la société
Cybion. Agentland, le portail des agents intelligents : agents de
veille, agents de recherche d’information sur Internet, comparateurs
de prix, shopbots, assistants virtuels, meta moteurs, intelligence
artificielle, robots..

Documents pareils

Un astronome joue au «moteur de moteurs»

Un astronome joue au «moteur de moteurs» résumé de pages Web hérité de la technologie «Summarizer», programme dédié exclusivement à la tâche de contraction de texte (voir ci-dessous). Enfin, dernière nouveauté, Copernic propose également u...

Plus en détail

Guide de recherche web

Guide de recherche web un métachercheur ou un métamoteur est en réalité un outil de recherche qui permet de solliciter une même requête sur plusieurs moteurs de recherche simultanément .en utilisant ce type de recherche ...

Plus en détail