Veille sur Internet

Transcription

Veille sur Internet
Knowledge
CONSULT
www.knowledgeconsult.com
Veille sur Internet
Panorama des outils
Mars 2001
Table des matières
SELECTION DES SOURCES .............................................................................................................................................3
DIFFERENTES SOURCES DISPONIBLES.................................................................................................................................. 3
IDENTIFICATION ET SELECTION DES SOURCES ................................................................................................................... 3
COLLECTE D’INFORMATIONS ....................................................................................................................................6
VALIDATION .........................................................................................................................................................................7
STOCKAGE.............................................................................................................................................................................7
CREATION D’ANALYSE ET DE SYNTHESE............................................................................................................8
DIFFUSION ..............................................................................................................................................................................9
© Gilles Balmisse
1
Knowledge
CONSULT
www.knowledgeconsult.com
Pour présenter l’ensemble des outils intervenant dans le cadre de la veille, nous allons considérer les
différentes étapes de la démarche de veille stratégique : sélection des sources, collecte d’informations,
validation, stockage, création d’analyse et de synthèse et diffusion.
Nous allons donc nous concentrer sur les outils entrant dans le cadre de l’utilisation opérationnelle de
la veille. Nous ne nous intéresserons pas à la phase de définition qui consiste à créer le plan de veille.
© Gilles Balmisse
2
Knowledge
CONSULT
www.knowledgeconsult.com
Sélection des sources
Différentes sources disponibles
Même si Internet et les systèmes d’information, qu’ils soient internes ou externes, contribuent
largement à alimenter le système de veille, ce ne sont pas les seules sources d’information. En effet,
la presse, les lettres d’information, bref les documents papiers constituent une mine d’informations
souvent oubliées dans les systèmes de veille dans lesquels l’outil informatique a pris le dessus. De
plus, il ne faut pas oublier les individus qui concentrent la plus grande partie de l’information
disponible dans une entreprise. Malheureusement cette information ne se trouve pas sous une forme
explicite facilement gérable par les outils informatiques. Il est alors nécessaire de gérer les
compétences de chacun afin de faciliter l’échange d’informations entre les individus.
Avant de se lancer directement dans l’étude des outils de sélection des sources d’informations, il est
intéressant de regarder quels sont les différents types de sources disponibles pour faire de la veille.
Types de sources
Internet
Bases de données internes
Bases de données externes
Documents papiers
Personnes
Description
- Sites web classiques
- Bases de données en ligne (web invisible)
- News / Forums
- Mailing lists
Système de G.E.D., système de groupware, etc.
Bases de données financières, fils de presse, etc.
Presse, journaux spécialisés, lettres d’information, etc.
Domaines de compétences.
Quelques mots sur le web invisible
Un grand nombre d’informations reste encore inaccessible pour les moteurs de recherche présents sur
le web : c’est ce que l’on nomme le web invisible. Celui-ci est essentiellement constitué de bases de
données en ligne qui contiennent des informations uniquement accessibles au travers de formulaires
d’interrogation.
Identification et sélection des sources
Plusieurs types d’outils permettent de sélectionner des sources spécifiques parmi les grands types
décrits ci-dessus.
Internet
Bases de
données
internes
Outils de
recherche sur
Internet
Moteurs de
recherche et
d’indexation
Agents
intelligents
Outils de
cartographie
Bases de
données
externes
Documents
papiers
Connaissances des supports par les
« spécialistes métier »
Personnes
Outils de localisation
d’expertise
Outils de
catégorisation
© Gilles Balmisse
3
Knowledge
CONSULT
Outils de recherche sur internet
www.knowledgeconsult.com
Pour rechercher de l’information sur le web, plusieurs types d’outils sont à notre disposition : les
annuaires, les moteurs de recherche classiques, les moteurs de recherche sur le web invisible et les
méta-moteurs et enfin les agents « intelligents ».
Un grand nombre d’internautes ne fait pas la différence entre les annuaires tels que Yahoo! et les
moteurs de recherche comme Altavista ou encore Google. Pourtant ces deux types d’outils ont une
approche de la recherche d’information très différentes. En effet, alors que les annuaires référencent
des sites grâce à la description de leur contenu, les moteurs de recherche quant à eux indexent
directement les pages des sites. Les méthodes d’indexation utilisées sont différentes : l’indexation se
fait manuellement sur les annuaires car il faut une personne pour décrire le contenu du site, alors que
les moteurs de recherche utilisent des spiders qui parcourent le web et qui indexent automatiquement
toutes les pages vues. La différence entre ces deux types d’outils est de moins en moins nette, en
effet les annuaires proposent des services de moteurs de recherche (Yahoo! permet par exemple de
faire des recherches sur Google) et vice-versa.
Pour permettre un accès au web invisible, il existe des moteurs spécialisés qui permettent de
rechercher dans certaines bases de données en ligne. Malheureusement il est très difficile de mettre
en place une interface d’interrogation commune à l’ensemble des bases de données. En effet, chacune
d’entre elle possède son propre mode d’interrogation et des développements spécifiques sont
nécessaires.
Devant la multitude d’annuaires et de moteurs de recherche disponibles, des méta-moteurs sont
apparus. Ces outils permettent de lancer simultanément une recherche sur plusieurs moteurs et
d’agréger les résultats.
Agents intelligents
Derniers nés des outils de recherche sur internet, les agents « intelligents » sont des logiciels qui, une
fois installés sur un ordinateur, permettent de faire des recherches sur une multitude de sites en
parallèle. Ces outils permettent de télécharger les pages fournies en guise de résultats pour les
consulter off-line. De plus, ils offrent généralement des fonctionnalités de veille intéressantes :
possibilité d’archiver les résultats ou encore de lancer des recherches de manière périodique.
L’intérêt des agents intelligents de recherche d’information sur internet va augmenter avec l’arrivée du
web sémantique. L’idée principale de ce concept, introduit par le créateur du web, Tim Berners Lee,
est de séparer information et présentation pour faciliter la recherche. Celle-ci est d’autant plus simple
que les ressources sont identifiées de manière unique et organisées hiérarchiquement à l’aide
d’ontologie. Concrètement, chaque ressource web va être couplée à des méta données qui sont en
fait des marqueurs sémantiques décrivant les contenus et les fonctionnalités de ces ressources.
Ainsi, le web sémantique va donner les moyens aux agents intelligents d’exploiter les informations
disponibles sur le web. Il va aussi permettre aux utilisateurs de se libérer des tâches liées à
l’exploitation des résultats d’une recherche.
Cependant, la mise en place de ce web sémantique va probablement prendre un certain temps. D’une
part, parce qu’il est impératif de gérer l’existant qui contient un nombre important de ressources et
d’autre part, parce qu’il va falloir se mettre d’accord sur une ontologie commune à l’ensemble des
individus connectés à internet.
Moteur de recherche et d’indexation
Les moteurs d’indexation et de recherche vont permettre aux veilleurs d’exploiter le patrimoine
documentaire de l’entreprise.
© Gilles Balmisse
4
Knowledge
CONSULT
Outils de cartographie
www.knowledgeconsult.com
Ces outils permettent de représenter graphiquement le contenu des documents en mettant en avant
les concepts les plus importants et les liens qui les unissent. Cette représentation graphique est le
résultat d’analyse linguistique ou statistique des documents textuels. Ces outils permettent, d’une
part, d’appréhender rapidement les thèmes de milliers de textes avant de les lire et, d’autre part,
d’explorer de très gros volumes de documents sans se perdre.
A l’aide de ces outils, le veilleur sera en mesure d’identifier, d’un seul coup d’œil, les sources
d’informations intéressantes de celles qui ne le sont pas.
Outils de catégorisation
Les outils de catégorisation permettent aussi d’analyser automatiquement les documents en les
classant dans diverses catégories. Ces catégories qui peuvent être créées automatiquement vont
permettre au veilleur d’évaluer la pertinence d’une source d’informations en fonction de ses centres
d’intérêt.
Outils de localisation d’expertise
Dans le cadre particulier de la veille, l’objectif de ces outils est d’identifier la ou les personnes
susceptibles de posséder les informations pouvant être utiles aux veilleurs. Pour déterminer quelle est
la compétence d’une personne, il existe deux approches possibles.
La première approche part du principe que la compétence que possède une personne est à l’image de
ce qu’elle publie. On effectue alors une recherche d’expert en effectuant une recherche sur le contenu
des documents réalisés par les experts. Le système renvoie alors le nom de l’auteur du ou des
documents les plus pertinents.
L’autre méthode consiste à créer et étoffer des curriculums très précis des collaborateurs. La
recherche, qui s’effectue alors sur ces curriculums, permet de faire remonter le profil et les
coordonnées des personnes compétentes sur le sujet considéré.
© Gilles Balmisse
5
Knowledge
CONSULT
www.knowledgeconsult.com
Collecte d’informations
Cette phase se découpe en deux étapes, la surveillance et la collecte proprement dite. La surveillance
consiste à scruter régulièrement les sources préalablement identifiées pour déclencher une collecte
d’informations dans le cas où de nouvelles informations seraient apparues.
Surveillance
Sites Web
Noms de
domaine
Outils de
surveillance
de pages
Outils de
surveillance de
noms de
domaine
Collecte
Internet
Web
Web
invisible
Aspirateurs
Spiders
Outils de
recherche sur
le Web
invisible
Documents
papiers
Personnes
Outils de GED
Collecte manuelle
Outils de surveillance de pages
Les outils de surveillance de pages scrutent périodiquement le contenu de pages web bien identifiées.
De cette manière, ils sont en mesure de détecter les modifications éventuelles qui sont intervenues
sur les pages. Un téléchargement du nouveau contenu peut alors être effectué.
Outils de surveillance des noms de domaine
Etre alerté lorsqu’un nouveau nom de site vient d’être déposé au sein d’un nom de domaine
appartenant à un concurrent peut être une information précieuse. En effet, ce nouveau site abritera
peut être un nouveau produit directement concurrent. C’est à ce type de problématique que
s’adressent les outils de surveillance de noms de domaine.
Aspirateurs de sites
A partir du paramétrage d’une U.R.L., généralement la page d’accueil d’un site, ces outils vont suivre
tous les liens rencontrés et télécharger toutes les pages visitées. Il est alors possible de consulter offline un site web dans sa totalité. C’est aussi un excellent moyen de conserver le contenu de sites dont
le contenu se renouvelle fréquemment.
Spiders
Les spiders sont de petits logiciels qui parcourent le web en se déplaçant de liens hypertextes en liens
hypertextes. Les spiders permettent de collecter chaque page visitée.
Outils de G.E.D.
Grâce aux outils d’acquisition numérique utilisés dans les solutions de G.E.D., les documents papiers
peuvent être intégrés dans le système informatique de veille.
© Gilles Balmisse
6
Knowledge
CONSULT
www.knowledgeconsult.com
Validation
La validation de l’information, qui suit généralement un processus bien établi, repose sur l’utilisation
d’outils de workflow. Avant que le document ne soit stocké et mis à la disposition de l’ensemble des
utilisateurs, le moteur de workflow va faire passer le document par plusieurs étapes de vérification
dans le but de limiter la diffusion des erreurs et assurer une qualité globale au document.
Stockage
Cette étape se déroule en deux étapes. Après leur stockage dans une base de données, les
informations sont indexées à l’aide d’un moteur de recherche et d’indexation pour être plus facilement
retrouvées.
Stockage
Indexation
Bases de données
Moteurs de recherche et d’indexation
Base de connaissances
La conservation et les moyens d’accéder à l’information peuvent être intégrés dans un seul et même
type d’outil tel que les bases de connaissances. En effet, une base de connaissances gère à la fois le
stockage (grâce à une base de données qui peut être propriétaire), l’organisation et l’accès à
l’information grâce à des techniques d’indexation et d’intelligence artificielle (raisonnement à base de
cas, système à base de règles, arbres de décision, etc.).
© Gilles Balmisse
7
Knowledge
CONSULT
www.knowledgeconsult.com
Création d’analyse et de synthèse
Nous présentons ici une vision particulière de l’analyse et de la synthèse de l’information collectée
dans la mesure où nous ne faisons mention que de la partie automatique ou semi-automatique du
processus. Cette partie peut être intégralement réalisée manuellement mais les outils informatiques
présentés dans le tableau suivant peuvent apporter une aide précieuse aux experts.
Catégorisation
Analyse de
corpus
Résumé
Traduction
Outils de
catégorisation
Outils de cartographie
des connaissances
Outils de résumé
Outils de traduction
Outils d’analyse du
discours
Outils d’analyse de discours
Les outils d’analyse du discours ont pour objectif de retirer des documents des informations à valeur
ajoutée. Ils vont faire ressortir les concepts les plus représentatifs du contenu du ou des documents.
Ils sont aussi capables de déterminer des liens entre ces concepts.
Outils de résumé automatique
Il est difficile de savoir si un document contient de l’information pertinente en prenant simplement
connaissance de son titre. Toutefois, pour éviter la lecture des documents dans leur totalité, il est
nécessaire de mettre en avant l’information importante qu’ils contiennent. C’est ce que les logiciels
dits de résumé automatique se proposent de faire. Ces derniers permettent l’extraction des phrases
clés pour créer un résumé en temps réel des documents.
Outils de traduction
La traduction nécessite l’utilisation d’outils de traduction automatique. Comme leur nom l’indique, ils
ont pour vocation de traduire, de manière totalement automatique, un document écrit dans une
langue, dite langue source, vers une autre langue, dite langue cible. A l’heure actuelle, si certains
outils sont adaptés au français, à l’anglais, voire à une ou deux autres langues, ils ne sont pas encore
capables de les gérer simultanément et en aveugle, c’est à dire sans savoir a priori dans quelle langue
sont écrits les documents.
La traduction entièrement automatisée présente encore de nombreux défauts. Sans l’intervention
humaine, la traduction automatique reste approximative. Pour obtenir une qualité professionnelle, il
faut spécialiser les systèmes de traduction et toujours prévoir une étape de révision humaine. Cette
révision peut être réalisée à l’aide de ressources telles que des dictionnaires multilingues.
© Gilles Balmisse
8
Knowledge
CONSULT
www.knowledgeconsult.com
Diffusion
Cette dernière étape, qui a pour vocation de diffuser l’information analysée, est cruciale. En effet, elle
constitue la partie visible de la démarche de veille. Si l’information n’est pas diffusée correctement ou
si elle ne correspond pas aux attentes des utilisateurs, personne n’utilisera le système.
Active
Diffusion
Passive
Outils de personnalisation
Moteurs d’indexation
et de recherche
Partage
Travail collaboratif
Outils de groupware
Outils de Push
Outils de personnalisation
Comme leur nom l’indique, ces outils vont permettre de diffuser une information parfaitement ciblée.
Ils viennent en complément des moteurs de recherche et autres outils de push.
Outils de push
A partir du paramétrage des profils utilisateurs (type d’informations recherchées, fréquence d’envoi,
support d’envoi, etc.), le système va diffuser périodiquement les informations auprès des utilisateurs
enregistrés.
Outils de groupware
Il est inconcevable de parler de démarche de veille sans parler de travail collaboratif. Celui-ci repose
généralement sur des outils de groupware qui offrent l’ensemble des fonctionnalités indispensables au
travail de groupe (outils de communications, fonctions de G.E.D., moteur de workflow, etc.).
© Gilles Balmisse
9