Veille sur Internet
Transcription
Veille sur Internet
Knowledge CONSULT www.knowledgeconsult.com Veille sur Internet Panorama des outils Mars 2001 Table des matières SELECTION DES SOURCES .............................................................................................................................................3 DIFFERENTES SOURCES DISPONIBLES.................................................................................................................................. 3 IDENTIFICATION ET SELECTION DES SOURCES ................................................................................................................... 3 COLLECTE D’INFORMATIONS ....................................................................................................................................6 VALIDATION .........................................................................................................................................................................7 STOCKAGE.............................................................................................................................................................................7 CREATION D’ANALYSE ET DE SYNTHESE............................................................................................................8 DIFFUSION ..............................................................................................................................................................................9 © Gilles Balmisse 1 Knowledge CONSULT www.knowledgeconsult.com Pour présenter l’ensemble des outils intervenant dans le cadre de la veille, nous allons considérer les différentes étapes de la démarche de veille stratégique : sélection des sources, collecte d’informations, validation, stockage, création d’analyse et de synthèse et diffusion. Nous allons donc nous concentrer sur les outils entrant dans le cadre de l’utilisation opérationnelle de la veille. Nous ne nous intéresserons pas à la phase de définition qui consiste à créer le plan de veille. © Gilles Balmisse 2 Knowledge CONSULT www.knowledgeconsult.com Sélection des sources Différentes sources disponibles Même si Internet et les systèmes d’information, qu’ils soient internes ou externes, contribuent largement à alimenter le système de veille, ce ne sont pas les seules sources d’information. En effet, la presse, les lettres d’information, bref les documents papiers constituent une mine d’informations souvent oubliées dans les systèmes de veille dans lesquels l’outil informatique a pris le dessus. De plus, il ne faut pas oublier les individus qui concentrent la plus grande partie de l’information disponible dans une entreprise. Malheureusement cette information ne se trouve pas sous une forme explicite facilement gérable par les outils informatiques. Il est alors nécessaire de gérer les compétences de chacun afin de faciliter l’échange d’informations entre les individus. Avant de se lancer directement dans l’étude des outils de sélection des sources d’informations, il est intéressant de regarder quels sont les différents types de sources disponibles pour faire de la veille. Types de sources Internet Bases de données internes Bases de données externes Documents papiers Personnes Description - Sites web classiques - Bases de données en ligne (web invisible) - News / Forums - Mailing lists Système de G.E.D., système de groupware, etc. Bases de données financières, fils de presse, etc. Presse, journaux spécialisés, lettres d’information, etc. Domaines de compétences. Quelques mots sur le web invisible Un grand nombre d’informations reste encore inaccessible pour les moteurs de recherche présents sur le web : c’est ce que l’on nomme le web invisible. Celui-ci est essentiellement constitué de bases de données en ligne qui contiennent des informations uniquement accessibles au travers de formulaires d’interrogation. Identification et sélection des sources Plusieurs types d’outils permettent de sélectionner des sources spécifiques parmi les grands types décrits ci-dessus. Internet Bases de données internes Outils de recherche sur Internet Moteurs de recherche et d’indexation Agents intelligents Outils de cartographie Bases de données externes Documents papiers Connaissances des supports par les « spécialistes métier » Personnes Outils de localisation d’expertise Outils de catégorisation © Gilles Balmisse 3 Knowledge CONSULT Outils de recherche sur internet www.knowledgeconsult.com Pour rechercher de l’information sur le web, plusieurs types d’outils sont à notre disposition : les annuaires, les moteurs de recherche classiques, les moteurs de recherche sur le web invisible et les méta-moteurs et enfin les agents « intelligents ». Un grand nombre d’internautes ne fait pas la différence entre les annuaires tels que Yahoo! et les moteurs de recherche comme Altavista ou encore Google. Pourtant ces deux types d’outils ont une approche de la recherche d’information très différentes. En effet, alors que les annuaires référencent des sites grâce à la description de leur contenu, les moteurs de recherche quant à eux indexent directement les pages des sites. Les méthodes d’indexation utilisées sont différentes : l’indexation se fait manuellement sur les annuaires car il faut une personne pour décrire le contenu du site, alors que les moteurs de recherche utilisent des spiders qui parcourent le web et qui indexent automatiquement toutes les pages vues. La différence entre ces deux types d’outils est de moins en moins nette, en effet les annuaires proposent des services de moteurs de recherche (Yahoo! permet par exemple de faire des recherches sur Google) et vice-versa. Pour permettre un accès au web invisible, il existe des moteurs spécialisés qui permettent de rechercher dans certaines bases de données en ligne. Malheureusement il est très difficile de mettre en place une interface d’interrogation commune à l’ensemble des bases de données. En effet, chacune d’entre elle possède son propre mode d’interrogation et des développements spécifiques sont nécessaires. Devant la multitude d’annuaires et de moteurs de recherche disponibles, des méta-moteurs sont apparus. Ces outils permettent de lancer simultanément une recherche sur plusieurs moteurs et d’agréger les résultats. Agents intelligents Derniers nés des outils de recherche sur internet, les agents « intelligents » sont des logiciels qui, une fois installés sur un ordinateur, permettent de faire des recherches sur une multitude de sites en parallèle. Ces outils permettent de télécharger les pages fournies en guise de résultats pour les consulter off-line. De plus, ils offrent généralement des fonctionnalités de veille intéressantes : possibilité d’archiver les résultats ou encore de lancer des recherches de manière périodique. L’intérêt des agents intelligents de recherche d’information sur internet va augmenter avec l’arrivée du web sémantique. L’idée principale de ce concept, introduit par le créateur du web, Tim Berners Lee, est de séparer information et présentation pour faciliter la recherche. Celle-ci est d’autant plus simple que les ressources sont identifiées de manière unique et organisées hiérarchiquement à l’aide d’ontologie. Concrètement, chaque ressource web va être couplée à des méta données qui sont en fait des marqueurs sémantiques décrivant les contenus et les fonctionnalités de ces ressources. Ainsi, le web sémantique va donner les moyens aux agents intelligents d’exploiter les informations disponibles sur le web. Il va aussi permettre aux utilisateurs de se libérer des tâches liées à l’exploitation des résultats d’une recherche. Cependant, la mise en place de ce web sémantique va probablement prendre un certain temps. D’une part, parce qu’il est impératif de gérer l’existant qui contient un nombre important de ressources et d’autre part, parce qu’il va falloir se mettre d’accord sur une ontologie commune à l’ensemble des individus connectés à internet. Moteur de recherche et d’indexation Les moteurs d’indexation et de recherche vont permettre aux veilleurs d’exploiter le patrimoine documentaire de l’entreprise. © Gilles Balmisse 4 Knowledge CONSULT Outils de cartographie www.knowledgeconsult.com Ces outils permettent de représenter graphiquement le contenu des documents en mettant en avant les concepts les plus importants et les liens qui les unissent. Cette représentation graphique est le résultat d’analyse linguistique ou statistique des documents textuels. Ces outils permettent, d’une part, d’appréhender rapidement les thèmes de milliers de textes avant de les lire et, d’autre part, d’explorer de très gros volumes de documents sans se perdre. A l’aide de ces outils, le veilleur sera en mesure d’identifier, d’un seul coup d’œil, les sources d’informations intéressantes de celles qui ne le sont pas. Outils de catégorisation Les outils de catégorisation permettent aussi d’analyser automatiquement les documents en les classant dans diverses catégories. Ces catégories qui peuvent être créées automatiquement vont permettre au veilleur d’évaluer la pertinence d’une source d’informations en fonction de ses centres d’intérêt. Outils de localisation d’expertise Dans le cadre particulier de la veille, l’objectif de ces outils est d’identifier la ou les personnes susceptibles de posséder les informations pouvant être utiles aux veilleurs. Pour déterminer quelle est la compétence d’une personne, il existe deux approches possibles. La première approche part du principe que la compétence que possède une personne est à l’image de ce qu’elle publie. On effectue alors une recherche d’expert en effectuant une recherche sur le contenu des documents réalisés par les experts. Le système renvoie alors le nom de l’auteur du ou des documents les plus pertinents. L’autre méthode consiste à créer et étoffer des curriculums très précis des collaborateurs. La recherche, qui s’effectue alors sur ces curriculums, permet de faire remonter le profil et les coordonnées des personnes compétentes sur le sujet considéré. © Gilles Balmisse 5 Knowledge CONSULT www.knowledgeconsult.com Collecte d’informations Cette phase se découpe en deux étapes, la surveillance et la collecte proprement dite. La surveillance consiste à scruter régulièrement les sources préalablement identifiées pour déclencher une collecte d’informations dans le cas où de nouvelles informations seraient apparues. Surveillance Sites Web Noms de domaine Outils de surveillance de pages Outils de surveillance de noms de domaine Collecte Internet Web Web invisible Aspirateurs Spiders Outils de recherche sur le Web invisible Documents papiers Personnes Outils de GED Collecte manuelle Outils de surveillance de pages Les outils de surveillance de pages scrutent périodiquement le contenu de pages web bien identifiées. De cette manière, ils sont en mesure de détecter les modifications éventuelles qui sont intervenues sur les pages. Un téléchargement du nouveau contenu peut alors être effectué. Outils de surveillance des noms de domaine Etre alerté lorsqu’un nouveau nom de site vient d’être déposé au sein d’un nom de domaine appartenant à un concurrent peut être une information précieuse. En effet, ce nouveau site abritera peut être un nouveau produit directement concurrent. C’est à ce type de problématique que s’adressent les outils de surveillance de noms de domaine. Aspirateurs de sites A partir du paramétrage d’une U.R.L., généralement la page d’accueil d’un site, ces outils vont suivre tous les liens rencontrés et télécharger toutes les pages visitées. Il est alors possible de consulter offline un site web dans sa totalité. C’est aussi un excellent moyen de conserver le contenu de sites dont le contenu se renouvelle fréquemment. Spiders Les spiders sont de petits logiciels qui parcourent le web en se déplaçant de liens hypertextes en liens hypertextes. Les spiders permettent de collecter chaque page visitée. Outils de G.E.D. Grâce aux outils d’acquisition numérique utilisés dans les solutions de G.E.D., les documents papiers peuvent être intégrés dans le système informatique de veille. © Gilles Balmisse 6 Knowledge CONSULT www.knowledgeconsult.com Validation La validation de l’information, qui suit généralement un processus bien établi, repose sur l’utilisation d’outils de workflow. Avant que le document ne soit stocké et mis à la disposition de l’ensemble des utilisateurs, le moteur de workflow va faire passer le document par plusieurs étapes de vérification dans le but de limiter la diffusion des erreurs et assurer une qualité globale au document. Stockage Cette étape se déroule en deux étapes. Après leur stockage dans une base de données, les informations sont indexées à l’aide d’un moteur de recherche et d’indexation pour être plus facilement retrouvées. Stockage Indexation Bases de données Moteurs de recherche et d’indexation Base de connaissances La conservation et les moyens d’accéder à l’information peuvent être intégrés dans un seul et même type d’outil tel que les bases de connaissances. En effet, une base de connaissances gère à la fois le stockage (grâce à une base de données qui peut être propriétaire), l’organisation et l’accès à l’information grâce à des techniques d’indexation et d’intelligence artificielle (raisonnement à base de cas, système à base de règles, arbres de décision, etc.). © Gilles Balmisse 7 Knowledge CONSULT www.knowledgeconsult.com Création d’analyse et de synthèse Nous présentons ici une vision particulière de l’analyse et de la synthèse de l’information collectée dans la mesure où nous ne faisons mention que de la partie automatique ou semi-automatique du processus. Cette partie peut être intégralement réalisée manuellement mais les outils informatiques présentés dans le tableau suivant peuvent apporter une aide précieuse aux experts. Catégorisation Analyse de corpus Résumé Traduction Outils de catégorisation Outils de cartographie des connaissances Outils de résumé Outils de traduction Outils d’analyse du discours Outils d’analyse de discours Les outils d’analyse du discours ont pour objectif de retirer des documents des informations à valeur ajoutée. Ils vont faire ressortir les concepts les plus représentatifs du contenu du ou des documents. Ils sont aussi capables de déterminer des liens entre ces concepts. Outils de résumé automatique Il est difficile de savoir si un document contient de l’information pertinente en prenant simplement connaissance de son titre. Toutefois, pour éviter la lecture des documents dans leur totalité, il est nécessaire de mettre en avant l’information importante qu’ils contiennent. C’est ce que les logiciels dits de résumé automatique se proposent de faire. Ces derniers permettent l’extraction des phrases clés pour créer un résumé en temps réel des documents. Outils de traduction La traduction nécessite l’utilisation d’outils de traduction automatique. Comme leur nom l’indique, ils ont pour vocation de traduire, de manière totalement automatique, un document écrit dans une langue, dite langue source, vers une autre langue, dite langue cible. A l’heure actuelle, si certains outils sont adaptés au français, à l’anglais, voire à une ou deux autres langues, ils ne sont pas encore capables de les gérer simultanément et en aveugle, c’est à dire sans savoir a priori dans quelle langue sont écrits les documents. La traduction entièrement automatisée présente encore de nombreux défauts. Sans l’intervention humaine, la traduction automatique reste approximative. Pour obtenir une qualité professionnelle, il faut spécialiser les systèmes de traduction et toujours prévoir une étape de révision humaine. Cette révision peut être réalisée à l’aide de ressources telles que des dictionnaires multilingues. © Gilles Balmisse 8 Knowledge CONSULT www.knowledgeconsult.com Diffusion Cette dernière étape, qui a pour vocation de diffuser l’information analysée, est cruciale. En effet, elle constitue la partie visible de la démarche de veille. Si l’information n’est pas diffusée correctement ou si elle ne correspond pas aux attentes des utilisateurs, personne n’utilisera le système. Active Diffusion Passive Outils de personnalisation Moteurs d’indexation et de recherche Partage Travail collaboratif Outils de groupware Outils de Push Outils de personnalisation Comme leur nom l’indique, ces outils vont permettre de diffuser une information parfaitement ciblée. Ils viennent en complément des moteurs de recherche et autres outils de push. Outils de push A partir du paramétrage des profils utilisateurs (type d’informations recherchées, fréquence d’envoi, support d’envoi, etc.), le système va diffuser périodiquement les informations auprès des utilisateurs enregistrés. Outils de groupware Il est inconcevable de parler de démarche de veille sans parler de travail collaboratif. Celui-ci repose généralement sur des outils de groupware qui offrent l’ensemble des fonctionnalités indispensables au travail de groupe (outils de communications, fonctions de G.E.D., moteur de workflow, etc.). © Gilles Balmisse 9