Des outils au service de la veille technologique.
Transcription
Des outils au service de la veille technologique.
Des outils au service de la veille technologique. La bibliométrie : techniques d’analyse textuelle et statistique des publications scientifiques et techniques Hervé Rostaing CRRM Université Aix-Marseille III Centre scientifique de Saint Jérôme F-13397 Marseille Cedex 20 FRANCE Tel: +33 4 91 28 87 46 Fax: +33 4 91 28 87 12 e-mail: [email protected] web: http://crrm.u-3mrs.fr Introduction: définitions, histoire et fondements de la bibliométrie La bibliométrie est un ensemble de techniques dédiées à l’analyse de grands volumes de données de références bibliographiques mettant en œuvre des méthodes mathématiques, statistiques et informatiques. Ces techniques d’analyse sont utilisées pour découvrir les relations, les tendances et les modèles décrivant l’activité de publication des chercheurs et des inventeurs de façon à mieux comprendre l’évolution et la construction des domaines scientifiques et techniques. Les premières travaux bibliométriques remontent au début du vingtième siècle. Ces premières études étaient consacrées à l’analyse mathématique et statistique des caractéristiques des distributions de données bibliographiques. Certaines de ces études ont marqué la communauté scientifique en science de l’information à un point tel que les chercheurs ayant réalisé ces études ont donné leur nom à certaines « lois » bibliométriques: la loi de Zipf (Zipf, 1949), la loi de Lotka (Lotka, 1926), la loi de Bradford (Bradford, 1948)… Ces lois bibliométriques essayent de formuler mathématiquement la distribution statistique de certaines données bibliographiques. Un peu plus tard, dans les années soixante, De Solla Price a été l’un des plus actifs instigateurs d’un nouveau domaine d’application des techniques bibliométriques. Physicien d’origine, De Solla Price chercha à consolider et à démontrer certaines théories en sociologie de la science par des études quantitatives (Price, 1963). L’école de pensée initiée par De Solla Price est à l’origine de la création des bases de données de l’ISI1 : SCI (Science Citation Index), SSCI (Social Science Citation Index), A&HCI (Art and Humanities Citation Index). Ces bases de données furent les outils indispensables à la réalisation des expériences voulues par De Solla Price. Depuis, ces bases de données sont devenues la référence mondiale pour effectuer des études d’évaluation internationale et multidisciplinaire de la 1 ISI : Institute for Scientific Information (http://www.isinet.com) créé par Eugène Garfield (Garfield, 1979) Article soumis à la revue Economía Industrial recherche scientifique. Une nouvelle terminologie est apparue pour définir cette nouvelle application des techniques bibliométriques : la Scientometrie ou encore appelée plus élogieusement la Science de la science. La décennie suivante a vu apparaître les premières expériences « cartographiques » (Small, 1973). La création de ces cartes avait pour objectif de rendre visible (graphiquement) les relations existant entre les données bibliographiques et donc entre les publications scientifiques. Ces cartes essaient de recréer visuellement la cohésion des travaux scientifiques et par là même la structure des relations établies entre les différentes écoles de pensées ou les différents champs disciplinaires. Dans les années quatre-vingts, la démocratisation des ordinateurs, l’utilisation des techniques de télécommunication et l’accès aux grandes bases de données scientifiques et techniques ont permis une plus large diffusion de l’application des techniques bibliométriques. De nombreux acteurs ont pu appliquer ces techniques sur leurs propres données (données représentant leurs centres d’intérêts) et de nouveau domaines d’application apparurent. L’intelligence compétitive, la veille technologique et la bibliométrie Depuis plusieurs années, les techniques bibliométriques sont utilisées pour répondre à des besoins émanant des entreprises. La bibliométrie est très utile pour accompagner et soutenir des activités de veille scientifique et technique intégrée à des démarches globales d’intelligence compétitive dans les entreprises. L’intelligence compétitive2 a pour objet la surveillance de toutes les activités directes ou indirectes des concurrents d’une entreprise. La veille technologique3, pour sa part, est concentrée sur la surveillance de l’activité de la Recherche et du Développement (R&D) de ces mêmes concurrents. La veille technologique s'intéresse tout naturellement aux informations utiles au processus d’innovation dans l’entreprise, c’est à dire l’information scientifique, technique et technologique. Ces veilles scientifiques, techniques et technologiques sont reconnues sous le terme unificateur de veille technologique. Les activités en sciences et techniques sont parfaitement bien répertoriées dans des sources d’informations telles que les bases de données scientifiques (répertoires des publications scientifiques) ou les bases de données techniques (répertoires des demandes de brevets). Par contre, la croissance constante du volume de ces sources de données textuelles ainsi que l’augmentation de la complexité de la fragmentation des données qu’elles contiennent rendent leur analyse globale très difficile. Ces sources ont été conçues pour offrir des moyens ponctuels de recherche d’information pour les experts mais n’offrent aucun outil permettant des analyses globales de l’évolution des tendances. Les entreprises sont conscientes de la pertinence des données proposées par 2 3 La traduction anglo-saxonne de ce terme est Competitive Intelligence ou Business Intelligence. La traduction anglo-saxonne de ce terme est Competitive Technical Intelligence ou Technology Watch 2 Article soumis à la revue Economía Industrial ces sources puisqu’elles s’en servent comme sources privilégiées de collecte de l’information destinée aux spécialistes (finalité documentaire des bases de données). Il paraît alors particulièrement judicieux d’intégrer des traitements automatiques de ces données textuelles pour aider au pilotage de la R&D dans les entreprises. Evaluer le potentiel R&D des concurrents ? Connaître les points forts et points faibles de sa R&D par rapports à ses concurrents ? Prendre connaissance des dernières orientations de la R&D de ses concurrents et tenter d’appréhender leurs stratégies actuelles ? Identifier l’apparition de nouveaux acteurs ou de nouveaux domaines d’application ? Repérer les rapprochements et les partenariats entre des acteurs d’un domaine ? Répertorier les connaissances et compétences de ces acteurs ? Et dégager de toutes ces tendances les menaces ou les opportunités potentielles ? L’application des techniques bibliométriques aux bases de données scientifiques et techniques peuvent d’aider à répondre à ces interrogations. Les données textuelles scientifiques et techniques collectées dans ces sources doivent impérativement être transformées en information, en « intelligence » c'est-à-dire en information utile à l’aide à la décision et à l’action. De façon générale, le « cycle de l’intelligence » est le modèle préconisé en intelligence compétitive pour obtenir ces informations pour action. Ce cycle est traditionnellement défini selon cinq étapes (Figure 1) : définition des axes de veille ; collecte des données sur les activités des concurrents ; validation, traitement, analyse et expertise des données collectées ; production et diffusion des conclusions auprès de décideurs ; et finalement, décisions et actions. Appliqué à la veille technologique, ce cycle possède certaines caractéristiques : - Les axes de la veille technologique sont définis selon les besoins pour accompagner la stratégie d’innovation et de R&D de l’entreprise. Ces besoins sont définis soit selon une démarche Top-down par la Direction Générale ou la Direction de la R&D soit selon une démarche Bottom-Up par émergence d’opportunités technologiques issues des acteurs de la R&D et ensuite validées par les instances décisionnaires. - La phase de collecte des données est en partie pleinement satisfaite par les technologies de l’information et de la communication (TIC) qui s’appuient sur les grandes de bases de données scientifiques et techniques4. Ces technologies permettent d’identifier et de sélectionner les informations pertinentes en un laps de temps très court. Il n’est pas rare que la phase de collecte aboutisse au recueil d’un nombre très conséquent de documents. Cela est particulièrement vrai lorsque que l’activité de veille technologique est en amont du lancement d’un projet d’innovation qui fait appel à des connaissances encore inconnues ou non maîtrisées par les acteurs de la R&D. Cette collecte d’information certifiée peut-être complétée par une collecte d’information informelle qui est très souvent compliquée à organiser et à animer. 4 3 Article soumis à la revue Economía Industrial - La phase de traitement et d’analyse des données devient alors un point critique dans le cycle de veille technologique. Le volume de données à expertiser et la complexité des sujets à étudier peuvent devenir des éléments rédhibitoires à la bonne réalisation de cette phase d’analyse. Il devient alors primordial d’offrir aux experts des outils d’aide à l’analyse de ces données pour garantir le succès de l’activité de veille technologique. Il serait en effet déraisonnable de soumettre de trop grands volumes de données à des experts sans aucune assistance sous peine de créer une démotivation et un désintéressement irréversible de ces experts pour de futures actions de veille technologique. Le facteur temps est aussi un élément très important pour garantir une action de veille efficace. Le cycle de vie de la veille doit être relativement court pour offrir rapidement aux décideurs des réponses à leurs interrogations. 1 – Définition de la veille 5 – Decision et action 2 – Collecte des données Données textuelles 4 – Production et diffusion 3 – Validation, analyse et expertise Figure 1 : le cycle de l’intelligence en veille technologique Les techniques bibliométriques prennent toute leur importance au cours de cette phase de structuration des connaissances nouvelles et d’assistance à l’expertise. De nombreux exemples ont montré l’apport des techniques bibliométriques pour le soutien des activités de veille technologique dans des entreprises françaises. De nombreuses thèses effectuées en entreprise par des étudiants formés dans notre centre de recherche ont prouvé le réalisme de la mise en oeuvre de telles techniques : - Christophe Bisson (2003) a fait développer des modules de traitements bibliométriques dans une solution informatique de veille adaptée aux 4 Article soumis à la revue Economía Industrial besoins de la PME Automatech spécialisée dans le domaine des circuits intégrés ; - Antonio Da Silva (2002) a intégré les études bibliométriques pour la veille projet au sein du motoriste aéronautique Snecma Motors ; - Eric Catapano (2001) chez CLL.Pharma, une PME spécialisée dans le développement de médicaments génériques, a développé des traitements bibliométriques spécifiques pour connaître le degré de liberté juridique existant autour des brevets de produits thérapeutiques tombant dans le domaine public ; - Hélène Ziegelbaum (1998) pour la société agroalimentaire Danone a adapté l’approche bibliométrique au traitement des commentaires libres des consommateurs soumis à des tests gustatifs ; - Philippe Lauri (1998) a systématisé les analyses bibliométriques de brevets comme outil de benchmarking au sein de la société Gemplus, spécialiste de la carte à puce ; - Stéphane Dumas (1994) pour le Centre Technique CETIM a appliqué les techniques bibliométriques pour l’élaboration du plan directeur du centre ; - William Nivol (1993) a développé un système de traitement automatique et bibliométrique de l’information brevet issue de la base de données interne de l’entreprise en cosmétique L’Oréal. Protocole d’exploitation des données textuelles et traitements bibliométriques Les traitements bibliométriques en veille technologique permettent d’élaborer rapidement des « grilles de lecture » pour un très grand volume de données textuelles. De telles grilles de lecture permettent aux experts d’analyser un plus grand nombre de textes que par une simple lecture. La vision globale fournie par les résultats bibliométriques aide à structurer un nouveau domaine de connaissances en favorisant la création de représentations graphiques (courbes, histogrammes, diagrammes de secteurs, réseaux de relations, cartographie…). Pour atteindre un tel objectif, les techniques bibliométriques suivent quatre principales étapes : 1. Le rassemblement des données textuelles à étudier (le corpus), 2. Le découpage du corpus en unités statistiques, 3. L’extraction et/ou la définition des éléments descriptifs de ces unités statistiques, 4. La visualisation graphique des résultats statistiques. Le rassemblement des données textuelles : la constitution du corpus Les analyses bibliométriques sont essentiellement construites à partir de trois principales sources de données : les bases de données de brevets (références des demandes de brevets), les bases de données bibliographiques en sciences (références de publications scientifiques) 5 Article soumis à la revue Economía Industrial intégrant la notion de « citation »5 aux travaux antérieurs et les bases de données scientifiques ne prenant pas en compte les « citations ». En fait, les techniques bibliométriques peuvent s’appliquer à tous les corpus de données structurées (les données sont répartis selon des rubriques bien définies et balisées par des marques bien identifiables). Comme exemple de traitements bibliométriques appliqués à d’autres sources que les bases de données, nous pouvons citer les travaux d’Hélène Ziegelbaum précédemment évoqués. Ces travaux ont porté sur l’analyse des commentaires oraux formulés par les consommateurs soumis à des tests gustatifs. Un second exemple serait les travaux de Stéphane Dumas qui permis d’analyser les réponses des adhérents du CETIM à une enquête concernent leurs besoins informationnels. Le découpage du corpus en unités statistiques Pour toute analyse statistique d’un corpus de données textuelles, il est nécessaire de choisir l’unité élémentaire qui fera l’objet de l’analyse : l’unité statistique. Pour l’analyse de textes complets (œuvres littéraires, discours politiques, cahiers de laboratoire…) l’unité statistique peut-être la phrase, le paragraphe, le chapitre ou encore une portion de texte définie selon une nombre de mots. Pour les analyses bibliométriques, l’unité statistique la plus logique est la référence bibliographique. Ainsi dans le cas d’un corpus de publications scientifiques, l’objet élémentaire étudié est la description d’un travail scientifique. Dans le cas d’un corpus de références de brevets, l’objet élémentaire étudié est la description technique d’une invention protégée par un brevet. L’extraction et/ou la définition des éléments descriptifs de ces unités statistiques : les éléments caractéristiques Les traitements statistiques, dont font l’objet les unités statistiques, ont pour but d’effectuer une comparaison entre les unités statistiques ou de construire des groupes d’unités statistiques ressemblants. Ainsi, les unités statistiques doivent être caractérisées par des critères qui seront évalués pour obtenir ces classements, ces comparaisons ou ces regroupements. En général, ces critères sont directement obtenus à la suite d’une extraction automatique d’éléments présents dans la description de la référence bibliographique. Cette extraction d’information est facilitée par le format structuré des références bibliographiques provenant des bases de données. Une référence bibliographique est constituée de plusieurs parties (rubriques ou champs bibliographiques) repérées par des balises bien indentifiables : les intitulés des champs bibliographiques (Figure 2). Un champ bibliographique peut contenir plus d’une valeur de même nature. Ces valeurs sont séparées par un caractère séparateur (virgule, 5 Seules les bases de données produites par l’ISI offrent les données sur les « citations ». Ces bases de données contiennent non seulement le signalement des articles scientifiques mais aussi la liste des travaux répertoriés dans la bibliographie pour chacun de ces articles. 6 Article soumis à la revue Economía Industrial point-virgule, espace…). Par exemple, le champ Déposant (PA) de la Figure 2 mentionne plusieurs noms de sociétés ayant co-déposées la demande de brevet. De même le champ Classification international des brevets (IC) indique que plusieurs codes caractérisent le contenu technique protégé par ce brevet. Ainsi chaque unité statistique peut être facilement caractérisée par de nombreux éléments descriptifs : les auteurs des travaux, les organismes qui emploient ces auteurs, les pays d’origine de ces auteurs, la date de la publication, le nom du journal qui publie un article scientifique, les pays couverts par une invention, les concepts scientifiques ou techniques abordés par la publication ou le brevet (mots, mots-clés, codes de classification documentaire)… AN TI TT PR PN Intitulés des champs AP DS PA Champs bibliographiques IN LA CT IC DC MC AB - 91-297731/41 - Transdermal patches for nitroglycerin admin. - with adhesive layer contg. 2-ethyl-hexyl methacrylate! polymer, nitroglycerin and silica - TRANSDERMAL PATCH NITROGLYCERIN ADMINISTER ADHESIVE LAYER CONTAIN ETHYL HEXYL POLYMETHACRYLATE POLYMER NITROGLYCERIN SILICA - 90.04.06 90JP-092694 - EP-450986-A 91.10.09 (9141) Eléments NO9101344-A 91.10.07 (9149) descriptifs CA2039869-A 91.10.07 (9201) FI9101652-A 91.10.07 (9203) - 91.04.08 91EP-303066 - BE CH DE DK ES FR GB IT LI NL SE - (SEKI ) SEKISUI KAGAKU KOGY; (SANW ) SANWA KAGAKU KENKYUSHO; (NIOF ) NIPPON OIL & FATS CO LTD; (SANN ) SANWA KAGAKU KENKYUSHO - NAKAGAWA T,TSUKAHARA H,KURONO M,SATO M,ISHIDA T,TOKITA K,NAKANO M - E - (E)No-SR.Pub - A61K-009/70 A61L-015/16 A61K-031/04 A61K-047/30 - A96 B07 D22 A14 B05 P34 - A04-F06E5 A12-V01 A12-V03A B04-C03B B05-B02C B10-E04C B10-G02 B10-G03 B12-F01B B12-F02 B12-M02D B12-M02F B12-M10A D09-C04B - (EP-450986) Transdermal patches for admin. of nitroglycerin (I) comprise a pressure-sensitive adhesive layer on one surface of a drug-impermeable backing layer. The adhesive layer contains 35-85 wt.% of a polymer (II), 10-30 wt.% of (I) and 5-20 wt.% silica. (II) is a homo- or copolymer in which the major component comprises C(6+) alkyl (meth)acrylates, provided that 2-ethylhexyl methacrylate (EHMA) makes up 40-100% of the total wt. of alkyl (meth)acrylates. (II) is an alkyl methacrylate polymer with an EHMA content of 40-90 wt.%, and has a rolling ball tack value of 2 or less. The silica comprises 20-80% hydrophobic silica and 20-80% hydro-philic silica. The adhesive layer also contains up to 25 wt.% of an alkyl fatty acid ester. USE/ADVANTAGE - The patches may be used in the treatment of heart disease, e.g. angina, myocardial infarction and cardiac insufficiency. They exhibit good adhesion to the skin and provide controlled release of (I) over long periods. (28pp Dwg.No.0/0) Figure 2 : Format structuré d’une référence bibliographique6. Les éléments caractéristiques obtenus par une extraction automatique doivent souvent faire l’objet d’un nettoyage ou d’un regroupement par concepts. Le traitement de nettoyage peut être effectué par une opération manuelle ou par des procédures informatiques automatisées de façon à supprimer les éléments descriptifs inutiles ou erronés. Le travail de regroupement par concepts concerne le rassemblement des termes synonymes ou des termes décrivant des concepts similaires sous un seul 6 Cet exemple de référence brevet est issu de la base de données WPI produite par Derwent. 7 Article soumis à la revue Economía Industrial et même élément caractéristique. Une hiérarchie d’agrégations d’un ensemble d’éléments caractéristiques peut aussi être envisagée pour permettre des analyses avec plusieurs degrés de finesse. Par exemple, les éléments caractéristiques du contenu scientifique ou technique peuvent être agrégés selon une hiérarchie partant des concepts les plus spécifiques aux concepts les plus génériques. Une démarche analogue peut-être nécessaire pour les noms des organismes pour regrouper les organismes selon leur appartenance à différentes catégories institutionnelles (entreprises privées, entreprises publiques, universités, centres et instituts de recherche, associations, administrations…). Ces opérations de nettoyage et de regroupement des éléments caractéristiques des unités statistiques conditionnent très souvent la qualité et la pertinence des résultats finaux. Même si ces opérations sont souvent coûteuses en temps, elles garantissent la qualité du résultat. La visualisation graphique des résultats statistiques La mesure statistique de base dans les études bibliométriques est le comptage de la fréquence d’apparition de chaque élément caractéristique dans les unités statistiques. La fréquence d’un élément caractéristique correspond au nombre de références qui sont caractérisées par cet élément comme le nombre d’articles publiés pour un auteur. Les listes des fréquences produites par ce comptage appliqué aux différents éléments caractéristiques permettent de comparer l’importance de ces caractéristiques pour le corpus étudié. Ce type de résultats sous formes de distribution de fréquences est le plus commun lors des études bibliométriques. Ces listes de fréquences sont alors traduites sous une forme graphique pour faciliter leur interprétation. Les graphiques obtenus sont soit des histogrammes, des diagrammes de secteurs ou des courbes (Figure 3, Figure 4 et Figure 5). Les graphes présentés ici comme exemples sont tirés d’une étude bibliométrique d’un corpus de 2545 références représentant l’activité scientifique de la recherche algérienne sur une période de 10 ans de 1990 à 1999 (Rostaing et al, 2001)7. Quatre éléments descriptifs sont pris en considération dans les exemples précédents (les organismes, les domaines scientifiques, la langue de publication et la date de publication) mais tous les autres éléments descriptifs des références bibliographiques peuvent faire l’objet d’une évaluation similaire (les auteurs, les journaux, les pays…). Néanmoins, il est fortement conseillé d’effectuer un traitement de nettoyage ou de regroupement de ces éléments pour augmenter la pertinence de ces listes de fréquences. 7 Pour des raisons de confidentialité, il ne nous est pas possible de présenter des résultats d’études bibliométriques sur un secteur industriel mais l’analogie avec des résultats obtenus à partir d’un corpus de références brevets est très facile à imaginer. 8 Article soumis à la revue Economía Industrial HYDRO-RES 2% RENEW-ENE 3% ENG&TECHN 3% ARID-REGI 3% NUCLEAR BIOTECHNO SPAT-TECH 1% 1% REG-PLANN 1% 0% TRANSPORT 0% 0 50 100 150 200 250 300 350 400 450 500 USTHB UNIV CONSTANTINE UNIV ORAN UNIV ANNABA ENVIRONME 4% AGRI&FEED 4% UNIV SBA FUNDA-SCI 36% UNIV SETIF CHU ALGER INDU-TECH 5% Without Collab With collaboration POLE BOUMERDES UNIV TIZI OUZOU INFO-TECH 6% ENP INA UNIV BLIDA INDUSTRY 8% UNIV TLEMCEN USTO HEALT&MED 13% MINES&ENE 12% Figure 4 : Principaux organismes de recherche algériens classés par production scientifique décroissante Figure 3 : Répartition des publications algériennes selon les domaines de recherche8 450 400 350 300 250 200 French 150 100 50 0 1990 English 1991 1992 1993 1994 1995 1996 1997 1998 1999 Figure 5 : Evolution de la langue de publication de la production scientifique algérienne De telles statistiques unidimensionnelles apportent de nombreux renseignements mais ne répondent pas à toutes les attentes car les éléments caractéristiques du corpus sont étudiés séparément. Aucune information concernant les relations entretenues entre ces éléments ne peut être obtenues. Les analyses relationnelles des éléments caractéristiques Une seconde mesure statistique est souvent employée dans les études bibliométriques pour permettre l’analyse des relations existant entre les différents éléments caractéristiques : la fréquence des co-occurrences. Ce calcul de fréquence des co-occurrences est très souvent exprimé sous la 8 La signification des abréviations des domaines scientifiques est disponible en Annexe 1. 9 Article soumis à la revue Economía Industrial forme d’une matrice de co-occurrences. L’inventaire de l’ensemble des relations à étudier est alors présenté sous la forme d’un tableau. Ces matrices sont construites soit pour mesurer les associations entre des éléments caractéristiques appartenant à un même champ bibliographique (matrice symétrique de co-occurrences intra-champ) soit pour mesurer les associations entre les éléments caractéristiques appartenant à deux champs différents (matrice asymétrique co-occurrences inter-champs). Les matrices asymétriques inter-champs sont plus souvent connues sous le nom de matrices de contingence. Les matrices de co-occurrences distribuent en lignes et en colonnes les éléments caractéristiques issus d’un ou deux champs bibliographiques (Tableau 1). L’intersection entre une ligne et une colonne mesure la relation entre les deux éléments représentés par cette ligne et cette colonne. Cette mesure s’exprime par la fréquence des co-occurrences de ces deux éléments. Cette fréquence des co-occurrences correspond au nombre de références où les deux éléments sont simultanément présents. Des mesures de relation plus sophistiquées que la fréquence des cooccurrences peuvent être utilisées de façon à réduire le poids des éléments ayant une fréquence très élevée ou augmenter le poids des éléments ayant des fréquences très faibles. Le tableau 1 montre un exemple de matrice de co-occurrences mesurant les relations entre les domaines scientifiques des publications algériennes et les dates de ces publications. La valeur indiquée à l’intersection d’une ligne et d’une colonne représente le nombre de publications (références) publiées dans un domaine scientifique pour une année. 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 60 69 101 90 81 77 106 108 150 164 FONDA-SCI 31 33 54 47 19 24 42 37 34 HEALT&MED 35 24 18 36 14 31 26 49 55 40 46 MINES&ENE 2 8 13 10 18 15 27 35 33 49 INDUSTRY 2 5 7 7 2 8 18 30 45 37 TECH-INFO 6 2 5 4 6 9 22 20 26 25 INDU-TECH 5 16 10 13 8 9 4 5 21 16 AGRI&FEED 3 6 10 8 9 12 12 13 12 13 ENVIRONME 9 4 8 3 8 7 13 14 20 10 ARID-REGI 3 3 2 2 3 4 7 18 18 19 ENG&TECHN 3 1 2 17 4 3 9 7 11 14 RENEW-EN 1 3 3 6 8 2 5 17 15 8 HYDRO-RES 1 3 1 3 1 3 7 NUCLEAR 1 2 1 3 1 4 4 BIOTECHNO 2 1 3 1 3 2 2 SPAT-TECH 2 2 REG-PLANN 1 1 1 TRANSPORT Tableau 1 : Matrice de co-occurrences entre les dates et les domaines scientifiques des publications algériennes Une représentation graphique d’un tel tableau devient rapidement essentielle pour l’interpréter. Quand la taille d’une matrice n’est pas trop 10 Article soumis à la revue Economía Industrial importante (nombre de lignes et de colonnes pas trop élevé) la représentation sous la forme d’un graphe est réalisable (Figure 6). TRANSPORT REG-PLANN SPAT-TECH BIOTECHNO NUCLEAR HYDRO-RES RENEW-ENE ENG&TECHN ARID-REGI ENVIRONME AGRI&FEED INDU-TECH INFO-TECH INDUSTRY MINES&ENE HEALT&MED FUNDA-SCI 500 450 400 350 300 250 200 150 100 50 0 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 Figure 6 : Graphe de la matrice de co-occurrences du Tableau 1 Représentations cartographiques Il est très fréquent que les matrices des co-occurrences générées lors d’une étude bibliométrique soient constituées d’un nombre très important d’éléments caractéristiques. Par exemple la Figure 7 est la simple représentation graphique (histogrammes empilés) de la matrice des cooccurrences croisant les villes algériennes des auteurs des publications et les domaines scientifiques des travaux publiés par ces mêmes auteurs (tableau disponible en Annexe 2). 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% A LGE R ORA N CONST A NT I NE FUNDA-SCI A NNA B A HEALT&MED SB A SE T I F MINES&ENE T LE M CE N INDUSTRY T I ZI OUZOU B LI DA INFO-TECH B E DJA I A INDU-TECH GUE LM A AGRI&FEED M OST A GA NE M B A T NA ENVIRONME B I SK RA ARID-REGI T E B E SSA M 'SI LA ENG&TECHN JIJEL RENEW-ENE T I A RE T SK I K DA HYDRO-RES CHLE F NUCLEAR OUM -E L-B OUA GHI BIOTECHNO B E CHA R M E DE A SPAT-TECH M A SCA RA REG-PLANN HA SSI M E SSA OUD DJ E LFA TRANSPORT OUA RGLA LA GHOUA T B OUFA RI K Figure 7 : Spécialisation scientifique et technologique des villes algériennes 11 Article soumis à la revue Economía Industrial La simple représentation graphique de telles matrices devient inefficace. Des techniques bibliométriques supplémentaires sont alors mises en œuvre. Elles utilisent des méthodes d’analyse statistique multidimensionnelle comme les classifications automatiques (classifications hiérarchiques, K-means clustering…) ou les analyses factorielles (analyse des correspondances, multidimensional scaling…) plus appropriées à l’analyse des matrices complexes (Dou et al, 1990). Ces analyses statistiques multidimensionnelles réduisent la complexité des relations entre les éléments constituant la matrice en cherchant à regrouper ces éléments par ressemblance. Les méthodes de classification automatique (clustering) cherchent à constituer des groupes d’éléments les plus homogènes possibles. Parmi les centaines ou milliers de combinaisons possibles de répartition des éléments en groupes, ces méthodes trouvent une solution de répartition optimisant en même temps la ressemblance des éléments appartenant au même groupe et la dissemblance des groupes constitués. Les méthodes d’analyse factorielle, quant à elles, privilégient la représentation visuelle des relations entre éléments par la construction de « cartes relationnelles » (cartographie). Les éléments sont représentés sous la forme d’un nuage de points projeté sur un plan ou dans un espace à 3 dimensions. Les points sont positionnés sur ces cartes 2D ou 3D de manière à ce que les éléments les plus fortement associés (relations élevées) soient les plus proches les uns des autres sur la carte. L’utilisateur peut alors identifier des groupes de points ressemblants par une simple interprétation visuelle de la cartographie obtenue. La Figure 8 présente la cartographie créée par une analyse des correspondances appliquée à la matrice des co-occurrences représentée par la Figure 7 (tableau disponible en Annexe 2). Cette carte présente les deux ensembles d’éléments caractéristiques de la matrice (éléments en ligne et éléments en colonne) dans une même représentation graphique. Les points rouges symbolisent les domaines scientifiques et les croix bleues les villes algériennes. Les villes placées à proximité sont caractérisées par des profils de domaines scientifiques similaires. Plus la distance entre un domaine scientifique et une ville ou un groupe de villes est faible et plus cette ville ou ces villes ont des chercheurs qui travaillent dans ce domaine scientifique. Bien qu’une telle carte paraisse plus simple à exploiter que la Figure 7, certaines précautions sont à prendre pour ne pas faire de mauvaises interprétations. Lors de la projection du nuage de points sur cette carte 2D certaines déformations ont été introduites modifiant les relations originales existant entre les éléments. Le nuage de points étant décrit au départ dans un espace multidimensionnel (16 dimensions pour notre tableau comportant 17 colonnes), la projection de ce nuage de points dans un espace à 2 dimensions impose obligatoirement des distorsions des distances entre points. Ainsi certains éléments caractéristiques représentés sur cette carte par des points très proches les uns des autres ne le sont pas forcément dans l’espace multidimensionnel calculé par l’analyse des correspondances. 12 Article soumis à la revue Economía Industrial Figure 8 : cartographie créée par une analyse des correspondances appliquée à la même matrice que celle représentée en Figure 7 Pour éviter de mauvaise interprétation visuelle, il est préférable de compléter cette cartographie par une méthode de classification automatique. Afin d’atteindre cet objectif, les coordonnées des points dans l’espace multidimensionnel calculé par l’analyse de correspondances sont conservés dans une nouvelle matrice. Les lignes de cette matrice représentent nos éléments caractéristiques de ce nuage de points et les colonnes les axes de l’espace multidimensionnel calculé par l’analyse des correspondances. Les cellules de cette matrice correspondent aux coordonnées de chaque point sur chacun de ces axes. Une méthode de classification automatique appliquée à cette matrice permet d’identifier les groupes de points les plus proches dans l’espace multidimensionnel. La Figure 9 montre le résultat obtenu par une méthode de classification hiérarchique (à partir d’une matrice de distances euclidiennes et de la stratégie d’agrégation de Ward). En fonction de cette hiérarchie d’agrégations de groupes, 10 groupes d’éléments peuvent être dégagés (les branches de l’arbre qui sont isolées lors de la coupure en pointillés définissent ces dix groupes). La superposition de ces 10 groupes sur la carte factorielle initiale contribue favorablement à l’interprétation visuelle. Cette superposition est restituée par la Figure 10. On peut remarquer que certains points qui semblaient proches sur la carte 2D ne le sont pas vraiment dans l’espace multidimensionnel. Si la représentation en carte 2D ne permet pas de restituer parfaitement les 10 groupes identifiés, il est possible de préférer une représentation en 13 Article soumis à la revue Economía Industrial 3 dimensions qui permette, après quelques rotations, d’offrir un angle de vue plus adapté à la représentation des groupes (Figure 11 et Figure 12). Figure 9 : Les neuf groupes d’éléments dégagés par la méthode de classification automatique appliquée aux coordonnées des points dans l’espace multidimensionnel de l’analyse des correspondances Figure 10 : Superposition de la classification automatique sur la carte factorielle de l’analyse des correspondances 14 Article soumis à la revue Economía Industrial Figure 11 : La carte factorielle de l’analyse des correspondance en 3 dimensions Figure 12 : Zoom du cœur de la carte factorielle avec superposition des groupes obtenus par la classification automatique 15 Article soumis à la revue Economía Industrial Ces dernières représentations cartographiques donnent une meilleure grille de lecture que le simple graphique Figure 7, qui lui-même donnait déjà une lecture améliorée de la matrice de co-occurrences (annexe 2), matrice qui constituait elle-même un acte de synthèse impossible à imaginer par la lecture séquentielle des 2545 références étudiées. Ces dernières cartes sont des outils efficaces pour aider à répondre à des questions qui auraient pu être posées ainsi : Comment peut-on caractériser l’activité scientifique de chaque ville algérienne ? Quelles sont les villes qui ont des profils d’activité similaires ? Quelles sont les spécialités scientifiques de chaque ville algérienne ? D’autres équipes ont montré dans leurs travaux l’apport de ces représentations cartographiques relationnelles au cours d’études bibliométriques. Nous pouvons tout particulièrement citer les travaux des équipes de Pere Escorsa9 (Escorsa et al., 2000), de Xavier Polanco10 (Polanco, 1998), d’Alan Porter11 (Porter, 1995) et de Ronald Kostoff12 (Kostoff, 1997) qui présentent l’exploitation de ces outils pour des études de veille technologique. Les graphes d’analyse réseaux Les cartographies bibliométriques soutenues par des méthodes d’analyse statistique multidimensionnelle ne sont pas toujours très faciles à utiliser. Comme nous avons pu le voir précédemment une interprétation hâtive des premiers résultats fournis peut facilement induire en erreur leur utilisateur. Leur exploitation nécessite de bonnes connaissances dans les méthodes statistiques employées ainsi qu’une bonne pratique expérimentale de leur emploi. C’est pour cette raison que d’autres représentations graphiques sont souvent utilisées en bibliométrie : les graphes d’analyse réseaux. Cette méthode de représentation a l’avantage d’offrir des interprétations bien plus intuitives car les graphes ne sont pas fondés sur des calculs mathématiques compliqués. Un graphe d’analyse réseaux représente visuellement les réelles valeurs contenues dans la matrice de cooccurrences (nombre de travaux communs aux deux éléments) sans calcul mathématique additionnel. Ces graphes d’analyse réseaux représentent les éléments caractéristiques sous la forme des points ou de « boites ». La valeur de la fréquence des co-occurrences entre les deux éléments caractéristiques est représentée par des arcs (liens) entre les deux boites symbolisant les éléments caractéristiques (Figure 13 et Figure 14). L’analyse réseaux est plus particulièrement adaptée à l’interprétation des matrices symétriques des co-occurrences intra-champ. La construction de ces graphes de réseaux est très souvent utilisée pour l’analyse des collaborations entre les acteurs : réseaux de collaborations entre auteurs (Figure 13) ou inventeurs, réseaux de collaborations entre 9 Consulter http://www.iale.es Consulter http://www.inist.fr/uri/accueil.htm 11 Consulter http://www.tpac.gatech.edu/ 12 Consulter http://www.onr.navy.mil/sci_tech/special/technowatch/default.htm 10 16 Article soumis à la revue Economía Industrial organismes (Figure 14) ou sociétés, réseaux de collaborations entre villes, régions, pays.... Figure 13 : Un réseau des collaborations entre auteurs algériens publiant dans le domaine de la Physique Figure 14 : Le réseaux des collaborations entre les organismes algériens 17 Article soumis à la revue Economía Industrial Les cartes de l’analyse réseaux peuvent aussi être appliquée à l’analyse des concepts abordés dans le corpus étudié. Ces cartes mettent en évidence la structure des relations existant entre les différents aspects scientifiques ou techniques traités dans les textes du corpus. Elles permettent d’aider à formuler une image claire de la structure thématique d’un domaine scientifique ou technique. Dans ce style d’analyse, le choix des représentants de ces aspects scientifiques ou techniques à cartographier est très important. Ces représentants sont soit les éléments caractéristiques directement extraits des références (mots-clés, codes de classification documentaire voire mots ou expressions extraits du titre ou du résumé) soit des représentants plus affinés obtenues à la suite d’un traitement de nettoyage et de regroupement sémantique des éléments descriptifs bruts. De nombreuses études bibliométriques réalisées dans notre centre de recherche se sont appuyées sur de tels graphes d’analyse réseaux : pour des analyses de collaborations entre auteurs (Quoniam et al, 1995), pour des analyses de collaborations entre organismes (Giménez et al, 2003), pour des analyses de structuration d’un domaine scientifique (Polity et al, 1997), pour des analyses de liens entre sites Web (Rostaing, 2001), pour des analyses d’une domaine technologique à partir de données brevets (Paoli et al, 2003). Les logiciels informatiques indispensables à ces analyses Les traitements bibliométriques présentés ci-dessus ne peuvent s’envisager comme outils de veille technologique que s’ils sont réalisés à l’aide de logiciels informatiques spécifiques. Mis à part la phase de collecte qui peut être déportée sur les systèmes traditionnels de recherche d’information documentaire, toutes les autres phases des traitements (extractions des informations, mesures statistiques, créations des distributions ou des matrices et visualisations graphiques) ne peuvent se concevoir sans l’utilisation de logiciels dédiés aux traitements bibliométriques. Depuis plus de dix ans, notre centre de recherche a pu expérimenter des traitements bibliométriques, former des étudiants à ces traitements et disséminer leurs usages dans les entreprises grâce au développement de plusieurs générations de logiciels bibliométriques (ces développements étant plus à vocation recherche que commerciale). Ces dernières années ont vu l’apparition de quelques logiciels commerciaux offrant une chaîne presque complète de traitements. Malheureusement, aucun n’offre une panoplie complète de l’ensemble des traitements bibliométriques à l’instar des logiciels d’analyses statistiques. Ces logiciels sont souvent spécialisés dans la réalisation d’un seul type d’analyse bibliométrique privilégié. Quelques études comparatives des avantages et des inconvénients de certains de ces logiciels commencent à apparaître (Trippe, 2003). Elles sont encore peu nombreuses car elles sont conditionnées par l’acquisition ou l’accès à ces logiciels qui sont souvent chers. 18 Article soumis à la revue Economía Industrial Les traitements exposés dans cet article ont été réalisés à l’aide des logiciels développés au CRRM13 (accompagnés du logiciel de reformatage Infotrans14 et du logiciel d’analyse statistique Statistica15) ou à l’aide des logiciels développés par la société MathéoSoftware16. Conclusion La bibliométrie comprend un ensemble de techniques parfaitement adaptées aux besoins de veille technologique en entreprises. Les analyses menées par ses techniques fournissent des supports à forte valeur ajoutée pour l’évaluation et le pilotage de la R&D. Ces techniques accompagnent avantageusement les études menées dans le but d’identifier les émergences et les déclins des recherches ou des technologies, d’effectuer le suivi du comportement de l’ensemble des acteurs et de réaliser le repérage des acteurs ou domaines clés à l’origine des menaces ou des opportunités à venir. De tels outils permettent de soutenir le travail des groupes d’experts impliqués dans les actions de veille technologique. Ils offrent des supports synthétiques et visuels les aidant à s’approprier les éléments de compréhension d’un nouveau domaine scientifique ou technique. Ce sont de très bons supports de communication, d’animation de groupe et de recherche de consensus dans le cadre d’un projet de veille technologique. La pérennité d’une activité de veille technologique dans une entreprise dépend principalement de la qualité de l’animation des groupes d’experts impliqués dans la phase d’analyse. Il faut savoir susciter la motivation et l’intérêt de ces experts au cours de cette tâche. Les supports générés par les techniques bibliométriques permettent d’aider l’animateur de ces groupes de travail à mener à bien sa difficile mission. L’emploi de ces techniques bibliométriques dans de nombreuses entreprises françaises a démontré leur utilité pour accompagner une démarche d’intelligence compétitive et d’aide à l’innovation. Bibliographie Bisson C (2003), Application de méthodes et mise en place d’outils d’intelligence compétitive au sein d’une PME de haute technologie, Thesis: University of AixMarseille III, http://193.51.109.173/memoires/ChristopheBisson_T.pdf Bradford S C (1948), Documentation, Crosby Lockwood & Son, London, 156 p. Catapano E (2001), Conception d’un système de veille stratégique pour la détection systématique d’opportunités de développements technologiques et d’innovations : Applications aux PME de médicaments génériques, Thesis: University of Aix-Marseille III 13 Consulter http://crrm.u-3mrs.fr/commercial/software/software.html Logiciel développé par la société allemande IuK GmbH 15 Consulter http://www.statsoft.com 16 Consulter http://www.matheo-software.com/ 14 19 Article soumis à la revue Economía Industrial Da Silva A (2002), L'information et l'entreprise : des savoirs à partager et à capitaliser, Thesis: University of Aix-Marseille III, http://193.51.109.173/memoires/AntonioDaSilva_T.pdf Dou H, Quoniam L, Rostaing H, Nivol W (1990), “L'analyse des données au service de la bibliométrie. Outil de veille technologique à la dimension des moyennes entreprises”, Revue Française de Bibliométrie, N°8, p. 27-67 Dumas S (1994), Développement d'un système de veille stratégique dans un centre technique, Thesis: University of Aix-Marseille III, http://193.51.109.173/memoires/StephaneDumas_T.pdf Escorsa Castells P, Rodriguez Slavador M, Maspons Bosch R (2000), “Technology mapping, business strategy and market opportunities”, Competitive intelligence review, Vol.11, N°1, p.46-57 Garfield E (1979), Citation Indexing - its Theory and Application in Science, Technology, and Humanities, John Willey & sons, New York, 274 p. Giménez Toledo E, Roman Roman A, Rostaing H (2003), "Analyse du transfert de l'information scientifique et technique entre le secteur public et le secteur privé. Etudes des co-publications dans les revues scientifiques Espagnoles.", International Journal of Information Science for Decision Making, N°6, http://lepont.univ-tln.fr/isdm/PDF/isdm6/isdm6a46_gimenez.pdf Kostoff R (1997), “Database tomography for technical intelligence: analysis of the research impact assessment literature”, Competitive intelligence review, Vol.8, N°2, p.63-79 Lauri P (1998), Conception et gestion d'une cellule de veille technologique. Méthodologie et matérialisation d'un système d'information, Thesis: University of Aix-Marseille III, http://193.51.109.173/memoires/PhilippeLauri_T.pdf Lotka A J (1926), “The frequency distribution of scientific productivity”, Journal of the Washington academy of sciences, Vol 16, N° 12, p. 317-323 Nivol W (1993), Système de surveillance systématique pour le management stratégique de l'entreprise. Le traitement de l'information brevet, de l'information documentaire à l'information stratégique, Thesis: University of Aix-Marseille III, http://193.51.109.173/memoires/WilliamNivol_T.pdf Paoli C, Dou H, Dou J-M, Mannina B (2003), “La construction d'indicateurs brevets par domaines technologiques”, Cahier de la documentation, N°2, p.45-59 Polanco X, François C, Dejean M, Otto C (1998),"Transgenic Plants : Thematic Analysis and Mapping from Patents and Publications to Support Science and Technology Watch", Proceedings : Fifth International Conference on Science and Technology Indicators. Use of S&T Indicators for Science Policy and DecisionMaking, 4-6 june 1998, Hinxton (Cambridge), p. 95-96 Polity Y, Rostaing H (1997), “Cartographie d'un champ de recherche à partir du corpus des thèses de doctorat soutenues pendant 20 ans : Les sciences de l'information et de la communication en France: 1974-94”, Proceedings: Les systèmes d'informations élaborées, Ile Rousse, 14-16 Juin Porter AL, Detampel MJ (1995), “Technology opportunities analysis”, Technological Forecasting and Social Change, N°49, p. 237–255 Price D (1963), Little Science, big Science, Columbia, New York, 118 p. 20 Article soumis à la revue Economía Industrial Quoniam L, Rostaing H, Boutin E, Dou H (1995), “Treating bibliometric indicators with caution: their dependance on the source database.”, Research Evaluation, Vol. 5, N°3, p. 177-181 Rostaing H (2001), “Le Web et ses outils d'orientation. Comment mieux appréhender l'information disponible sur l'Internet par l'analyse des citations ?”, Bulletin des biblitohèques de France, Vol. 1, p. 68-77, http://www.enssib.fr/bbf/bbf-2001-1/10-rostaing.pdf Rostaing H, Léveillé V, Yacine B (2001), “Bibliometric study as an objective picture of the Algerian scientific research practices”, Proceedings: The 8th International Conference on Scientometrics and Informetrics, The University of New South Wales, Sydney, Australia, 15-20 July, p. 607-618 Small H (1973), “Co-quotation in the Scientific Literature: new Measure of the Relationship has between two Documents”, Newspaper of the American Society for Information Science, Flight 24, N°4, p. 265-269 Trippe A (2003), “Patinformatics : tasks to tools”, World Patent Information, N°25, p. 221-221 Ziegelbaum H (1998), Nouvelles approches dans la recherche d'innovation en agroalimentaire. Mise au point et valorisation de nouvelles procédures pour mieux connaître la perception des produits par les consommateurs, Thesis: University of Aix-Marseille III, http://193.51.109.173/memoires/HeleneZiegelbaum_T.pdf Zipf G K (1949), Human behaviour and the principle of least effort, Editions Addison Wesley Annexe 1 Les programmes de recherche scientifiques algériens étudiés Titre Code AGRI&ALIM Agriculture et alimentation REG-ARIDE Développement des régions arides BIOTECHNO Biotechnologies ENVIRONEM Environnement SCI-FONDA Sciences fondamentales SANTE&MED Santé et médecine RESSO-EAU Ressources hydriques TECH-INDU Technologies industrielles INDUSTRIE Industries TECH-INFO Technologies de l'information MINES&ENE Mines et énergie NUCLEAIRE Energie et techniques nucléaire AMEN-TERR Aménagement du territoire EN-RENOUV Energie renouvelable TECH-SPAT Technologies spatiales TRANSPORT Transport 21 Article soumis à la revue Economía Industrial 9 7 5 6 2 235 75 77 46 53 42 72 49 34 24 24 12 23 11 9 4 4 5 5 115 22 6 26 18 17 9 4 5 2 67 23 13 19 2 15 6 21 93 4 2 4 19 4 1 2 4 1 1 2 1 1 8 1 66 5 9 16 11 13 4 5 1 4 28 32 14 1 3 2 3 3 5 2 33 6 7 14 2 6 5 9 2 7 1 3 16 6 12 9 3 3 8 6 2 2 4 10 3 7 2 1 8 1 2 13 1 1 5 5 2 1 2 3 1 1 5 2 2 2 2 1 2 1 1 1 11 6 5 1 1 5 6 1 1 5 3 2 1 2 4 1 2 2 2 4 2 1 2 1 2 1 1 1 2 1 1 1 1 1 1 4 1 2 3 1 1 2 2 3 1 3 4 1 12 TRANSPORT 9 225 155 REG-PLANN 44 380 SPAT-TECH BIOTECHNO HYDRO-RES RENEW-ENE ENG&TECHN ARID-REGI ENVIRONME AGRI&FEED INDU-TECH INFO-TECH INDUSTRY MINES&ENE NUCLEAR ALGER ORAN CONSTANTINE ANNABA SBA SETIF TLEMCEN TIZI OUZOU BLIDA BEDJAIA GUELMA MOSTAGANEM BATNA BISKRA TEBESSA M'SILA JIJEL TIARET SKIKDA CHLEF OUM-EL-BOUAGHI BECHAR MEDEA MASCARA HASSI MESSAOUD DJELFA OUARGLA LAGHOUAT BOUFARIK HEALT&MED FUNDA-SCI Annexe 2 1 2 1 1 1 1 1 1 3 1 1 1 2 1 1 2 22