Des outils au service de la veille technologique.

Transcription

Des outils au service de la veille technologique.
La bibliométrie : techniques d’analyse textuelle et
statistique des publications scientifiques et techniques
Hervé Rostaing
CRRM
Université Aix-Marseille III
Centre scientifique de Saint Jérôme
F-13397 Marseille Cedex 20
FRANCE
Tel: +33 4 91 28 87 46
Fax: +33 4 91 28 87 12
e-mail: [email protected]
web: http://crrm.u-3mrs.fr
Introduction: définitions, histoire et fondements de la bibliométrie
La bibliométrie est un ensemble de techniques dédiées à l’analyse de
grands volumes de données de références bibliographiques mettant en
œuvre des méthodes mathématiques, statistiques et informatiques. Ces
techniques d’analyse sont utilisées pour découvrir les relations, les
tendances et les modèles décrivant l’activité de publication des chercheurs
et des inventeurs de façon à mieux comprendre l’évolution et la
construction des domaines scientifiques et techniques.
Les premières travaux bibliométriques remontent au début du vingtième
siècle. Ces premières études étaient consacrées à l’analyse mathématique
et statistique des caractéristiques des distributions de données
bibliographiques. Certaines de ces études ont marqué la communauté
scientifique en science de l’information à un point tel que les chercheurs
ayant réalisé ces études ont donné leur nom à certaines « lois »
bibliométriques: la loi de Zipf (Zipf, 1949), la loi de Lotka (Lotka, 1926),
la loi de Bradford (Bradford, 1948)… Ces lois bibliométriques essayent de
formuler mathématiquement la distribution statistique de certaines
données bibliographiques.
Un peu plus tard, dans les années soixante, De Solla Price a été l’un des
plus actifs instigateurs d’un nouveau domaine d’application des techniques
bibliométriques. Physicien d’origine, De Solla Price chercha à consolider et
à démontrer certaines théories en sociologie de la science par des études
quantitatives (Price, 1963). L’école de pensée initiée par De Solla Price est
à l’origine de la création des bases de données de l’ISI1 : SCI (Science
Citation Index), SSCI (Social Science Citation Index), A&HCI (Art and
Humanities Citation Index). Ces bases de données furent les outils
indispensables à la réalisation des expériences voulues par De Solla Price.
Depuis, ces bases de données sont devenues la référence mondiale pour
effectuer des études d’évaluation internationale et multidisciplinaire de la
1
ISI : Institute for Scientific Information (http://www.isinet.com) créé par Eugène Garfield (Garfield, 1979)
Article soumis à la revue Economía Industrial
recherche scientifique. Une nouvelle terminologie est apparue pour définir
cette nouvelle application des techniques bibliométriques : la
Scientometrie ou encore appelée plus élogieusement la Science de la
science.
La décennie suivante a vu apparaître les premières expériences
« cartographiques » (Small, 1973). La création de ces cartes avait pour
objectif de rendre visible (graphiquement) les relations existant entre les
données bibliographiques et donc entre les publications scientifiques. Ces
cartes essaient de recréer visuellement la cohésion des travaux
scientifiques et par là même la structure des relations établies entre les
différentes écoles de pensées ou les différents champs disciplinaires.
Dans les années quatre-vingts, la démocratisation des ordinateurs,
l’utilisation des techniques de télécommunication et l’accès aux grandes
bases de données scientifiques et techniques ont permis une plus large
diffusion de l’application des techniques bibliométriques. De nombreux
acteurs ont pu appliquer ces techniques sur leurs propres données
(données représentant leurs centres d’intérêts) et de nouveau domaines
d’application apparurent.
L’intelligence compétitive, la veille technologique et la bibliométrie
Depuis plusieurs années, les techniques bibliométriques sont utilisées pour
répondre à des besoins émanant des entreprises. La bibliométrie est très
utile pour accompagner et soutenir des activités de veille scientifique et
technique intégrée à des démarches globales d’intelligence compétitive
dans les entreprises.
L’intelligence compétitive2 a pour objet la surveillance de toutes les
activités directes ou indirectes des concurrents d’une entreprise. La veille
technologique3, pour sa part, est concentrée sur la surveillance de
l’activité de la Recherche et du Développement (R&D) de ces mêmes
concurrents. La veille technologique s'intéresse tout naturellement aux
informations utiles au processus d’innovation dans l’entreprise, c’est à dire
l’information scientifique, technique et technologique. Ces veilles
scientifiques, techniques et technologiques sont reconnues sous le terme
unificateur de veille technologique.
Les activités en sciences et techniques sont parfaitement bien répertoriées
dans des sources d’informations telles que les bases de données
scientifiques (répertoires des publications scientifiques) ou les bases de
données techniques (répertoires des demandes de brevets). Par contre, la
croissance constante du volume de ces sources de données textuelles
ainsi que l’augmentation de la complexité de la fragmentation des
données qu’elles contiennent rendent leur analyse globale très difficile.
Ces sources ont été conçues pour offrir des moyens ponctuels de
recherche d’information pour les experts mais n’offrent aucun outil
permettant des analyses globales de l’évolution des tendances. Les
entreprises sont conscientes de la pertinence des données proposées par
2
3
La traduction anglo-saxonne de ce terme est Competitive Intelligence ou Business Intelligence.
La traduction anglo-saxonne de ce terme est Competitive Technical Intelligence ou Technology Watch
2
ces sources puisqu’elles s’en servent comme sources privilégiées de
collecte de l’information destinée aux spécialistes (finalité documentaire
des bases de données). Il paraît alors particulièrement judicieux d’intégrer
des traitements automatiques de ces données textuelles pour aider au
pilotage de la R&D dans les entreprises.
Evaluer le potentiel R&D des concurrents ? Connaître les points forts et
points faibles de sa R&D par rapports à ses concurrents ? Prendre
connaissance des dernières orientations de la R&D de ses concurrents et
tenter d’appréhender leurs stratégies actuelles ? Identifier l’apparition de
nouveaux acteurs ou de nouveaux domaines d’application ? Repérer les
rapprochements et les partenariats entre des acteurs d’un domaine ?
Répertorier les connaissances et compétences de ces acteurs ? Et dégager
de toutes ces tendances les menaces ou les opportunités potentielles ?
L’application des techniques bibliométriques aux bases de données
scientifiques et techniques peuvent d’aider à répondre à ces
interrogations.
Les données textuelles scientifiques et techniques collectées dans ces
sources doivent impérativement être transformées en information, en
« intelligence » c'est-à-dire en information utile à l’aide à la décision et à
l’action. De façon générale, le « cycle de l’intelligence » est le modèle
préconisé en intelligence compétitive pour obtenir ces informations pour
action. Ce cycle est traditionnellement défini selon cinq étapes (Figure 1) :
définition des axes de veille ; collecte des données sur les activités des
concurrents ; validation, traitement, analyse et expertise des données
collectées ; production et diffusion des conclusions auprès de décideurs ;
et finalement, décisions et actions.
Appliqué à la veille technologique, ce cycle possède certaines
caractéristiques :
- Les axes de la veille technologique sont définis selon les besoins pour
accompagner la stratégie d’innovation et de R&D de l’entreprise. Ces
besoins sont définis soit selon une démarche Top-down par la Direction
Générale ou la Direction de la R&D soit selon une démarche Bottom-Up
par émergence d’opportunités technologiques issues des acteurs de la
R&D et ensuite validées par les instances décisionnaires.
- La phase de collecte des données est en partie pleinement satisfaite par
les technologies de l’information et de la communication (TIC) qui
s’appuient sur les grandes de bases de données scientifiques et
techniques4. Ces technologies permettent d’identifier et de sélectionner les
informations pertinentes en un laps de temps très court. Il n’est pas rare
que la phase de collecte aboutisse au recueil d’un nombre très conséquent
de documents. Cela est particulièrement vrai lorsque que l’activité de
veille technologique est en amont du lancement d’un projet d’innovation
qui fait appel à des connaissances encore inconnues ou non maîtrisées par
les acteurs de la R&D.
Cette collecte d’information certifiée peut-être complétée par une collecte d’information
informelle qui est très souvent compliquée à organiser et à animer.
4
3
- La phase de traitement et d’analyse des données devient alors un point
critique dans le cycle de veille technologique. Le volume de données à
expertiser et la complexité des sujets à étudier peuvent devenir des
éléments rédhibitoires à la bonne réalisation de cette phase d’analyse.
Il devient alors primordial d’offrir aux experts des outils d’aide à l’analyse
de ces données pour garantir le succès de l’activité de veille
technologique. Il serait en effet déraisonnable de soumettre de trop
grands volumes de données à des experts sans aucune assistance sous
peine de créer une démotivation et un désintéressement irréversible de
ces experts pour de futures actions de veille technologique.
Le facteur temps est aussi un élément très important pour garantir une
action de veille efficace. Le cycle de vie de la veille doit être relativement
court pour offrir rapidement aux décideurs des réponses à leurs
interrogations.
1 – Définition
de la veille
5 – Decision
et action
2 – Collecte
des données
Données
textuelles
4 – Production
et diffusion
3 – Validation,
analyse et
expertise
Figure 1 : le cycle de l’intelligence en veille technologique
Les techniques bibliométriques prennent toute leur importance au cours
de cette phase de structuration des connaissances nouvelles et
d’assistance à l’expertise. De nombreux exemples ont montré l’apport des
techniques bibliométriques pour le soutien des activités de veille
technologique dans des entreprises françaises. De nombreuses thèses
effectuées en entreprise par des étudiants formés dans notre centre de
recherche ont prouvé le réalisme de la mise en oeuvre de telles
techniques :
- Christophe Bisson (2003) a fait développer des modules de traitements
bibliométriques dans une solution informatique de veille adaptée aux
4
besoins de la PME Automatech spécialisée dans le domaine des circuits
intégrés ;
- Antonio Da Silva (2002) a intégré les études bibliométriques pour la
veille projet au sein du motoriste aéronautique Snecma Motors ;
- Eric Catapano (2001) chez CLL.Pharma, une PME spécialisée dans le
développement de médicaments génériques, a développé des traitements
bibliométriques spécifiques pour connaître le degré de liberté juridique
existant autour des brevets de produits thérapeutiques tombant dans le
domaine public ;
- Hélène Ziegelbaum (1998) pour la société agroalimentaire Danone a
adapté l’approche bibliométrique au traitement des commentaires libres
des consommateurs soumis à des tests gustatifs ;
- Philippe Lauri (1998) a systématisé les analyses bibliométriques de
brevets comme outil de benchmarking au sein de la société Gemplus,
spécialiste de la carte à puce ;
- Stéphane Dumas (1994) pour le Centre Technique CETIM a appliqué les
techniques bibliométriques pour l’élaboration du plan directeur du centre ;
- William Nivol (1993) a développé un système de traitement automatique
et bibliométrique de l’information brevet issue de la base de données
interne de l’entreprise en cosmétique L’Oréal.
Protocole d’exploitation des données textuelles et traitements
bibliométriques
Les traitements bibliométriques en veille technologique permettent
d’élaborer rapidement des « grilles de lecture » pour un très grand volume
de données textuelles. De telles grilles de lecture permettent aux experts
d’analyser un plus grand nombre de textes que par une simple lecture. La
vision globale fournie par les résultats bibliométriques aide à structurer un
nouveau domaine de connaissances en favorisant la création de
représentations graphiques (courbes, histogrammes, diagrammes de
secteurs, réseaux de relations, cartographie…).
Pour atteindre un tel objectif, les techniques bibliométriques suivent
quatre principales étapes :
1. Le rassemblement des données textuelles à étudier (le corpus),
2. Le découpage du corpus en unités statistiques,
3. L’extraction et/ou la définition des éléments descriptifs de ces unités
statistiques,
4. La visualisation graphique des résultats statistiques.
Le rassemblement des données textuelles : la constitution du corpus
Les analyses bibliométriques sont essentiellement construites à partir de
trois principales sources de données : les bases de données de brevets
(références des demandes de brevets), les bases de données
bibliographiques en sciences (références de publications scientifiques)
5
intégrant la notion de « citation »5 aux travaux antérieurs et les bases de
données scientifiques ne prenant pas en compte les « citations ».
En fait, les techniques bibliométriques peuvent s’appliquer à tous les
corpus de données structurées (les données sont répartis selon des
rubriques bien définies et balisées par des marques bien identifiables).
Comme exemple de traitements bibliométriques appliqués à d’autres
sources que les bases de données, nous pouvons citer les travaux
d’Hélène Ziegelbaum précédemment évoqués. Ces travaux ont porté sur
l’analyse des commentaires oraux formulés par les consommateurs
soumis à des tests gustatifs. Un second exemple serait les travaux de
Stéphane Dumas qui permis d’analyser les réponses des adhérents du
CETIM à une enquête concernent leurs besoins informationnels.
Le découpage du corpus en unités statistiques
Pour toute analyse statistique d’un corpus de données textuelles, il est
nécessaire de choisir l’unité élémentaire qui fera l’objet de l’analyse :
l’unité statistique.
Pour l’analyse de textes complets (œuvres littéraires, discours politiques,
cahiers de laboratoire…) l’unité statistique peut-être la phrase, le
paragraphe, le chapitre ou encore une portion de texte définie selon une
nombre de mots.
Pour les analyses bibliométriques, l’unité statistique la plus logique est la
référence bibliographique. Ainsi dans le cas d’un corpus de publications
scientifiques, l’objet élémentaire étudié est la description d’un travail
scientifique. Dans le cas d’un corpus de références de brevets, l’objet
élémentaire étudié est la description technique d’une invention protégée
par un brevet.
L’extraction et/ou la définition des éléments descriptifs de ces unités
statistiques : les éléments caractéristiques
Les traitements statistiques, dont font l’objet les unités statistiques, ont
pour but d’effectuer une comparaison entre les unités statistiques ou de
construire des groupes d’unités statistiques ressemblants. Ainsi, les unités
statistiques doivent être caractérisées par des critères qui seront évalués
pour obtenir ces classements, ces comparaisons ou ces regroupements.
En général, ces critères sont directement obtenus à la suite d’une
extraction automatique d’éléments présents dans la description de la
référence bibliographique. Cette extraction d’information est facilitée par
le format structuré des références bibliographiques provenant des bases
de données. Une référence bibliographique est constituée de plusieurs
parties (rubriques ou champs bibliographiques) repérées par des balises
bien indentifiables : les intitulés des champs bibliographiques (Figure 2).
Un champ bibliographique peut contenir plus d’une valeur de même
nature. Ces valeurs sont séparées par un caractère séparateur (virgule,
5
Seules les bases de données produites par l’ISI offrent les données sur les « citations ». Ces bases de données
contiennent non seulement le signalement des articles scientifiques mais aussi la liste des travaux répertoriés
dans la bibliographie pour chacun de ces articles.
6
point-virgule, espace…). Par exemple, le champ Déposant (PA) de la
Figure 2 mentionne plusieurs noms de sociétés ayant co-déposées la
demande de brevet. De même le champ Classification international des
brevets (IC) indique que plusieurs codes caractérisent le contenu
technique protégé par ce brevet.
Ainsi chaque unité statistique peut être facilement caractérisée par de
nombreux éléments descriptifs : les auteurs des travaux, les organismes
qui emploient ces auteurs, les pays d’origine de ces auteurs, la date de la
publication, le nom du journal qui publie un article scientifique, les pays
couverts par une invention, les concepts scientifiques ou techniques
abordés par la publication ou le brevet (mots, mots-clés, codes de
classification documentaire)…
AN
TI
TT
PR
PN
Intitulés des
champs
AP
DS
PA
Champs
bibliographiques
IN
LA
CT
IC
DC
MC
AB
- 91-297731/41
- Transdermal patches for nitroglycerin admin. - with adhesive layer contg.
2-ethyl-hexyl methacrylate! polymer, nitroglycerin and silica
- TRANSDERMAL PATCH NITROGLYCERIN ADMINISTER ADHESIVE LAYER CONTAIN ETHYL
HEXYL POLYMETHACRYLATE POLYMER NITROGLYCERIN SILICA
- 90.04.06 90JP-092694
- EP-450986-A 91.10.09 (9141)
Eléments
NO9101344-A 91.10.07 (9149)
descriptifs
CA2039869-A 91.10.07 (9201)
FI9101652-A 91.10.07 (9203)
- 91.04.08 91EP-303066
- BE CH DE DK ES FR GB IT LI NL SE
- (SEKI ) SEKISUI KAGAKU KOGY; (SANW ) SANWA KAGAKU KENKYUSHO;
(NIOF ) NIPPON OIL & FATS CO LTD; (SANN ) SANWA KAGAKU KENKYUSHO
- NAKAGAWA T,TSUKAHARA H,KURONO M,SATO M,ISHIDA T,TOKITA K,NAKANO M
- E
- (E)No-SR.Pub
- A61K-009/70 A61L-015/16 A61K-031/04 A61K-047/30
- A96 B07 D22 A14 B05 P34
- A04-F06E5 A12-V01 A12-V03A B04-C03B B05-B02C B10-E04C B10-G02 B10-G03
B12-F01B B12-F02 B12-M02D B12-M02F B12-M10A D09-C04B
- (EP-450986)
Transdermal patches for admin. of nitroglycerin (I) comprise a
pressure-sensitive adhesive layer on one surface of a drug-impermeable
backing layer. The adhesive layer contains 35-85 wt.% of a polymer (II),
10-30 wt.% of (I) and 5-20 wt.% silica.
(II) is a homo- or copolymer in which the major component
comprises C(6+) alkyl (meth)acrylates, provided that 2-ethylhexyl
methacrylate (EHMA) makes up 40-100% of the total wt. of alkyl
(meth)acrylates.
(II) is an alkyl methacrylate polymer with an EHMA content of
40-90 wt.%, and has a rolling ball tack value of 2 or less. The silica
comprises 20-80% hydrophobic silica and 20-80% hydro-philic silica. The
adhesive layer also contains up to 25 wt.% of an alkyl fatty acid ester.
USE/ADVANTAGE - The patches may be used in the treatment of heart
disease, e.g. angina, myocardial infarction and cardiac insufficiency.
They exhibit good adhesion to the skin and provide controlled release of
(I) over long periods.
(28pp Dwg.No.0/0)
Figure 2 : Format structuré d’une référence bibliographique6.
Les éléments caractéristiques obtenus par une extraction automatique
doivent souvent faire l’objet d’un nettoyage ou d’un regroupement par
concepts. Le traitement de nettoyage peut être effectué par une opération
manuelle ou par des procédures informatiques automatisées de façon à
supprimer les éléments descriptifs inutiles ou erronés. Le travail de
regroupement par concepts concerne le rassemblement des termes
synonymes ou des termes décrivant des concepts similaires sous un seul
6
Cet exemple de référence brevet est issu de la base de données WPI produite par Derwent.
7
et même élément caractéristique. Une hiérarchie d’agrégations d’un
ensemble d’éléments caractéristiques peut aussi être envisagée pour
permettre des analyses avec plusieurs degrés de finesse. Par exemple, les
éléments caractéristiques du contenu scientifique ou technique peuvent
être agrégés selon une hiérarchie partant des concepts les plus spécifiques
aux concepts les plus génériques. Une démarche analogue peut-être
nécessaire pour les noms des organismes pour regrouper les organismes
selon leur appartenance à différentes catégories institutionnelles
(entreprises privées, entreprises publiques, universités, centres et
instituts de recherche, associations, administrations…).
Ces opérations de nettoyage et de regroupement des éléments
caractéristiques des unités statistiques conditionnent très souvent la
qualité et la pertinence des résultats finaux. Même si ces opérations sont
souvent coûteuses en temps, elles garantissent la qualité du résultat.
La visualisation graphique des résultats statistiques
La mesure statistique de base dans les études bibliométriques est le
comptage de la fréquence d’apparition de chaque élément caractéristique
dans les unités statistiques. La fréquence d’un élément caractéristique
correspond au nombre de références qui sont caractérisées par cet
élément comme le nombre d’articles publiés pour un auteur.
Les listes des fréquences produites par ce comptage appliqué aux
différents éléments caractéristiques permettent de comparer l’importance
de ces caractéristiques pour le corpus étudié. Ce type de résultats sous
formes de distribution de fréquences est le plus commun lors des études
bibliométriques.
Ces listes de fréquences sont alors traduites sous une forme graphique
pour faciliter leur interprétation. Les graphiques obtenus sont soit des
histogrammes, des diagrammes de secteurs ou des courbes (Figure 3,
Figure 4 et Figure 5).
Les graphes présentés ici comme exemples sont tirés d’une étude
bibliométrique d’un corpus de 2545 références représentant l’activité
scientifique de la recherche algérienne sur une période de 10 ans de 1990
à 1999 (Rostaing et al, 2001)7.
Quatre éléments descriptifs sont pris en considération dans les exemples
précédents (les organismes, les domaines scientifiques, la langue de
publication et la date de publication) mais tous les autres éléments
descriptifs des références bibliographiques peuvent faire l’objet d’une
évaluation similaire (les auteurs, les journaux, les pays…). Néanmoins, il
est fortement conseillé d’effectuer un traitement de nettoyage ou de
regroupement de ces éléments pour augmenter la pertinence de ces listes
de fréquences.
7
Pour des raisons de confidentialité, il ne nous est pas possible de présenter des résultats d’études
bibliométriques sur un secteur industriel mais l’analogie avec des résultats obtenus à partir d’un corpus de
références brevets est très facile à imaginer.
8
HYDRO-RES
2%
RENEW-ENE
3%
ENG&TECHN
3%
ARID-REGI
3%
NUCLEAR BIOTECHNO SPAT-TECH
1%
1% REG-PLANN
1%
0%
TRANSPORT
0%
0
50
100
150
200
250
300
350
400
450
500
USTHB
UNIV CONSTANTINE
UNIV ORAN
UNIV ANNABA
ENVIRONME
4%
AGRI&FEED
4%
UNIV SBA
FUNDA-SCI
36%
UNIV SETIF
CHU ALGER
INDU-TECH
5%
Without Collab
With collaboration
POLE BOUMERDES
UNIV TIZI OUZOU
INFO-TECH
6%
ENP
INA
UNIV BLIDA
INDUSTRY
8%
UNIV TLEMCEN
USTO
HEALT&MED
13%
MINES&ENE
12%
Figure 4 : Principaux organismes de
recherche algériens classés par
production scientifique décroissante
Figure 3 : Répartition des
publications algériennes selon
les domaines de recherche8
450
400
350
300
250
200
French
150
100
50
0
1990
English
1991
1992
1993
1994
1995
1996
1997
1998
1999
Figure 5 : Evolution de la langue de publication
de la production scientifique algérienne
De telles statistiques unidimensionnelles apportent de nombreux
renseignements mais ne répondent pas à toutes les attentes car les
éléments caractéristiques du corpus sont étudiés séparément. Aucune
information concernant les relations entretenues entre ces éléments ne
peut être obtenues.
Les analyses relationnelles des éléments caractéristiques
Une seconde mesure statistique est souvent employée dans les études
bibliométriques pour permettre l’analyse des relations existant entre les
différents éléments caractéristiques : la fréquence des co-occurrences. Ce
calcul de fréquence des co-occurrences est très souvent exprimé sous la
8
La signification des abréviations des domaines scientifiques est disponible en Annexe 1.
9
forme d’une matrice de co-occurrences. L’inventaire de l’ensemble des
relations à étudier est alors présenté sous la forme d’un tableau.
Ces matrices sont construites soit pour mesurer les associations entre des
éléments caractéristiques appartenant à un même champ bibliographique
(matrice symétrique de co-occurrences intra-champ) soit pour mesurer les
associations entre les éléments caractéristiques appartenant à deux
champs différents (matrice asymétrique co-occurrences inter-champs).
Les matrices asymétriques inter-champs sont plus souvent connues sous
le nom de matrices de contingence.
Les matrices de co-occurrences distribuent en lignes et en colonnes les
éléments caractéristiques issus d’un ou deux champs bibliographiques
(Tableau 1). L’intersection entre une ligne et une colonne mesure la
relation entre les deux éléments représentés par cette ligne et cette
colonne. Cette mesure s’exprime par la fréquence des co-occurrences de
ces deux éléments. Cette fréquence des co-occurrences correspond au
nombre de références où les deux éléments sont simultanément présents.
Des mesures de relation plus sophistiquées que la fréquence des cooccurrences peuvent être utilisées de façon à réduire le poids des
éléments ayant une fréquence très élevée ou augmenter le poids des
éléments ayant des fréquences très faibles.
Le tableau 1 montre un exemple de matrice de co-occurrences mesurant
les relations entre les domaines scientifiques des publications algériennes
et les dates de ces publications. La valeur indiquée à l’intersection d’une
ligne et d’une colonne représente le nombre de publications (références)
publiées dans un domaine scientifique pour une année.
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
60
69 101 90
81
77 106 108 150 164
FONDA-SCI
31
33
54
47
19
24
42
37
34
HEALT&MED 35
24
18
36
14
31
26
49
55
40
46
MINES&ENE
2
8
13
10
18
15
27
35
33
49
INDUSTRY
2
5
7
7
2
8
18
30
45
37
TECH-INFO
6
2
5
4
6
9
22
20
26
25
INDU-TECH
5
16
10
13
8
9
4
5
21
16
AGRI&FEED
3
6
10
8
9
12
12
13
12
13
ENVIRONME
9
4
8
3
8
7
13
14
20
10
ARID-REGI
3
3
2
2
3
4
7
18
18
19
ENG&TECHN
3
1
2
17
4
3
9
7
11
14
RENEW-EN
1
3
3
6
8
2
5
17
15
8
HYDRO-RES
1
3
1
3
1
3
7
NUCLEAR
1
2
1
3
1
4
4
BIOTECHNO
2
1
3
1
3
2
2
SPAT-TECH
2
2
REG-PLANN
1
1
1
TRANSPORT
Tableau 1 : Matrice de co-occurrences entre les dates
et les domaines scientifiques des publications algériennes
Une représentation graphique d’un tel tableau devient rapidement
essentielle pour l’interpréter. Quand la taille d’une matrice n’est pas trop
10
importante (nombre de lignes et de colonnes pas trop élevé) la
représentation sous la forme d’un graphe est réalisable (Figure 6).
TRANSPORT
REG-PLANN
SPAT-TECH
BIOTECHNO
NUCLEAR
HYDRO-RES
RENEW-ENE
ENG&TECHN
ARID-REGI
ENVIRONME
AGRI&FEED
INDU-TECH
INFO-TECH
INDUSTRY
MINES&ENE
HEALT&MED
FUNDA-SCI
500
450
400
350
300
250
200
150
100
50
0
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
Figure 6 : Graphe de la matrice de co-occurrences du Tableau 1
Représentations cartographiques
Il est très fréquent que les matrices des co-occurrences générées lors
d’une étude bibliométrique soient constituées d’un nombre très important
d’éléments caractéristiques. Par exemple la Figure 7 est la simple
représentation graphique (histogrammes empilés) de la matrice des cooccurrences croisant les villes algériennes des auteurs des publications et
les domaines scientifiques des travaux publiés par ces mêmes auteurs
(tableau disponible en Annexe 2).
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
A LGE R
ORA N
CONST A NT I NE
FUNDA-SCI
A NNA B A
HEALT&MED
SB A
SE T I F
MINES&ENE
T LE M CE N
INDUSTRY
T I ZI OUZOU
B LI DA
INFO-TECH
B E DJA I A
INDU-TECH
GUE LM A
AGRI&FEED
M OST A GA NE M
B A T NA
ENVIRONME
B I SK RA
ARID-REGI
T E B E SSA
M 'SI LA
ENG&TECHN
JIJEL
RENEW-ENE
T I A RE T
SK I K DA
HYDRO-RES
CHLE F
NUCLEAR
OUM -E L-B OUA GHI
BIOTECHNO
B E CHA R
M E DE A
SPAT-TECH
M A SCA RA
REG-PLANN
HA SSI M E SSA OUD
DJ E LFA
TRANSPORT
OUA RGLA
LA GHOUA T
B OUFA RI K
Figure 7 : Spécialisation scientifique et technologique
des villes algériennes
11
La simple représentation graphique de telles matrices devient inefficace.
Des techniques bibliométriques supplémentaires sont alors mises en
œuvre.
Elles
utilisent
des
méthodes
d’analyse
statistique
multidimensionnelle
comme
les
classifications
automatiques
(classifications hiérarchiques, K-means clustering…) ou les analyses
factorielles (analyse des correspondances, multidimensional scaling…) plus
appropriées à l’analyse des matrices complexes (Dou et al, 1990). Ces
analyses statistiques multidimensionnelles réduisent la complexité des
relations entre les éléments constituant la matrice en cherchant à
regrouper ces éléments par ressemblance.
Les méthodes de classification automatique (clustering) cherchent à
constituer des groupes d’éléments les plus homogènes possibles. Parmi
les centaines ou milliers de combinaisons possibles de répartition des
éléments en groupes, ces méthodes trouvent une solution de répartition
optimisant en même temps la ressemblance des éléments appartenant au
même groupe et la dissemblance des groupes constitués.
Les méthodes d’analyse factorielle, quant à elles, privilégient la
représentation visuelle des relations entre éléments par la construction de
« cartes relationnelles » (cartographie). Les éléments sont représentés
sous la forme d’un nuage de points projeté sur un plan ou dans un espace
à 3 dimensions. Les points sont positionnés sur ces cartes 2D ou 3D de
manière à ce que les éléments les plus fortement associés (relations
élevées) soient les plus proches les uns des autres sur la carte.
L’utilisateur peut alors identifier des groupes de points ressemblants par
une simple interprétation visuelle de la cartographie obtenue.
La Figure 8 présente la cartographie créée par une analyse des
correspondances appliquée à la matrice des co-occurrences représentée
par la Figure 7 (tableau disponible en Annexe 2). Cette carte présente les
deux ensembles d’éléments caractéristiques de la matrice (éléments en
ligne et éléments en colonne) dans une même représentation graphique.
Les points rouges symbolisent les domaines scientifiques et les croix
bleues les villes algériennes. Les villes placées à proximité sont
caractérisées par des profils de domaines scientifiques similaires. Plus la
distance entre un domaine scientifique et une ville ou un groupe de villes
est faible et plus cette ville ou ces villes ont des chercheurs qui travaillent
dans ce domaine scientifique.
Bien qu’une telle carte paraisse plus simple à exploiter que la Figure 7,
certaines précautions sont à prendre pour ne pas faire de mauvaises
interprétations. Lors de la projection du nuage de points sur cette carte
2D certaines déformations ont été introduites modifiant les relations
originales existant entre les éléments. Le nuage de points étant décrit au
départ dans un espace multidimensionnel (16 dimensions pour notre
tableau comportant 17 colonnes), la projection de ce nuage de points
dans un espace à 2 dimensions impose obligatoirement des distorsions
des distances entre points. Ainsi certains éléments caractéristiques
représentés sur cette carte par des points très proches les uns des autres
ne le sont pas forcément dans l’espace multidimensionnel calculé par
l’analyse des correspondances.
12
Figure 8 : cartographie créée par une analyse des correspondances
appliquée à la même matrice que celle représentée en Figure 7
Pour éviter de mauvaise interprétation visuelle, il est préférable de
compléter cette cartographie par une méthode de classification
automatique. Afin d’atteindre cet objectif, les coordonnées des points dans
l’espace multidimensionnel calculé par l’analyse de correspondances sont
conservés dans une nouvelle matrice. Les lignes de cette matrice
représentent nos éléments caractéristiques de ce nuage de points et les
colonnes les axes de l’espace multidimensionnel calculé par l’analyse des
correspondances. Les cellules de cette matrice correspondent aux
coordonnées de chaque point sur chacun de ces axes. Une méthode de
classification automatique appliquée à cette matrice permet d’identifier les
groupes de points les plus proches dans l’espace multidimensionnel. La
Figure 9 montre le résultat obtenu par une méthode de classification
hiérarchique (à partir d’une matrice de distances euclidiennes et de la
stratégie d’agrégation de Ward). En fonction de cette hiérarchie
d’agrégations de groupes, 10 groupes d’éléments peuvent être dégagés
(les branches de l’arbre qui sont isolées lors de la coupure en pointillés
définissent ces dix groupes).
La superposition de ces 10 groupes sur la carte factorielle initiale
contribue favorablement à l’interprétation visuelle. Cette superposition est
restituée par la Figure 10. On peut remarquer que certains points qui
semblaient proches sur la carte 2D ne le sont pas vraiment dans l’espace
multidimensionnel.
Si la représentation en carte 2D ne permet pas de restituer parfaitement
les 10 groupes identifiés, il est possible de préférer une représentation en
13
3 dimensions qui permette, après quelques rotations, d’offrir un angle de
vue plus adapté à la représentation des groupes (Figure 11 et Figure 12).
Figure 9 : Les neuf groupes d’éléments dégagés par la méthode de
classification automatique appliquée aux coordonnées des points
dans l’espace multidimensionnel de l’analyse des correspondances
Figure 10 : Superposition de la classification automatique sur la
carte factorielle de l’analyse des correspondances
14
Figure 11 : La carte factorielle de l’analyse des
correspondance en 3 dimensions
Figure 12 : Zoom du cœur de la carte factorielle avec superposition
des groupes obtenus par la classification automatique
15
Ces dernières représentations cartographiques donnent une meilleure
grille de lecture que le simple graphique Figure 7, qui lui-même donnait
déjà une lecture améliorée de la matrice de co-occurrences (annexe 2),
matrice qui constituait elle-même un acte de synthèse impossible à
imaginer par la lecture séquentielle des 2545 références étudiées. Ces
dernières cartes sont des outils efficaces pour aider à répondre à des
questions qui auraient pu être posées ainsi : Comment peut-on
caractériser l’activité scientifique de chaque ville algérienne ? Quelles sont
les villes qui ont des profils d’activité similaires ? Quelles sont les
spécialités scientifiques de chaque ville algérienne ?
D’autres équipes ont montré dans leurs travaux l’apport de ces
représentations cartographiques relationnelles au cours d’études
bibliométriques. Nous pouvons tout particulièrement citer les travaux des
équipes de Pere Escorsa9 (Escorsa et al., 2000), de Xavier Polanco10
(Polanco, 1998), d’Alan Porter11 (Porter, 1995) et de Ronald Kostoff12
(Kostoff, 1997) qui présentent l’exploitation de ces outils pour des études
de veille technologique.
Les graphes d’analyse réseaux
Les cartographies bibliométriques soutenues par des méthodes d’analyse
statistique multidimensionnelle ne sont pas toujours très faciles à utiliser.
Comme nous avons pu le voir précédemment une interprétation hâtive
des premiers résultats fournis peut facilement induire en erreur leur
utilisateur. Leur exploitation nécessite de bonnes connaissances dans les
méthodes statistiques employées ainsi qu’une bonne pratique
expérimentale de leur emploi. C’est pour cette raison que d’autres
représentations graphiques sont souvent utilisées en bibliométrie : les
graphes d’analyse réseaux.
Cette méthode de représentation a l’avantage d’offrir des interprétations
bien plus intuitives car les graphes ne sont pas fondés sur des calculs
mathématiques compliqués. Un graphe d’analyse réseaux représente
visuellement les réelles valeurs contenues dans la matrice de cooccurrences (nombre de travaux communs aux deux éléments) sans calcul
mathématique additionnel. Ces graphes d’analyse réseaux représentent
les éléments caractéristiques sous la forme des points ou de « boites ». La
valeur de la fréquence des co-occurrences entre les deux éléments
caractéristiques est représentée par des arcs (liens) entre les deux boites
symbolisant les éléments caractéristiques (Figure 13 et Figure 14).
L’analyse réseaux est plus particulièrement adaptée à l’interprétation des
matrices symétriques des co-occurrences intra-champ.
La construction de ces graphes de réseaux est très souvent utilisée pour
l’analyse des collaborations entre les acteurs : réseaux de collaborations
entre auteurs (Figure 13) ou inventeurs, réseaux de collaborations entre
9
Consulter http://www.iale.es
Consulter http://www.inist.fr/uri/accueil.htm
11
Consulter http://www.tpac.gatech.edu/
12
Consulter http://www.onr.navy.mil/sci_tech/special/technowatch/default.htm
10
16
organismes (Figure 14) ou sociétés, réseaux de collaborations entre villes,
régions, pays....
Figure 13 : Un réseau des collaborations entre auteurs
algériens publiant dans le domaine de la Physique
Figure 14 : Le réseaux des collaborations
entre les organismes algériens
17
Les cartes de l’analyse réseaux peuvent aussi être appliquée à l’analyse
des concepts abordés dans le corpus étudié. Ces cartes mettent en
évidence la structure des relations existant entre les différents aspects
scientifiques ou techniques traités dans les textes du corpus. Elles
permettent d’aider à formuler une image claire de la structure thématique
d’un domaine scientifique ou technique. Dans ce style d’analyse, le choix
des représentants de ces aspects scientifiques ou techniques à
cartographier est très important. Ces représentants sont soit les éléments
caractéristiques directement extraits des références (mots-clés, codes de
classification documentaire voire mots ou expressions extraits du titre ou
du résumé) soit des représentants plus affinés obtenues à la suite d’un
traitement de nettoyage et de regroupement sémantique des éléments
descriptifs bruts.
De nombreuses études bibliométriques réalisées dans notre centre de
recherche se sont appuyées sur de tels graphes d’analyse réseaux : pour
des analyses de collaborations entre auteurs (Quoniam et al, 1995), pour
des analyses de collaborations entre organismes (Giménez et al, 2003),
pour des analyses de structuration d’un domaine scientifique (Polity et al,
1997), pour des analyses de liens entre sites Web (Rostaing, 2001), pour
des analyses d’une domaine technologique à partir de données brevets
(Paoli et al, 2003).
Les logiciels informatiques indispensables à ces analyses
Les traitements bibliométriques présentés ci-dessus ne peuvent
s’envisager comme outils de veille technologique que s’ils sont réalisés à
l’aide de logiciels informatiques spécifiques. Mis à part la phase de collecte
qui peut être déportée sur les systèmes traditionnels de recherche
d’information documentaire, toutes les autres phases des traitements
(extractions des informations, mesures statistiques, créations des
distributions ou des matrices et visualisations graphiques) ne peuvent se
concevoir sans l’utilisation de logiciels dédiés aux traitements
bibliométriques.
Depuis plus de dix ans, notre centre de recherche a pu expérimenter des
traitements bibliométriques, former des étudiants à ces traitements et
disséminer leurs usages dans les entreprises grâce au développement de
plusieurs générations de logiciels bibliométriques (ces développements
étant plus à vocation recherche que commerciale). Ces dernières années
ont vu l’apparition de quelques logiciels commerciaux offrant une chaîne
presque complète de traitements. Malheureusement, aucun n’offre une
panoplie complète de l’ensemble des traitements bibliométriques à l’instar
des logiciels d’analyses statistiques. Ces logiciels sont souvent spécialisés
dans la réalisation d’un seul type d’analyse bibliométrique privilégié.
Quelques études comparatives des avantages et des inconvénients de
certains de ces logiciels commencent à apparaître (Trippe, 2003). Elles
sont encore peu nombreuses car elles sont conditionnées par l’acquisition
ou l’accès à ces logiciels qui sont souvent chers.
18
Les traitements exposés dans cet article ont été réalisés à l’aide des
logiciels développés au CRRM13 (accompagnés du logiciel de reformatage
Infotrans14 et du logiciel d’analyse statistique Statistica15) ou à l’aide des
logiciels développés par la société MathéoSoftware16.
Conclusion
La bibliométrie comprend un ensemble de techniques parfaitement
adaptées aux besoins de veille technologique en entreprises. Les analyses
menées par ses techniques fournissent des supports à forte valeur ajoutée
pour l’évaluation et le pilotage de la R&D. Ces techniques accompagnent
avantageusement les études menées dans le but d’identifier les
émergences et les déclins des recherches ou des technologies, d’effectuer
le suivi du comportement de l’ensemble des acteurs et de réaliser le
repérage des acteurs ou domaines clés à l’origine des menaces ou des
opportunités à venir.
De tels outils permettent de soutenir le travail des groupes d’experts
impliqués dans les actions de veille technologique. Ils offrent des supports
synthétiques et visuels les aidant à s’approprier les éléments de
compréhension d’un nouveau domaine scientifique ou technique. Ce sont
de très bons supports de communication, d’animation de groupe et de
recherche de consensus dans le cadre d’un projet de veille technologique.
La pérennité d’une activité de veille technologique dans une entreprise
dépend principalement de la qualité de l’animation des groupes d’experts
impliqués dans la phase d’analyse. Il faut savoir susciter la motivation et
l’intérêt de ces experts au cours de cette tâche. Les supports générés par
les techniques bibliométriques permettent d’aider l’animateur de ces
groupes de travail à mener à bien sa difficile mission.
L’emploi de ces techniques bibliométriques dans de nombreuses
entreprises françaises a démontré leur utilité pour accompagner une
démarche d’intelligence compétitive et d’aide à l’innovation.
Bibliographie
Bisson C (2003), Application de méthodes et mise en place d’outils d’intelligence
compétitive au sein d’une PME de haute technologie, Thesis: University of AixMarseille III, http://193.51.109.173/memoires/ChristopheBisson_T.pdf
Bradford S C (1948), Documentation, Crosby Lockwood & Son, London, 156 p.
Catapano E (2001), Conception d’un système de veille stratégique pour la
détection systématique d’opportunités de développements technologiques et
d’innovations : Applications aux PME de médicaments génériques, Thesis:
University of Aix-Marseille III
13
Consulter http://crrm.u-3mrs.fr/commercial/software/software.html
Logiciel développé par la société allemande IuK GmbH
15
Consulter http://www.statsoft.com
16
Consulter http://www.matheo-software.com/
14
19
Da Silva A (2002), L'information et l'entreprise : des savoirs à partager et à
capitaliser, Thesis: University of Aix-Marseille III,
http://193.51.109.173/memoires/AntonioDaSilva_T.pdf
Dou H, Quoniam L, Rostaing H, Nivol W (1990), “L'analyse des données au
service de la bibliométrie. Outil de veille technologique à la dimension des
moyennes entreprises”, Revue Française de Bibliométrie, N°8, p. 27-67
Dumas S (1994), Développement d'un système de veille stratégique dans un
centre technique, Thesis: University of Aix-Marseille III,
http://193.51.109.173/memoires/StephaneDumas_T.pdf
Escorsa Castells P, Rodriguez Slavador M, Maspons Bosch R (2000), “Technology
mapping, business strategy and market opportunities”, Competitive intelligence
review, Vol.11, N°1, p.46-57
Garfield E (1979), Citation Indexing - its Theory and Application in Science,
Technology, and Humanities, John Willey & sons, New York, 274 p.
Giménez Toledo E, Roman Roman A, Rostaing H (2003), "Analyse du transfert de
l'information scientifique et technique entre le secteur public et le secteur privé.
Etudes des co-publications dans les revues scientifiques Espagnoles.",
International Journal of Information Science for Decision Making, N°6,
http://lepont.univ-tln.fr/isdm/PDF/isdm6/isdm6a46_gimenez.pdf
Kostoff R (1997), “Database tomography for technical intelligence: analysis of
the research impact assessment literature”, Competitive intelligence review,
Vol.8, N°2, p.63-79
Lauri P (1998), Conception et gestion d'une cellule de veille technologique.
Méthodologie et matérialisation d'un système d'information, Thesis: University of
Aix-Marseille III, http://193.51.109.173/memoires/PhilippeLauri_T.pdf
Lotka A J (1926), “The frequency distribution of scientific productivity”, Journal of
the Washington academy of sciences, Vol 16, N° 12, p. 317-323
Nivol W (1993), Système de surveillance systématique pour le management
stratégique de l'entreprise. Le traitement de l'information brevet, de l'information
documentaire à l'information stratégique, Thesis: University of Aix-Marseille III,
http://193.51.109.173/memoires/WilliamNivol_T.pdf
Paoli C, Dou H, Dou J-M, Mannina B (2003), “La construction d'indicateurs
brevets par domaines technologiques”, Cahier de la documentation, N°2, p.45-59
Polanco X, François C, Dejean M, Otto C (1998),"Transgenic Plants : Thematic
Analysis and Mapping from Patents and Publications to Support Science and
Technology Watch", Proceedings : Fifth International Conference on Science and
Technology Indicators. Use of S&T Indicators for Science Policy and DecisionMaking, 4-6 june 1998, Hinxton (Cambridge), p. 95-96
Polity Y, Rostaing H (1997), “Cartographie d'un champ de recherche à partir du
corpus des thèses de doctorat soutenues pendant 20 ans : Les sciences de
l'information et de la communication en France: 1974-94”, Proceedings: Les
systèmes d'informations élaborées, Ile Rousse, 14-16 Juin
Porter AL, Detampel MJ (1995), “Technology opportunities analysis”,
Technological Forecasting and Social Change, N°49, p. 237–255
Price D (1963), Little Science, big Science, Columbia, New York, 118 p.
20
Quoniam L, Rostaing H, Boutin E, Dou H (1995), “Treating bibliometric indicators
with caution: their dependance on the source database.”, Research Evaluation,
Vol. 5, N°3, p. 177-181
Rostaing H (2001), “Le Web et ses outils d'orientation. Comment mieux
appréhender l'information disponible sur l'Internet par l'analyse des citations ?”,
Bulletin des biblitohèques de France, Vol. 1, p. 68-77,
http://www.enssib.fr/bbf/bbf-2001-1/10-rostaing.pdf
Rostaing H, Léveillé V, Yacine B (2001), “Bibliometric study as an objective
picture of the Algerian scientific research practices”, Proceedings: The 8th
International Conference on Scientometrics and Informetrics, The University of
New South Wales, Sydney, Australia, 15-20 July, p. 607-618
Small H (1973), “Co-quotation in the Scientific Literature: new Measure of the
Relationship has between two Documents”, Newspaper of the American Society
for Information Science, Flight 24, N°4, p. 265-269
Trippe A (2003), “Patinformatics : tasks to tools”, World Patent Information,
N°25, p. 221-221
Ziegelbaum H (1998), Nouvelles approches dans la recherche d'innovation en
agroalimentaire. Mise au point et valorisation de nouvelles procédures pour
mieux connaître la perception des produits par les consommateurs, Thesis:
University of Aix-Marseille III,
http://193.51.109.173/memoires/HeleneZiegelbaum_T.pdf
Zipf G K (1949), Human behaviour and the principle of least effort, Editions
Addison Wesley
Annexe 1
Les programmes de recherche scientifiques algériens étudiés
Titre
Code
AGRI&ALIM
Agriculture et alimentation
REG-ARIDE
Développement des régions arides
BIOTECHNO
Biotechnologies
ENVIRONEM
Environnement
SCI-FONDA
Sciences fondamentales
SANTE&MED
Santé et médecine
RESSO-EAU
Ressources hydriques
TECH-INDU
Technologies industrielles
INDUSTRIE
Industries
TECH-INFO
Technologies de l'information
MINES&ENE
Mines et énergie
NUCLEAIRE
Energie et techniques nucléaire
AMEN-TERR
Aménagement du territoire
EN-RENOUV
Energie renouvelable
TECH-SPAT
Technologies spatiales
TRANSPORT
Transport
21
9
7
5
6
2
235
75
77
46
53
42
72
49
34
24
24
12
23
11
9
4
4
5
5
115
22
6
26
18
17
9
4
5
2
67
23
13
19
2
15
6
21
93
4
2
4
19
4
1
2
4
1
1
2
1
1
8
1
66
5
9
16
11
13
4
5
1
4
28
32
14
1
3
2
3
3
5
2
33
6
7
14
2
6
5
9
2
7
1
3
16
6
12
9
3
3
8
6
2
2
4
10
3
7
2
1
8
1
2
13
1
1
5
5
2
1
2
3
1
1
5
2
2
2
2
1
2
1
1
1
11
6
5
1
1
5
6
1
1
5
3
2
1
2
4
1
2
2
2
4
2
1
2
1
2
1
1
1
2
1
1
1
1
1
1
4
1
2
3
1
1
2
2
3
1
3
4
1
12
TRANSPORT
9
225
155
REG-PLANN
44
380
SPAT-TECH
BIOTECHNO
HYDRO-RES
RENEW-ENE
ENG&TECHN
ARID-REGI
ENVIRONME
AGRI&FEED
INDU-TECH
INFO-TECH
INDUSTRY
MINES&ENE
NUCLEAR
ALGER
ORAN
CONSTANTINE
ANNABA
SBA
SETIF
TLEMCEN
TIZI OUZOU
BLIDA
BEDJAIA
GUELMA
MOSTAGANEM
BATNA
BISKRA
TEBESSA
M'SILA
JIJEL
TIARET
SKIKDA
CHLEF
OUM-EL-BOUAGHI
BECHAR
MEDEA
MASCARA
HASSI MESSAOUD
DJELFA
OUARGLA
LAGHOUAT
BOUFARIK
HEALT&MED
FUNDA-SCI
Annexe 2
1
2
1
1
1
1
1
1
3
1
1
1
2
1
1
2
22

Des outils au service de la veille technologique.

Transcription

Documents pareils

Évaluation universitaire : la généalogie / Thomas Wieder

Redalyc. El pensamiento grupal en decisiones de organizaciones

attention : a lire attentivement

INVERSE D`UNE MATRICE

construire son plan d`action commercial pour

La matrice avait prédit le 11 septembre (Updated)

Télécharger la brochure

Invitation Foire Hanovre