eRéputation, agilité et big data

Transcription

eRéputation, agilité et big data
Source: Fotolia???
DOSSIER e-marketing
EN COLLABORATION AVEC Elca
eRéputation, agilité et big data
L’évaluation de ce qui se dit d’une marque ou d’une entreprise sur le web
renferme de nombreux défis actuels: réseaux sociaux, big data et méthode
agile. Rodolphe Koller
> page 30
L’agilité au service de l’eRéputation
> page 31
L’eRéputation et ses défis technologiques de Big Data
Quelle que soit l’importance de l’offre d’une
entreprise, bien souvent c’est sa réputation
qui finit par décider un client d’opter pour tel
fournisseur plutôt que tel autre. Jadis intangible, cette réputation d’une entreprise peut
aujourd’hui être en partie analysée grâce au
web et surtout grâce aux médias sociaux. Sous
le terme d’eRéputation s’affiche ainsi la promesse de saisir la notoriété d’une marque ou
d’un produit par le truchement des conversations et contenus en ligne.
Concrètement, cette analyse de la réputation en ligne s’avère cependant d’une grande
complexité. Si la toile recèle des trésors d’informations, elle est aussi un univers infini
où l’on se perd. D’où l’importance de fixer
clairement en amont les objectifs business
d’une telle entreprise pour circonscrire tant
les sources à explorer que les termes à scru-
ter. Mais la difficulté ne s’arrête pas là: ce sont
des personnes qui conversent en ligne et qui
usent de toute la subtilité du langage humain.
Discerner les opinions positives et négatives
ou identifier ce qui est pertinent dans des
volumes de données sans précédent est un
défi de taille pour les algorithmes, si intelligents qu’ils soient.
Outre l’emploi judicieux de technologies
innovantes, l’analyse de la réputation en ligne
nécessite du savoir-faire et de l’expérience. Il
faut aussi savoir avancer à tâtons et remettre
l’ouvrage sur le métier, au gré des résultats
obtenus lors du projet. Itérations, échange
entre les métiers et l’IT, on retrouve les ingrédients qui justifient une approche agile. En
fin de compte, les projets d’eRéputation renferment des défis et tendances bien actuels:
réseaux sociaux, big data, et méthode agile. <
septembre 2013 © netzmedien ag
29
DOSSIER e-marketing
EN COLLABORATION AVEC Elca
L’agilité au service de l’eRéputation
Les projets d’eRéputation apportent un lot important de défis techniques et métiers. Une approche big bang pour les
surmonter conduit inévitablement à l’échec, à l’instar des projets de datawarehouse classiques. Une méthodologie de
développement agile s’impose par la nature elle-même des projets. Yves Burki
A chaque étape d’un projet d’eRéputation, de
multiples défis obligent à avancer à tâtons et à
travailler de manière exploratoire et itérative,
que ce soit pour étendre et affiner les objectifs métiers ou pour optimiser la qualité des
résultats obtenus. Si l’on y ajoute la nécessité
d’avoir une collaboration étroite entre métier
et IT, on obtient exactement les ingrédients
qui conduisent les services IT à adopter des
méthodologies de développement agiles.
Contrairement aux projets de business
intelligence classiques, qui posent des questions fermées et la plupart du temps quantitatives, l’eRéputation rajoute des questions ouvertes et qualitatives: Quels sont
les grands facteurs d’insatisfaction de mes
clients sur le produit x? Qui sont mes ambassadeurs potentiels et quelle est leur influence
sur mon marché? Autant de questions
dont les réponses ne sont pas disponibles
telles quelles, ni dans les bases de données
internes, ni sur le web. Une démarche exploratoire s’impose, avec des résultats qui s’approchent progressivement à force d’intelligence dans la formulation des questions,
dans l’extraction de l’information pertinente
parmi le bruit et dans l’analyse et l’interprétation du contenu. A chaque étape, la complexité du processus et la nature ouverte
des questions conduisent à des résultats qui
impactent la poursuite de l’étude et l’ajustement des objectifs.
Les objectifs métiers
Les projets démarrent la plupart du temps
avec des objectifs de haut niveau, du type
«suivons la réputation du produit x ou de la
marque y». Rapidement, il devient nécessaire
de peaufiner: Quels risques de réputation
vais-je traquer? Comment ces problèmes
de réputation peuvent-il
s’exprimer? Les questions
posées s’affinent progressivement faisant ressortir une
ou plusieurs thématiques qui
demandent à être creusées.
Par exemple: approfondir
l’analyse sur l’axe du temps
pour identifier si une crise ou
un buzz se prépare, identifier
la dynamique de la communication (évolution, extension) puis comment agir?
où? avec quel message? Bref,
l’objectif lui-même s’adapte
continuellement aux observations et aux résultats de
l’étude.
Source: Elca
Que faut-il «écouter»?
Pour identifier des contenus pertinents pour l’étude, deux approches
complémentaires sont nécessaires. La première, à l’instar du media monitoring classique, est basée sur une sélection prédéfinie
de sites, magazines, blogs, etc. La deuxième
est basée sur une approche ouverte avec
l’exploration par mots clés sur les différents moteurs de recherches. Cette dernière
apporte l’assurance de ne pas passer à côté
de sources d’information importantes non
identifiées dans la liste de sélection. Elle doit
être effectuée périodiquement. L’analyse des
résultats conduit régulièrement à adapter la
sélection, à lui ajouter de nouvelles sources,
à aller chercher les données historiques (par
exemple pour les réseaux sociaux) et à éliminer les sources ayant disparu. Pour résumer,
le champ d’observation de l’étude évolue au
fil des résultats observés et une approche itérative se met naturellement en place.
Comment écouter?
Dr. Yves Burki,
Head of Business
Line chez Elca.
L’identification et l’extraction de contenu pertinent nécessitent la définition préalable d’un
vocabulaire spécifique à l’objectif métier. Mais
ce vocabulaire, appelé univers sémantique,
doit être affiné avec le temps: extension et
ajout de nouveaux termes dans les recherches
sur les thématiques qui ressortent de précé-
dentes itérations. La recherche débute avec
quelques dizaines de mots et d’expressions
dans chaque langue, puis viennent s’en ajouter des nouveaux suite à l’analyse des observations. La découverte d’un nouveau thème
émergeant oblige à compléter la recherche
par des termes plus spécifiques, idem pour
de nouvelles appellations et mots courants
qui sont utilisés par les clients, le public, les
jeunes, les professionnels, etc.
Analyse de contenu non structuré et de sentiment
Afin de filtrer et de ne garder que les informations pertinentes pour répondre à l’objectif
métier, une analyse automatique de thèmes
abordés et de sentiments véhiculés (positif,
négatif ou neutre) est nécessaire. Malheureusement, sans apprentissage, les réponses
fournies par les outils spécialisés sont de
qualité aléatoire. Un apprentissage progressif
des algorithmes est nécessaire pour optimiser la reconnaissance de l’information pertinente et il doit être piloté manuellement.
L’étude commence par un échantillonnage
qui aboutit à une appréciation humaine positive, neutre ou négative pour chaque élément
de l’échantillon. Ensuite l’outil, sur la base
des évaluations, affine ses algorithmes et les
septembre 2013 © netzmedien ag
30
DOSSIER e-marketing
EN COLLABORATION AVEC Elca
applique à un nouvel échantillon. Une vérification de la pertinence des résultats amène
progressivement le modèle à être affiné pour
en optimiser la qualité. Et ceci pour chaque
langue que l’on veut inclure dans l’étude.
Exécution des actions à entreprendre suite
aux observations
L’étape la plus importante d’une étude eRéputation tient en la capacité d’agir et de modifier la réputation qui se véhicule. L’alerte peut
venir de partout et prendre n’importe quelle
forme. Il est impossible de se préparer à toutes
les éventualités. De plus, il faut agir vite, c’est
parfois davantage une question d’heures ou
de jours, que de semaines. Mais attention,
une réaction maladroite peut causer encore
plus de dégâts. C’est pourquoi il faut mettre en
place des processus prédéfinis, des contenus
validés par les responsables de la communication et un suivi spécifique. A nouveau, l’agilité est de mise pour mesurer les actions au fil
de l’eau et les modifier si besoin, idem pour
les processus qui doivent permettre de vite
traverser/modifier les étapes le moment venu.
Le choix des outils
Finalement, l’introduction de nouveaux outils
et la mise en place de nouvelles architectures pour l’implémentation de ces projets
imposent également une approche agile. Les
compétences et les expériences manquent et
la courbe d’apprentissage est longue. La maîtrise progressive des outils et architectures
amène son lot de refactoring de la solution.
Par ailleurs, le marché est encore très actif, les
plateformes évoluent très vite, les politiques et
contrats d’accès aux données aussi. Les bases
sur lesquelles se construisent les solutions
sont donc encore instables et il faut compter
avec de nombreuses mises à jour. De plus,
des solutions de niche se créent et apportent
des performances singulières pour certaines
problématiques, associant technologie et
mise à disposition de données. Une approche
big bang pour les investissements n’est pas
recommandée. Construire une solution par
paliers successifs, laissant de la place pour des
briques best-of-breed, est sans doute la stratégie la plus sage pour quelques années encore.
L’eRéputation et ses défis
technologiques de Big Data
Le Big Data est devenu un leitmotiv pour les acteurs de l’IT et un domaine
d’analyse à part entière pour les grands cabinets. Beaucoup d’entreprises,
investissent dans des projets d’envergure, souvent sans succès. Jérôme Berthier
Selon une étude récente d’Infochimps 55%
des projets de Big Data échouent. Pourquoi
un tel résultat? Selon les sondages effectués,
la première cause est l’absence d’un objectif
métier précis, viennent ensuite la difficulté
d’accès aux données et finalement le manque
d’expérience et de connaissances des équipes
IT. C’est effectivement tout un ensemble de
défis que doit relever l’équipe IT dans les projets de Big Data.
Big Data et eRéputation
L’eRéputation est un bon exemple de projets de Big Data et repose sur l’interprétation
de données web, sachant qu’il est utopique
de penser que l’on peut «écouter » l’entier
du web – ce qui reviendrait à se substituer à
Google. Il est donc indispensable de définir
un cadre de recherche et d’étude qui passe
évidemment par une forte connaissance
métier et des objectifs clairs.
L’entreprise qui cherche à faire une étude
d’eRéputation doit fortement s’investir en
amont et tout au long de l’étude pour définir
le «Qui» et le «Quoi» du projet sur la base des
objectifs métiers.
• Le «Qui» revient à définir un ensemble de
sources à écouter, à la fois influentes et représentantes de l’écosystème de l’entreprise. Ces
sources sont segmentées selon leur nature:
information du web, réseaux sociaux, blogs/
forums et news/media, l’ensemble formant
une webosphère dédiée à l’étude. L’influence
de ces sources varie fortement. Par exemple,
un journal local comme Le Temps n’a pas la
même visibilité que le The Economist dans le
monde des affaires. Il faut attribuer à chaque
source un score combinant notoriété et visi-
Conclusion
Dans toutes les étapes des projets d’eRéputation, une approche itérative et agile s’impose.
Et si, comme le montre l’étude suisse Agile
trends & benchmarks 2013 de SwissQ, l’agilité est encore loin d’être systématiquement
implémentée dans les projets de systèmes
d’information, elle doit impérativement l’être
dans les projets de big data. <
Jérôme Berthier,
Head of BI division
chez Elca.
bilité, deux notions difficiles à quantifier, qui
permet de leur accorder plus ou moins d’importance dans les analyses. Par ailleurs, une
approche ouverte est nécessaire, de manière
à ne pas rater un début de crise de réputation
parce que sa source n’était pas dans la liste…
• Le «Quoi» consiste à définir un ensemble
de mots clefs, c’est-à-dire l’univers sémantique, qui va constituer le dictionnaire
d’étude. Ce dictionnaire est formé d’un
ensemble de termes ou d’expressions génériques du domaine métier de l’entreprise (qui
pourra être réutilisé) et également d’un sousensemble particulier spécifique à l’étude et à
ses objectifs. A titre d’exemple, une recherche
récente présentée par IBM et Sponsorize
autour de quatre grandes marques suisses
actives dans le sponsoring avait pour objectif
de montrer (notamment) quels sports sont
les plus associés aux marques. Pour cette partie uniquement, plus d’une centaine de mots
ou d’expressions spécifiques à l’objectif ont
été définis. Si l’on inclut l’analyse sur le sponsoring culturel et les égéries des marques,
c’est finalement un univers sémantique de
plusieurs centaines de mots et d’expressions
à décliner dans chaque langue.
Une fois le cadre de l’étude défini, on se
trouve face à quatre difficultés principales :
l’accès aux données, l’extraction des informations pertinentes, leur interprétation et l’infrastructure nécessaire.
L’accès aux données
Deux cas sont ici à distinguer: d’une part des
recherches ouvertes, d’autre part l’écoute des
sources présélectionnées.
Les recherches ouvertes nécessitent l’utilisation de moteurs tels que Google, Yahoo!,
Bing, Boardreader, etc. Mais l’automatisation
de ces recherches est rapidement bloquée
sans accords commerciaux directs ou via un
intermédiaire avec les acteurs incontournables du web. Par exemple l’automatisation d’une recherche pour trouver les mille
premiers résultats fournis par Google sur
quelques mots clés, se retrouve bloquée dès
la deuxième ou troisième tentative.
4
septembre 2013 © netzmedien ag
31
DOSSIER e-marketing
EN COLLABORATION AVEC Elca
4
Pour les sources présélectionnées, l’accès
en direct aux données varie fortement selon
leurs types. Le crawling des sites web publics,
des actualités (non payantes), des forums et
blogs ne pose pas de problèmes d’accessibilité.
Inversement les données contenues dans
les réseaux sociaux sont les moins accessibles.
Les parties privées sont très protégées par des
mesures de privacy des utilisateurs et les données publiques sont souvent très limitées. De
plus le coût d’accès à ces données est onéreux
(voir encadré).
L’extraction des informations pertinentes
Que ces informations soient hautement disponibles ou pas, ceci n’a aucune influence
sur leur pertinence. Après une première étape
de crawling des sources sur la base de mots
clés, vient l’étape du nettoyage des informations collectées pour en ressortir un lot significatif. En effet, les résultats d’un crawling
avec comme filtres des mots clés spécifiques
retournent un grand nombre de données
mais également beaucoup de bruit qui vient
polluer le résultat. A titre d’exemple, pour
une recherche menée autour de 16 banques
suisses menée début 2013, un crawl sur le
site d’un quotidien suisse a ressorti 900 hits.
L’élimination des doublons et le nettoyage à
l’aide d’une recherche de similitude a nécessité deux itérations et permis de réduire ce
nombre à 60 hits. Finalement une vérification manuelle a montré que seuls 46 articles
étaient distincts et pertinents. 14 articles s’avéraient irrelevants et une nouvelle adaptation
du dictionnaire d’étude et de la stratégie de
combinaison des mots clés dans les requêtes
étaient encore nécessaire pour éliminer automatiquement ce «bruit».
Cet exemple démontre qu’éliminer le bruit
et les doublons est un processus relativement
complexe nécessitant des essais et des vérifications manuelles. Les statistiques peuvent
avoir des ordres de grandeurs de différence
selon les filtres appliqués.
Par ailleurs, quid des formats très variés et
non textuels contenus dans les sources comme
les photos, l’audio et la vidéos? Chaque format
nécessite une approche adaptée, un dictionnaire d’étude étendu avec des images, logos
et marques, et finalement des outils radicalement différents et bien plus complexes qu’un
crawling sur la base de simples mots clés.
Ces formats sont à prendre sérieusement
en considération vu qu’aujourd’hui l’internaute
visionne plus facilement une vidéo qu’il ne lit
un texte. D’où l’importance de maitriser ces
différents formats et de pouvoir inclure, dans
la liste des sites à vérifier, des géants du web
comme YouTube, Dailymotion et Pinterest.
Interprétation des données
L’interprétation des données récoltées s’articule autour de plusieurs étapes clés revenant
à structurer des données initialement non
structurées.
En plus de la pertinence «technique» des
données, il est important de pouvoir en faire
ressortir la thématique abordée et le sentiment
véhiculé. Beaucoup d’entreprises aiment à
savoir où l’on parle d’elles, mais ce qu’elles
cherchent plus précisément, c’est de savoir ce
que l’on dit d’elles et dans quel contexte.
Commence alors un travail minutieux
qui demande une intervention humaine non
négligeable et des compétences en natural
language processing. Même si certains éditeurs comme SAS sont déjà très évolués en
analyse textuelle, les automates sont peu efficaces pour faire la différence entre un texte à
connotation réelle ou du second degré, sans
effectuer un apprentissage itératif et manuel.
Il faut également tenir compte du fait que
la plupart des outils donnent un sentiment global pour un document, ce qui ne suffit pas pour
l’analyse d’eRéputation, car le document peut
en même temps parler positivement d’un sujet
Exemple de coût des
données
L’accès au streaming et à un an d’historique de données Twitter pour une étude de
benchmarking eRéputation sur 17 sociétés
suisses coûte de 5000 à 10 000 USD selon
le volume de données.
et négativement d’un autre. D’où la nécessité
de prédéfinir des thèmes qui classifieront l’analyse de sentiment de manière plus détaillée.
En plus de l’analyse de sentiment, d’autres
difficultés s’ajoutent à l’interprétation des
données, en particulier l’analyse sur l’axe du
temps. Deux concepts de dates se télescopent:
la date de création de l’information et la date
de consultation de l’information.
La première est importante quand on
cherche à établir des liens entre des publications et des évènements ou des conséquences
indirectes. Le lien entre le cours de bourse
d’une entreprise et la publication d’un analyste financier en est un bon exemple. Malheureusement, la date de création n’est pas
une métadonnée toujours facilement identifiable par le crawling et nécessite souvent son
extraction par une analyse du contenu textuel.
La seconde, ou plus généralement l’évolution du nombre de consultation dans le temps,
est également d’une grande importance car
elle permet de suivre l’évolution d’une eRépu-
tation et d’identifier les prémisses d’un buzz
ou d’une crise. Malheureusement ces informations sont extrêmement difficiles, voire
impossibles à obtenir de manière directe.
Une alternative est de se baser sur l’évolution
du ranking d’un document sur les moteurs
de recherche qui tiennent compte de ce facteur, avec l’inconvénient qu’ils le font d’une
manière non transparente, et donc difficile à
isoler des autres facteurs impactant le ranking.
Infrastructure
Viennent finalement les questions du stockage
et de l’infrastructure, car bien que les moyens
technologiques permettent aujourd’hui un
stockage important, il n’en reste pas moins
qu’une des problématiques reste la quantité
astronomique de données à archiver.
Il faut alors anticiper un espace de stockage conséquent et prévoir un processus de
purge avec des règles de nettoyage définies.
Conserver l’ensemble du web crawlé depuis
des années serait inconcevable.
Il est à noter que l’analyse de grands
volumes de données – on parle de «Big» Data
– requiert non seulement de l’espace pour le
stockage, mais aussi beaucoup de mémoire
vive (RAM), de puissance de traitement (CPU)
et de bande passante réseau. A titre d’exemple,
un crawl de 2 millions de pages sur 100 sites
prend 48 heures avec une machine quadcore
standard. Il importe dès lors que de nouvelles
architectures, basées sur du cloud et de la
parallélisation de traitement, soient rapidement acquises et maîtrisées par les équipes IT.
Pour permettre de relever l’ensemble de
tous ces défis technologiques, de nombreux
éditeurs proposent des solutions plus ou
moins abouties mais avec tous la même réalité
économique: un ticket d’entrée élevé. En effet,
ces solutions puissantes ne sont actuellement
pas taillées pour les PME car, que l’on cherche
à mener une campagne locale ou mondiale,
un tel projet avoisine, voire dépasse rapidement le demi-million de francs en licences
software et en infrastructures. D’où un fort
engouement pour le SaaS et le cloud, qui
offrent la possibilité de partager les coûts avec
ses pairs.
Dans une étude d’eRéputation avec les
technologies Big Data, les équipes IT font face
à des nombreux nouveaux défis. Les compétences traditionnelles de business intelligence
doivent être en particulier complétées avec de
l’expérience autour de l’analyse de contenu
non structuré et avec des outils et infrastructures complexes. La courbe d’apprentissage
est longue et les écueils nombreux. Faire appel
à des experts externes permet d’accélérer le
processus et d’éviter les plus gros pièges. <
septembre 2013 © netzmedien ag
32

Documents pareils