eRéputation, agilité et big data
Transcription
eRéputation, agilité et big data
Source: Fotolia??? DOSSIER e-marketing EN COLLABORATION AVEC Elca eRéputation, agilité et big data L’évaluation de ce qui se dit d’une marque ou d’une entreprise sur le web renferme de nombreux défis actuels: réseaux sociaux, big data et méthode agile. Rodolphe Koller > page 30 L’agilité au service de l’eRéputation > page 31 L’eRéputation et ses défis technologiques de Big Data Quelle que soit l’importance de l’offre d’une entreprise, bien souvent c’est sa réputation qui finit par décider un client d’opter pour tel fournisseur plutôt que tel autre. Jadis intangible, cette réputation d’une entreprise peut aujourd’hui être en partie analysée grâce au web et surtout grâce aux médias sociaux. Sous le terme d’eRéputation s’affiche ainsi la promesse de saisir la notoriété d’une marque ou d’un produit par le truchement des conversations et contenus en ligne. Concrètement, cette analyse de la réputation en ligne s’avère cependant d’une grande complexité. Si la toile recèle des trésors d’informations, elle est aussi un univers infini où l’on se perd. D’où l’importance de fixer clairement en amont les objectifs business d’une telle entreprise pour circonscrire tant les sources à explorer que les termes à scru- ter. Mais la difficulté ne s’arrête pas là: ce sont des personnes qui conversent en ligne et qui usent de toute la subtilité du langage humain. Discerner les opinions positives et négatives ou identifier ce qui est pertinent dans des volumes de données sans précédent est un défi de taille pour les algorithmes, si intelligents qu’ils soient. Outre l’emploi judicieux de technologies innovantes, l’analyse de la réputation en ligne nécessite du savoir-faire et de l’expérience. Il faut aussi savoir avancer à tâtons et remettre l’ouvrage sur le métier, au gré des résultats obtenus lors du projet. Itérations, échange entre les métiers et l’IT, on retrouve les ingrédients qui justifient une approche agile. En fin de compte, les projets d’eRéputation renferment des défis et tendances bien actuels: réseaux sociaux, big data, et méthode agile. < septembre 2013 © netzmedien ag 29 DOSSIER e-marketing EN COLLABORATION AVEC Elca L’agilité au service de l’eRéputation Les projets d’eRéputation apportent un lot important de défis techniques et métiers. Une approche big bang pour les surmonter conduit inévitablement à l’échec, à l’instar des projets de datawarehouse classiques. Une méthodologie de développement agile s’impose par la nature elle-même des projets. Yves Burki A chaque étape d’un projet d’eRéputation, de multiples défis obligent à avancer à tâtons et à travailler de manière exploratoire et itérative, que ce soit pour étendre et affiner les objectifs métiers ou pour optimiser la qualité des résultats obtenus. Si l’on y ajoute la nécessité d’avoir une collaboration étroite entre métier et IT, on obtient exactement les ingrédients qui conduisent les services IT à adopter des méthodologies de développement agiles. Contrairement aux projets de business intelligence classiques, qui posent des questions fermées et la plupart du temps quantitatives, l’eRéputation rajoute des questions ouvertes et qualitatives: Quels sont les grands facteurs d’insatisfaction de mes clients sur le produit x? Qui sont mes ambassadeurs potentiels et quelle est leur influence sur mon marché? Autant de questions dont les réponses ne sont pas disponibles telles quelles, ni dans les bases de données internes, ni sur le web. Une démarche exploratoire s’impose, avec des résultats qui s’approchent progressivement à force d’intelligence dans la formulation des questions, dans l’extraction de l’information pertinente parmi le bruit et dans l’analyse et l’interprétation du contenu. A chaque étape, la complexité du processus et la nature ouverte des questions conduisent à des résultats qui impactent la poursuite de l’étude et l’ajustement des objectifs. Les objectifs métiers Les projets démarrent la plupart du temps avec des objectifs de haut niveau, du type «suivons la réputation du produit x ou de la marque y». Rapidement, il devient nécessaire de peaufiner: Quels risques de réputation vais-je traquer? Comment ces problèmes de réputation peuvent-il s’exprimer? Les questions posées s’affinent progressivement faisant ressortir une ou plusieurs thématiques qui demandent à être creusées. Par exemple: approfondir l’analyse sur l’axe du temps pour identifier si une crise ou un buzz se prépare, identifier la dynamique de la communication (évolution, extension) puis comment agir? où? avec quel message? Bref, l’objectif lui-même s’adapte continuellement aux observations et aux résultats de l’étude. Source: Elca Que faut-il «écouter»? Pour identifier des contenus pertinents pour l’étude, deux approches complémentaires sont nécessaires. La première, à l’instar du media monitoring classique, est basée sur une sélection prédéfinie de sites, magazines, blogs, etc. La deuxième est basée sur une approche ouverte avec l’exploration par mots clés sur les différents moteurs de recherches. Cette dernière apporte l’assurance de ne pas passer à côté de sources d’information importantes non identifiées dans la liste de sélection. Elle doit être effectuée périodiquement. L’analyse des résultats conduit régulièrement à adapter la sélection, à lui ajouter de nouvelles sources, à aller chercher les données historiques (par exemple pour les réseaux sociaux) et à éliminer les sources ayant disparu. Pour résumer, le champ d’observation de l’étude évolue au fil des résultats observés et une approche itérative se met naturellement en place. Comment écouter? Dr. Yves Burki, Head of Business Line chez Elca. L’identification et l’extraction de contenu pertinent nécessitent la définition préalable d’un vocabulaire spécifique à l’objectif métier. Mais ce vocabulaire, appelé univers sémantique, doit être affiné avec le temps: extension et ajout de nouveaux termes dans les recherches sur les thématiques qui ressortent de précé- dentes itérations. La recherche débute avec quelques dizaines de mots et d’expressions dans chaque langue, puis viennent s’en ajouter des nouveaux suite à l’analyse des observations. La découverte d’un nouveau thème émergeant oblige à compléter la recherche par des termes plus spécifiques, idem pour de nouvelles appellations et mots courants qui sont utilisés par les clients, le public, les jeunes, les professionnels, etc. Analyse de contenu non structuré et de sentiment Afin de filtrer et de ne garder que les informations pertinentes pour répondre à l’objectif métier, une analyse automatique de thèmes abordés et de sentiments véhiculés (positif, négatif ou neutre) est nécessaire. Malheureusement, sans apprentissage, les réponses fournies par les outils spécialisés sont de qualité aléatoire. Un apprentissage progressif des algorithmes est nécessaire pour optimiser la reconnaissance de l’information pertinente et il doit être piloté manuellement. L’étude commence par un échantillonnage qui aboutit à une appréciation humaine positive, neutre ou négative pour chaque élément de l’échantillon. Ensuite l’outil, sur la base des évaluations, affine ses algorithmes et les septembre 2013 © netzmedien ag 30 DOSSIER e-marketing EN COLLABORATION AVEC Elca applique à un nouvel échantillon. Une vérification de la pertinence des résultats amène progressivement le modèle à être affiné pour en optimiser la qualité. Et ceci pour chaque langue que l’on veut inclure dans l’étude. Exécution des actions à entreprendre suite aux observations L’étape la plus importante d’une étude eRéputation tient en la capacité d’agir et de modifier la réputation qui se véhicule. L’alerte peut venir de partout et prendre n’importe quelle forme. Il est impossible de se préparer à toutes les éventualités. De plus, il faut agir vite, c’est parfois davantage une question d’heures ou de jours, que de semaines. Mais attention, une réaction maladroite peut causer encore plus de dégâts. C’est pourquoi il faut mettre en place des processus prédéfinis, des contenus validés par les responsables de la communication et un suivi spécifique. A nouveau, l’agilité est de mise pour mesurer les actions au fil de l’eau et les modifier si besoin, idem pour les processus qui doivent permettre de vite traverser/modifier les étapes le moment venu. Le choix des outils Finalement, l’introduction de nouveaux outils et la mise en place de nouvelles architectures pour l’implémentation de ces projets imposent également une approche agile. Les compétences et les expériences manquent et la courbe d’apprentissage est longue. La maîtrise progressive des outils et architectures amène son lot de refactoring de la solution. Par ailleurs, le marché est encore très actif, les plateformes évoluent très vite, les politiques et contrats d’accès aux données aussi. Les bases sur lesquelles se construisent les solutions sont donc encore instables et il faut compter avec de nombreuses mises à jour. De plus, des solutions de niche se créent et apportent des performances singulières pour certaines problématiques, associant technologie et mise à disposition de données. Une approche big bang pour les investissements n’est pas recommandée. Construire une solution par paliers successifs, laissant de la place pour des briques best-of-breed, est sans doute la stratégie la plus sage pour quelques années encore. L’eRéputation et ses défis technologiques de Big Data Le Big Data est devenu un leitmotiv pour les acteurs de l’IT et un domaine d’analyse à part entière pour les grands cabinets. Beaucoup d’entreprises, investissent dans des projets d’envergure, souvent sans succès. Jérôme Berthier Selon une étude récente d’Infochimps 55% des projets de Big Data échouent. Pourquoi un tel résultat? Selon les sondages effectués, la première cause est l’absence d’un objectif métier précis, viennent ensuite la difficulté d’accès aux données et finalement le manque d’expérience et de connaissances des équipes IT. C’est effectivement tout un ensemble de défis que doit relever l’équipe IT dans les projets de Big Data. Big Data et eRéputation L’eRéputation est un bon exemple de projets de Big Data et repose sur l’interprétation de données web, sachant qu’il est utopique de penser que l’on peut «écouter » l’entier du web – ce qui reviendrait à se substituer à Google. Il est donc indispensable de définir un cadre de recherche et d’étude qui passe évidemment par une forte connaissance métier et des objectifs clairs. L’entreprise qui cherche à faire une étude d’eRéputation doit fortement s’investir en amont et tout au long de l’étude pour définir le «Qui» et le «Quoi» du projet sur la base des objectifs métiers. • Le «Qui» revient à définir un ensemble de sources à écouter, à la fois influentes et représentantes de l’écosystème de l’entreprise. Ces sources sont segmentées selon leur nature: information du web, réseaux sociaux, blogs/ forums et news/media, l’ensemble formant une webosphère dédiée à l’étude. L’influence de ces sources varie fortement. Par exemple, un journal local comme Le Temps n’a pas la même visibilité que le The Economist dans le monde des affaires. Il faut attribuer à chaque source un score combinant notoriété et visi- Conclusion Dans toutes les étapes des projets d’eRéputation, une approche itérative et agile s’impose. Et si, comme le montre l’étude suisse Agile trends & benchmarks 2013 de SwissQ, l’agilité est encore loin d’être systématiquement implémentée dans les projets de systèmes d’information, elle doit impérativement l’être dans les projets de big data. < Jérôme Berthier, Head of BI division chez Elca. bilité, deux notions difficiles à quantifier, qui permet de leur accorder plus ou moins d’importance dans les analyses. Par ailleurs, une approche ouverte est nécessaire, de manière à ne pas rater un début de crise de réputation parce que sa source n’était pas dans la liste… • Le «Quoi» consiste à définir un ensemble de mots clefs, c’est-à-dire l’univers sémantique, qui va constituer le dictionnaire d’étude. Ce dictionnaire est formé d’un ensemble de termes ou d’expressions génériques du domaine métier de l’entreprise (qui pourra être réutilisé) et également d’un sousensemble particulier spécifique à l’étude et à ses objectifs. A titre d’exemple, une recherche récente présentée par IBM et Sponsorize autour de quatre grandes marques suisses actives dans le sponsoring avait pour objectif de montrer (notamment) quels sports sont les plus associés aux marques. Pour cette partie uniquement, plus d’une centaine de mots ou d’expressions spécifiques à l’objectif ont été définis. Si l’on inclut l’analyse sur le sponsoring culturel et les égéries des marques, c’est finalement un univers sémantique de plusieurs centaines de mots et d’expressions à décliner dans chaque langue. Une fois le cadre de l’étude défini, on se trouve face à quatre difficultés principales : l’accès aux données, l’extraction des informations pertinentes, leur interprétation et l’infrastructure nécessaire. L’accès aux données Deux cas sont ici à distinguer: d’une part des recherches ouvertes, d’autre part l’écoute des sources présélectionnées. Les recherches ouvertes nécessitent l’utilisation de moteurs tels que Google, Yahoo!, Bing, Boardreader, etc. Mais l’automatisation de ces recherches est rapidement bloquée sans accords commerciaux directs ou via un intermédiaire avec les acteurs incontournables du web. Par exemple l’automatisation d’une recherche pour trouver les mille premiers résultats fournis par Google sur quelques mots clés, se retrouve bloquée dès la deuxième ou troisième tentative. 4 septembre 2013 © netzmedien ag 31 DOSSIER e-marketing EN COLLABORATION AVEC Elca 4 Pour les sources présélectionnées, l’accès en direct aux données varie fortement selon leurs types. Le crawling des sites web publics, des actualités (non payantes), des forums et blogs ne pose pas de problèmes d’accessibilité. Inversement les données contenues dans les réseaux sociaux sont les moins accessibles. Les parties privées sont très protégées par des mesures de privacy des utilisateurs et les données publiques sont souvent très limitées. De plus le coût d’accès à ces données est onéreux (voir encadré). L’extraction des informations pertinentes Que ces informations soient hautement disponibles ou pas, ceci n’a aucune influence sur leur pertinence. Après une première étape de crawling des sources sur la base de mots clés, vient l’étape du nettoyage des informations collectées pour en ressortir un lot significatif. En effet, les résultats d’un crawling avec comme filtres des mots clés spécifiques retournent un grand nombre de données mais également beaucoup de bruit qui vient polluer le résultat. A titre d’exemple, pour une recherche menée autour de 16 banques suisses menée début 2013, un crawl sur le site d’un quotidien suisse a ressorti 900 hits. L’élimination des doublons et le nettoyage à l’aide d’une recherche de similitude a nécessité deux itérations et permis de réduire ce nombre à 60 hits. Finalement une vérification manuelle a montré que seuls 46 articles étaient distincts et pertinents. 14 articles s’avéraient irrelevants et une nouvelle adaptation du dictionnaire d’étude et de la stratégie de combinaison des mots clés dans les requêtes étaient encore nécessaire pour éliminer automatiquement ce «bruit». Cet exemple démontre qu’éliminer le bruit et les doublons est un processus relativement complexe nécessitant des essais et des vérifications manuelles. Les statistiques peuvent avoir des ordres de grandeurs de différence selon les filtres appliqués. Par ailleurs, quid des formats très variés et non textuels contenus dans les sources comme les photos, l’audio et la vidéos? Chaque format nécessite une approche adaptée, un dictionnaire d’étude étendu avec des images, logos et marques, et finalement des outils radicalement différents et bien plus complexes qu’un crawling sur la base de simples mots clés. Ces formats sont à prendre sérieusement en considération vu qu’aujourd’hui l’internaute visionne plus facilement une vidéo qu’il ne lit un texte. D’où l’importance de maitriser ces différents formats et de pouvoir inclure, dans la liste des sites à vérifier, des géants du web comme YouTube, Dailymotion et Pinterest. Interprétation des données L’interprétation des données récoltées s’articule autour de plusieurs étapes clés revenant à structurer des données initialement non structurées. En plus de la pertinence «technique» des données, il est important de pouvoir en faire ressortir la thématique abordée et le sentiment véhiculé. Beaucoup d’entreprises aiment à savoir où l’on parle d’elles, mais ce qu’elles cherchent plus précisément, c’est de savoir ce que l’on dit d’elles et dans quel contexte. Commence alors un travail minutieux qui demande une intervention humaine non négligeable et des compétences en natural language processing. Même si certains éditeurs comme SAS sont déjà très évolués en analyse textuelle, les automates sont peu efficaces pour faire la différence entre un texte à connotation réelle ou du second degré, sans effectuer un apprentissage itératif et manuel. Il faut également tenir compte du fait que la plupart des outils donnent un sentiment global pour un document, ce qui ne suffit pas pour l’analyse d’eRéputation, car le document peut en même temps parler positivement d’un sujet Exemple de coût des données L’accès au streaming et à un an d’historique de données Twitter pour une étude de benchmarking eRéputation sur 17 sociétés suisses coûte de 5000 à 10 000 USD selon le volume de données. et négativement d’un autre. D’où la nécessité de prédéfinir des thèmes qui classifieront l’analyse de sentiment de manière plus détaillée. En plus de l’analyse de sentiment, d’autres difficultés s’ajoutent à l’interprétation des données, en particulier l’analyse sur l’axe du temps. Deux concepts de dates se télescopent: la date de création de l’information et la date de consultation de l’information. La première est importante quand on cherche à établir des liens entre des publications et des évènements ou des conséquences indirectes. Le lien entre le cours de bourse d’une entreprise et la publication d’un analyste financier en est un bon exemple. Malheureusement, la date de création n’est pas une métadonnée toujours facilement identifiable par le crawling et nécessite souvent son extraction par une analyse du contenu textuel. La seconde, ou plus généralement l’évolution du nombre de consultation dans le temps, est également d’une grande importance car elle permet de suivre l’évolution d’une eRépu- tation et d’identifier les prémisses d’un buzz ou d’une crise. Malheureusement ces informations sont extrêmement difficiles, voire impossibles à obtenir de manière directe. Une alternative est de se baser sur l’évolution du ranking d’un document sur les moteurs de recherche qui tiennent compte de ce facteur, avec l’inconvénient qu’ils le font d’une manière non transparente, et donc difficile à isoler des autres facteurs impactant le ranking. Infrastructure Viennent finalement les questions du stockage et de l’infrastructure, car bien que les moyens technologiques permettent aujourd’hui un stockage important, il n’en reste pas moins qu’une des problématiques reste la quantité astronomique de données à archiver. Il faut alors anticiper un espace de stockage conséquent et prévoir un processus de purge avec des règles de nettoyage définies. Conserver l’ensemble du web crawlé depuis des années serait inconcevable. Il est à noter que l’analyse de grands volumes de données – on parle de «Big» Data – requiert non seulement de l’espace pour le stockage, mais aussi beaucoup de mémoire vive (RAM), de puissance de traitement (CPU) et de bande passante réseau. A titre d’exemple, un crawl de 2 millions de pages sur 100 sites prend 48 heures avec une machine quadcore standard. Il importe dès lors que de nouvelles architectures, basées sur du cloud et de la parallélisation de traitement, soient rapidement acquises et maîtrisées par les équipes IT. Pour permettre de relever l’ensemble de tous ces défis technologiques, de nombreux éditeurs proposent des solutions plus ou moins abouties mais avec tous la même réalité économique: un ticket d’entrée élevé. En effet, ces solutions puissantes ne sont actuellement pas taillées pour les PME car, que l’on cherche à mener une campagne locale ou mondiale, un tel projet avoisine, voire dépasse rapidement le demi-million de francs en licences software et en infrastructures. D’où un fort engouement pour le SaaS et le cloud, qui offrent la possibilité de partager les coûts avec ses pairs. Dans une étude d’eRéputation avec les technologies Big Data, les équipes IT font face à des nombreux nouveaux défis. Les compétences traditionnelles de business intelligence doivent être en particulier complétées avec de l’expérience autour de l’analyse de contenu non structuré et avec des outils et infrastructures complexes. La courbe d’apprentissage est longue et les écueils nombreux. Faire appel à des experts externes permet d’accélérer le processus et d’éviter les plus gros pièges. < septembre 2013 © netzmedien ag 32