Trois approches en analyse de texte Introduction aux logiciels de
Transcription
Trois approches en analyse de texte Introduction aux logiciels de
Trois approches en analyse de texte L'Analyse Qualitative L'analyse de Contenu Quantitative (par dictionnaires) Le forage de texte ("Text Mining") Introduction aux logiciels de Provalis Research QDA Miner 4.1 Introduction et gestion de projets Gestion du livre de codes et codage manuel Fonctions de sauvegarde et outils de recherche de texte Fréquence de codage et récupération de codage Cooccurrence de codes et analyse de similarité des cas Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes Le travail d'équipe et le calcul d'accord inter-juges Fonctions diverses WordStat 6.1 Analyse de contenu et forage de texte Analyser les documents sans dictionnaire - une approche exploratoire L'analyse de contenu - principes de construction d'un dictionnaire (ou taxonomie) Importer et exporter les données Introduction à la classification automatique de documents QDA Miner 4.1 PARTIE #1 - Introduction et gestion de projets Introduction à l'analyse qualitative assistée par ordinateur avec QDA Miner 4.1 La structure de projet CAS x VARIABLES L'approche méthodes mixtes Survol de l'environnement de travail Les quatre fenêtres - CAS, VARIABLES, CODES, et DOCUMENT Le système de menu Créer un nouveau projet à partir d'une liste de document à partir d'un fichier de données Créer une structure de projet sans données Introduction à l'assistant de conversion de documents Customiser et personnaliser le projet Le dialogue PROJET | PROPRIÉTÉES La commande PROJET | NOTES Manipuler les variables Ajouter une variable - VARIABLES | AJOUTER Effacer une variable - VARIABLES | EFFACER Changer le type de données d'une variable - VARIABLES | TRANSFORMER Recoder les valeurs d'une variable - VARIABLES | TRANSFORMER | RECODER Réordonner les variables - VARIABLES | RÉORDONNER Changer les propriétés des variables - VARIABLES | PROPRIÉTÉS Manipuler les cas Ajouter un nouveau cas - CAS | AJOUTER Effacer un case - CAS | EFFACER Importer de nouveaux documents dans des nouveaux cas - CAS | AJOUTER DOCUMENTS/IMAGES Changer l'ordre, le groupement, et la description des cas - CAS | GROUPEMENT / DESCRIPTION Exercice #1 QDA Miner 4.1 PARTIE #2 - La gestion du livre de code et le codage manuel Créer des codes and gérer le livre de codes Créer des codes et des catégories - CODES | AJOUTER Modifier un code existant - CODES | ÉDITER Effacer un code existant - CODES | EFFACER Déplacer un code dans le livre de code Fusionner des codes dans le livre de code - CODES | FUSIONNER DANS... Diviser un code en plusieurs codes - CODES | DIVISER LE CODE Exporter et importer un livre de codes - CODES | EXPORTER et CODES | IMPORTER Le codage manuel des documents (versus autocodage) Les quatre méthodes de base pour assigner un code à un segment de texte: 1. Sélectionner le segment et glisser le code sur le segment 2. Sélectionner le segment et double-cliquer sur le code 3. Sélectionner le segment et sélectionner le code sur la barre de codage 4. Glisser et déposer le code sur un paragraphe (ou sur une phrase avec le bouton ALT) Assignation de multiples codes au même segment (avec le bouton CTRL) Modifier le codage Travailler avec les marques de codes Voir les informations sur le codage Ajouter un commentaire à un codage Supprimer un codage - COMMENTAIRE ENLEVER LE CODAGE Changer le code associé à un segment de texte Redimensionner un segment - RECODER REDIMENSIONNER Consolider le codage - CODES | CONSOLIDER Combiner les codes - CODES | COMBINER Chercher et remplace les codes - CODES | CHERCHER & REMPLACER Dissimuler les marques de codes - CODES | DISSIMULER LE CODAGE Surligner les segments codées - DOCUMENT | TEXTE CODÉ Exercice #2 QDA Miner 4.1 PARTIE #3 - Fonction de sauvegarde et outils de recherche de texte Utilisation de la fonction de sauvegarde Créer une sauvegarde - MAINTENANCE | SAUVEGARDE | CRÉER Récupérer une version sauvegardée d'un projet - MAINTENANCE | SAUVEGARDE | RÉCUPÉRER Ajuster la sauvegarde automatique de projet Les outils de recherche de texte (4) 1. Recherche de texte - RECHERCHE | RECHERCHE DE TEXTE Exécuter une requête de texte simple Exécuter une requête complexe avec opérateurs booléens et caractères génériques ("wildcard") Exécuter une requête par thésaurus Utilisation du tableau de résultats Codage manuel, autocodage, et tableau de codage interactif Sauvegarde et impression du tableau de résultats 2. Récupérer et coder des sections d'un document structuré - RECHERCHE | RECHERCHE DE SECTIONS 3. La requête par exemple - RECHERCHE | RECHERCHE PAR EXEMPLE Trouver des extraits de texte similaires à une segment de texte Améliorer les résultats de recherche au moyen de feedback sur la pertinence des résultats Trouver des extraits de texte similaires à un ensemble de segments codés Effectuer une recherche avec une technique d'appariement partiel 4. Exécuter une recherche par mots-clés Assigner des mots clés et phrases clés aux codes Exécuter une recherche par mots-clés sur les Effectuer une recherche par mots-clés à partir de dictionnaires WordStat Exercice #3 Supplément: Présentation de l'extraction par grappe et de la recherche par similarité de codes QDA Miner 4.1 PARTIE #4 - Fréquence de codes et Récupération des segments codés Fréquence de codes Création d'un tableau de fréquence de l'ensemble des codes - ANALYSER | FRÉQUENCE DE CODAGES Création de graphiques (diagramme à barres, circulaire ou nuage de mots) Customiser les graphiques Récupération des segments codés Exécuter une recherche simple de codage simple - RECHERCHE | RECHERCHE DE CODAGE Exécuter une recherche avancée (opérateurs booléen, de chevauchement et de proximité) Création d'un rapport sous forme de document Création d'un nouveau projet à partir de segments codés Un raccourci pour une requête simple - Sauvegarder et récupérer les requêtes Récupérer une liste de commentaires Exercice #4 CHERCHER LES SEGMENTS QDA Miner 4.1 PARTIE #5 - Cooccurrence de codes et analyse de similarité des cas Analyser la cooccurrence des codes - ANALYSES | COOCCURRENCE DES CODES Groupement hiérarchique des codes Positionnement multidimensionnel en 2D et 3D Utilisation du graphe de proximité Analyser la similarité des cas (segmentation) - ANALYSES | SIMILARITÉ DES CAS Analyser les séquences de codes - ANALYSES | SÉQUENCES DE CODES Sélection des codes et ajustement des distances minimale et maximale Utilisation de la matrice de séquences Recherche et codes de séquences spécifiques Exercice #5 QDA Miner 4.1 PARTIE #6 - Évaluer les liens entre codage et les données structurées (variables) Analyse du codage par variables - ANALYSES | CODAGE PAR VARIABLE Croiser la fréquence des codes par variable Ajuster le contenu et le format du tableau croisé Calcul de corrélations et de statistiques de comparaison Comparer les fréquences à l'aide de diagrammes à barres et de diagrammes linéaires Création d'un diagramme à bulles Créer et interpréter les graphes de correspondance et 2D et 3D Créer et interpréter les cartes thermiques Un survol des fonctions de codage d'images Exercice #6 QDA Miner 4.1 PARTIE #7 - Utiliser le gestionnaire de rapports et le journal de commandes Utilisation du gestionnaire de rapports Accéder au gestionnaire de rapport - PROJET | GESTIONNAIRE DE RAPPORTS Présentation de l'interface Ajouter des tableaux, des graphes et des citations Déplacer et organiser les items à l'aide de la table des matières Éditer les items existants et ajouter des commentaires Ajouter des nouveaux documents vides ou des dossiers Effacer des items Importer des documents, des fichiers graphiques ou des tableaux Fonction de recherche de texte et de remplacement Exportation des résultats vers un fichier HTML, Word ou RTF. Utilisation du journal des opérations Introduction au journal des opération - PROJET | JOURNAL DES OPÉRATIONS Filtrer les entrées du journal Ajouter des commentaires à une entrée du journal Défaire une opération passée Répéter une opération passée Exporter le journal des opérations sur disque Exercice #7 QDA Miner 4.1 PARTIE #8 - Le travail en équipe Préparer un projet pour le travail en équipe - PROJET | TRAVAIL D'ÉQUIPE Créer des comptes usager et ajuster les privilèges Forcer les codeurs à se connecter (nom d'usager + mot de passe) Duplication du projet Distribution du projet par courriel Fusion des projets et analyse de l'accord inter-juges Fusion de projets (deux ou plus) Planifier le travail d'équipe pour l'établissement d'un accord inter-juges Ajuster les couleurs des marques de codes Calcul du niveau d'accord - ANALYSES | ACCORD INTER-JUGES Les défis associés au livre de code et à la segmentation des textes Les quatre niveaux d'accord 1. Présence ou absence (0 ou 1) 2. Fréquence (0, 1, 2, etc.) 3. La couverture des codes (% de mots) 4. Le chevauchement des codes Corriger (ou non) pour l'accord inter-juge. Identifier les sources de désaccord Exercice #8 QDA Miner 4.1 PART 9 - Fonctions diverses L'exportation des données Exportation du projet Exportation des documents Exportation des statistiques de codage Exportation des segments codées (restructuration de projets) Autres fonctions Transformation du codage en variables numérique, alphanumérique, ou nominales Effacer l'ensemble du codage Récupérer les codes isolés Impression du livre de code Création d'hyperliens Fonctions de géocodage et de codage temporel Geocodage et création de cartes dynamiques et de frises chronologiques WordStat 6.1 PARTIE #1 - Analyse de texte exploratoire ("Text Mining") Introduction à l'analyse de texte Les trois grands défis de l'analyse de texte : 1. La grande quantité des formes de mots 2. La polymorphie du langage 3. La polysémie des mots Un quatrième défi: les fautes d'orthographe Analyse de contenu ou forage de texte? Exécuter WordStat à partir de QDA Miner ou Simstat Analyse des mots sans dictionnaire - une approche de forage de texte ("text mining") Traitement et prétraitement La préparation des données textuelles - fautes d'orthographe et caractères de contrôle Production d'un tableau de fréquence pour tous les mots du corpus La liste d'exclusion - à utiliser avec précaution Le racinage et la lemmatisation - les avantages et les inconvénients Établissement de seuils de fréquences (plancher et plafond) Autres options utiles : o Les caractères numériques et autres caractères non-alphabétiques ($, @, #, %, -, etc.) o Utilisation des accolades et des crochets o L'échantillonnage au hasard o Espace de travail en mémoire ou sur disque? o Les données manquantes Identification des thèmes à l'aide de l'analyse des cooccurrences de mots Mesures de proximité et groupement hiérarchique des mots Graphe de proximité Groupement hiérarchique des documents en fonction de leur contenu Analyse de corrélation et de comparaison de l'usage des mots Exécuter des croisements et calculer des statistiques Comparer les mots selon la source (variable catégorielle, numérique, ou date) Analyse des correspondances et carte thermique Exploration à partir des segments répétés (expressions, syntagmes, etc.) Extraction des segments répétés Analyse de cooccurrences et de correspondances WordStat 6.1 PART 2 - L'analyse de contenu - Principes de construction de dictionnaires Introduction à la création de dictionnaires de catégorisation de WordStat Structures et fonctions des dictionnaires de catégorisation (contenu manifeste et latent) - quelques exemples Ouvrir, sauvegarder et créer un dictionnaire de catégorisation Création manuelle de catégories de mots et d'expressions Extraction des segments répétés (expressions & syntagmes) Extraction d'éléments - identification des termes techniques, des noms propres (personnes, lieux, produits) Identification des synonymes, antonymes, mots associés et mots de même racine Identification et traitement des fautes d'orthographe Application d'un dictionnaire de catégorisation Ajustement du niveau d'analyse Sélection manuelle des catégories à analyser Combiner les catégories d'un dictionnaire et les mots fréquents Validation du dictionnaire Concepts de faux positifs et faux négatifs ("précision" versus "rappel") Identification des faux positifs à l'aide de la fonction "Mots clés en contexte" L'ordre d'évaluation de WordStat - comment l'utiliser à votre avantage Méthodes de désambigüisation o Désambigüisation manuelle o Désambigüisation par les segments répétés o Désambigüisation par règles de proximité o Désambigüisation statistique Création de dictionnaires plus complets au moyen du bouton SUGGÉRER Identification des faux négatifs par la fonction "recherche de mots-clés" WordStat 6.1 PART 3 - Fonctions avancées Importation et exportation Exportation de données de fréquences Exportation de modèles de catégorisation Création et utilisation de données normatives Intégration de QDA Miner et WordStat Utilisation des dictionnaires de catégorisation dans QDA Miner Contrôler le traitement automatique par le codage manuel De la codification automatique avec révision manuelle De la codification manuelle à la codification automatique La classification automatique de documents Introduction à la classification automatique de documents L'approche "bag of words" et les techniques de classification Naïve Bayes et des "proches voisins" Méthodes de sélection des items Évaluer les modèles de classification: statistiques et matrice de confusions Utilisation de la fonction EXPÉRIMENTATION pour l'optimisation des modèles de classification Exporter et appliquer les modèles de classification: o à l'intérieur de WordStat o à partir du Document Classifier o à partir de QDA Miner