Trois approches en analyse de texte Introduction aux logiciels de

Transcription

Trois approches en analyse de texte Introduction aux logiciels de
Trois approches en analyse de texte
 L'Analyse Qualitative
 L'analyse de Contenu Quantitative (par dictionnaires)
 Le forage de texte ("Text Mining")
Introduction aux logiciels de Provalis Research
QDA Miner 4.1
 Introduction et gestion de projets
 Gestion du livre de codes et codage manuel
 Fonctions de sauvegarde et outils de recherche de texte
 Fréquence de codage et récupération de codage
 Cooccurrence de codes et analyse de similarité des cas
 Évaluer les liens entre codage et les données structurées (variables)
 Introduction au gestionnaire de rapport et au journal de commandes
 Le travail d'équipe et le calcul d'accord inter-juges
 Fonctions diverses
WordStat 6.1
 Analyse de contenu et forage de texte
 Analyser les documents sans dictionnaire - une approche exploratoire
 L'analyse de contenu - principes de construction d'un dictionnaire (ou taxonomie)
 Importer et exporter les données
 Introduction à la classification automatique de documents
QDA Miner 4.1
PARTIE #1 - Introduction et gestion de projets
Introduction à l'analyse qualitative assistée par ordinateur avec QDA Miner 4.1
 La structure de projet CAS x VARIABLES
 L'approche méthodes mixtes
Survol de l'environnement de travail
 Les quatre fenêtres - CAS, VARIABLES, CODES, et DOCUMENT
 Le système de menu
Créer un nouveau projet
 à partir d'une liste de document
 à partir d'un fichier de données
 Créer une structure de projet sans données
 Introduction à l'assistant de conversion de documents
Customiser et personnaliser le projet
 Le dialogue PROJET | PROPRIÉTÉES
 La commande PROJET | NOTES
Manipuler les variables
 Ajouter une variable - VARIABLES | AJOUTER
 Effacer une variable - VARIABLES | EFFACER
 Changer le type de données d'une variable - VARIABLES | TRANSFORMER
 Recoder les valeurs d'une variable - VARIABLES | TRANSFORMER | RECODER
 Réordonner les variables - VARIABLES | RÉORDONNER
 Changer les propriétés des variables - VARIABLES | PROPRIÉTÉS
Manipuler les cas
 Ajouter un nouveau cas - CAS | AJOUTER
 Effacer un case - CAS | EFFACER
 Importer de nouveaux documents dans des nouveaux cas - CAS | AJOUTER DOCUMENTS/IMAGES
 Changer l'ordre, le groupement, et la description des cas - CAS | GROUPEMENT / DESCRIPTION
Exercice #1
QDA Miner 4.1
PARTIE #2 - La gestion du livre de code et le codage manuel
Créer des codes and gérer le livre de codes
 Créer des codes et des catégories - CODES | AJOUTER
 Modifier un code existant - CODES | ÉDITER
 Effacer un code existant - CODES | EFFACER
 Déplacer un code dans le livre de code
 Fusionner des codes dans le livre de code - CODES | FUSIONNER DANS...
 Diviser un code en plusieurs codes - CODES | DIVISER LE CODE
 Exporter et importer un livre de codes - CODES | EXPORTER et CODES | IMPORTER
Le codage manuel des documents (versus autocodage)
 Les quatre méthodes de base pour assigner un code à un segment de texte:
1. Sélectionner le segment et glisser le code sur le segment
2. Sélectionner le segment et double-cliquer sur le code
3. Sélectionner le segment et sélectionner le code sur la barre de codage
4. Glisser et déposer le code sur un paragraphe (ou sur une phrase avec le bouton ALT)
 Assignation de multiples codes au même segment (avec le bouton CTRL)
Modifier le codage
 Travailler avec les marques de codes
 Voir les informations sur le codage
 Ajouter un commentaire à un codage  Supprimer un codage -
COMMENTAIRE
ENLEVER LE CODAGE
 Changer le code associé à un segment de texte  Redimensionner un segment -
RECODER
REDIMENSIONNER
 Consolider le codage - CODES | CONSOLIDER
 Combiner les codes - CODES | COMBINER
 Chercher et remplace les codes - CODES | CHERCHER & REMPLACER
 Dissimuler les marques de codes - CODES | DISSIMULER LE CODAGE
 Surligner les segments codées - DOCUMENT | TEXTE CODÉ
Exercice #2
QDA Miner 4.1
PARTIE #3 - Fonction de sauvegarde et outils de recherche de texte
Utilisation de la fonction de sauvegarde
 Créer une sauvegarde - MAINTENANCE | SAUVEGARDE | CRÉER
 Récupérer une version sauvegardée d'un projet - MAINTENANCE | SAUVEGARDE | RÉCUPÉRER
 Ajuster la sauvegarde automatique de projet
Les outils de recherche de texte (4)
1. Recherche de texte - RECHERCHE | RECHERCHE DE TEXTE
 Exécuter une requête de texte simple
 Exécuter une requête complexe avec opérateurs booléens et caractères génériques ("wildcard")
 Exécuter une requête par thésaurus
 Utilisation du tableau de résultats
 Codage manuel, autocodage, et tableau de codage interactif
 Sauvegarde et impression du tableau de résultats
2. Récupérer et coder des sections d'un document structuré - RECHERCHE | RECHERCHE DE SECTIONS
3. La requête par exemple - RECHERCHE | RECHERCHE PAR EXEMPLE
 Trouver des extraits de texte similaires à une segment de texte
 Améliorer les résultats de recherche au moyen de feedback sur la pertinence des résultats
 Trouver des extraits de texte similaires à un ensemble de segments codés
 Effectuer une recherche avec une technique d'appariement partiel
4. Exécuter une recherche par mots-clés
 Assigner des mots clés et phrases clés aux codes
 Exécuter une recherche par mots-clés sur les
 Effectuer une recherche par mots-clés à partir de dictionnaires WordStat
Exercice #3
Supplément: Présentation de l'extraction par grappe et de la recherche par similarité de codes
QDA Miner 4.1
PARTIE #4 - Fréquence de codes et Récupération des segments codés
Fréquence de codes
 Création d'un tableau de fréquence de l'ensemble des codes - ANALYSER | FRÉQUENCE DE CODAGES
 Création de graphiques (diagramme à barres, circulaire ou nuage de mots)
 Customiser les graphiques
Récupération des segments codés
 Exécuter une recherche simple de codage simple - RECHERCHE | RECHERCHE DE CODAGE
 Exécuter une recherche avancée (opérateurs booléen, de chevauchement et de proximité)
 Création d'un rapport sous forme de document
 Création d'un nouveau projet à partir de segments codés
 Un raccourci pour une requête simple -
Sauvegarder et récupérer les requêtes
Récupérer une liste de commentaires
Exercice #4
CHERCHER LES SEGMENTS
QDA Miner 4.1
PARTIE #5 - Cooccurrence de codes et analyse de similarité des cas
Analyser la cooccurrence des codes - ANALYSES | COOCCURRENCE DES CODES
 Groupement hiérarchique des codes
 Positionnement multidimensionnel en 2D et 3D
 Utilisation du graphe de proximité
Analyser la similarité des cas (segmentation) - ANALYSES | SIMILARITÉ DES CAS
Analyser les séquences de codes - ANALYSES | SÉQUENCES DE CODES
 Sélection des codes et ajustement des distances minimale et maximale
 Utilisation de la matrice de séquences
 Recherche et codes de séquences spécifiques
Exercice #5
QDA Miner 4.1
PARTIE #6 - Évaluer les liens entre codage et les données structurées (variables)
Analyse du codage par variables - ANALYSES | CODAGE PAR VARIABLE
 Croiser la fréquence des codes par variable
 Ajuster le contenu et le format du tableau croisé
 Calcul de corrélations et de statistiques de comparaison
 Comparer les fréquences à l'aide de diagrammes à barres et de diagrammes linéaires
 Création d'un diagramme à bulles
 Créer et interpréter les graphes de correspondance et 2D et 3D
 Créer et interpréter les cartes thermiques
Un survol des fonctions de codage d'images
Exercice #6
QDA Miner 4.1
PARTIE #7 - Utiliser le gestionnaire de rapports et le journal de commandes
Utilisation du gestionnaire de rapports
 Accéder au gestionnaire de rapport - PROJET | GESTIONNAIRE DE RAPPORTS
 Présentation de l'interface
 Ajouter des tableaux, des graphes et des citations
 Déplacer et organiser les items à l'aide de la table des matières
 Éditer les items existants et ajouter des commentaires
 Ajouter des nouveaux documents vides ou des dossiers
 Effacer des items
 Importer des documents, des fichiers graphiques ou des tableaux
 Fonction de recherche de texte et de remplacement
 Exportation des résultats vers un fichier HTML, Word ou RTF.
Utilisation du journal des opérations
 Introduction au journal des opération - PROJET | JOURNAL DES OPÉRATIONS
 Filtrer les entrées du journal
 Ajouter des commentaires à une entrée du journal
 Défaire une opération passée
 Répéter une opération passée
 Exporter le journal des opérations sur disque
Exercice #7
QDA Miner 4.1
PARTIE #8 - Le travail en équipe
Préparer un projet pour le travail en équipe - PROJET | TRAVAIL D'ÉQUIPE
 Créer des comptes usager et ajuster les privilèges
 Forcer les codeurs à se connecter (nom d'usager + mot de passe)
 Duplication du projet
 Distribution du projet par courriel
Fusion des projets et analyse de l'accord inter-juges
 Fusion de projets (deux ou plus)
 Planifier le travail d'équipe pour l'établissement d'un accord inter-juges
 Ajuster les couleurs des marques de codes
 Calcul du niveau d'accord - ANALYSES | ACCORD INTER-JUGES
 Les défis associés au livre de code et à la segmentation des textes
 Les quatre niveaux d'accord
1. Présence ou absence (0 ou 1)
2. Fréquence (0, 1, 2, etc.)
3. La couverture des codes (% de mots)
4. Le chevauchement des codes
 Corriger (ou non) pour l'accord inter-juge.
 Identifier les sources de désaccord
Exercice #8
QDA Miner 4.1
PART 9 - Fonctions diverses
L'exportation des données
 Exportation du projet
 Exportation des documents
 Exportation des statistiques de codage
 Exportation des segments codées (restructuration de projets)
Autres fonctions
 Transformation du codage en variables numérique, alphanumérique, ou nominales
 Effacer l'ensemble du codage
 Récupérer les codes isolés
 Impression du livre de code
 Création d'hyperliens
 Fonctions de géocodage et de codage temporel
 Geocodage et création de cartes dynamiques et de frises chronologiques
WordStat 6.1
PARTIE #1 - Analyse de texte exploratoire ("Text Mining")
Introduction à l'analyse de texte
 Les trois grands défis de l'analyse de texte :
1. La grande quantité des formes de mots
2. La polymorphie du langage
3. La polysémie des mots
 Un quatrième défi: les fautes d'orthographe
 Analyse de contenu ou forage de texte?
 Exécuter WordStat à partir de QDA Miner ou Simstat
 Analyse des mots sans dictionnaire - une approche de forage de texte ("text mining")
Traitement et prétraitement
 La préparation des données textuelles - fautes d'orthographe et caractères de contrôle
 Production d'un tableau de fréquence pour tous les mots du corpus
 La liste d'exclusion - à utiliser avec précaution
 Le racinage et la lemmatisation - les avantages et les inconvénients
 Établissement de seuils de fréquences (plancher et plafond)
 Autres options utiles :
o Les caractères numériques et autres caractères non-alphabétiques ($, @, #, %, -, etc.)
o Utilisation des accolades et des crochets
o L'échantillonnage au hasard
o Espace de travail en mémoire ou sur disque?
o Les données manquantes
Identification des thèmes à l'aide de l'analyse des cooccurrences de mots
 Mesures de proximité et groupement hiérarchique des mots
 Graphe de proximité
 Groupement hiérarchique des documents en fonction de leur contenu
Analyse de corrélation et de comparaison de l'usage des mots
 Exécuter des croisements et calculer des statistiques
 Comparer les mots selon la source (variable catégorielle, numérique, ou date)
 Analyse des correspondances et carte thermique
Exploration à partir des segments répétés (expressions, syntagmes, etc.)
 Extraction des segments répétés
 Analyse de cooccurrences et de correspondances
WordStat 6.1
PART 2 - L'analyse de contenu - Principes de construction de dictionnaires
Introduction à la création de dictionnaires de catégorisation de WordStat
 Structures et fonctions des dictionnaires de catégorisation (contenu manifeste et latent) - quelques exemples
 Ouvrir, sauvegarder et créer un dictionnaire de catégorisation
 Création manuelle de catégories de mots et d'expressions
 Extraction des segments répétés (expressions & syntagmes)
 Extraction d'éléments - identification des termes techniques, des noms propres (personnes, lieux, produits)
 Identification des synonymes, antonymes, mots associés et mots de même racine
 Identification et traitement des fautes d'orthographe
Application d'un dictionnaire de catégorisation
 Ajustement du niveau d'analyse
 Sélection manuelle des catégories à analyser
 Combiner les catégories d'un dictionnaire et les mots fréquents
Validation du dictionnaire
 Concepts de faux positifs et faux négatifs ("précision" versus "rappel")
 Identification des faux positifs à l'aide de la fonction "Mots clés en contexte"
 L'ordre d'évaluation de WordStat - comment l'utiliser à votre avantage
 Méthodes de désambigüisation
o Désambigüisation manuelle
o Désambigüisation par les segments répétés
o Désambigüisation par règles de proximité
o Désambigüisation statistique
 Création de dictionnaires plus complets au moyen du bouton SUGGÉRER
 Identification des faux négatifs par la fonction "recherche de mots-clés"
WordStat 6.1
PART 3 - Fonctions avancées
Importation et exportation
 Exportation de données de fréquences
 Exportation de modèles de catégorisation
Création et utilisation de données normatives
Intégration de QDA Miner et WordStat
 Utilisation des dictionnaires de catégorisation dans QDA Miner
 Contrôler le traitement automatique par le codage manuel
 De la codification automatique avec révision manuelle
 De la codification manuelle à la codification automatique
La classification automatique de documents
 Introduction à la classification automatique de documents
 L'approche "bag of words" et les techniques de classification Naïve Bayes et des "proches voisins"
 Méthodes de sélection des items
 Évaluer les modèles de classification: statistiques et matrice de confusions
 Utilisation de la fonction EXPÉRIMENTATION pour l'optimisation des modèles de classification
 Exporter et appliquer les modèles de classification:
o à l'intérieur de WordStat
o à partir du Document Classifier
o à partir de QDA Miner