Abdelhak RAZKY
Transcription
Abdelhak RAZKY
POUR UNE BASE DE CONNAISSANCE AUTOMATIQUE EN GÉOGRAPHIE LINGUISTIQUE INTRODUCTION La géographie linguistique au Brésil s’est développée d’une manière substantielle à partir de 1922. La recherche de terrain ne fournissait pas d’images scientifiques de la variation phonétique et lexicale du pays. Antenor Nascente (1953 : p. 7) dans une préface expliquait que la prochaine génération de chercheurs trouverait dans les résultats des dialectologues et géographes de la langue une image de l’état de la langue qui n’était pas disponible en 1822 : “Nosso trabalho não é para a geração atual; daqui a cem anos os estudiosos encontrarão nele uma fotografia do estado da língua e neste ponto serão mais felizes do que nós, que nada encontramos do falar de 1822.”1 Cet extrait cité par Cardoso (1998) montre combien il était nécessaire de réunir des efforts, monter des équipes, former des chercheurs de terrain, élaborer des méthodes d’enquête, étudier les réalités socio-historiques du brésil pour pouvoir enfin aborder des questions aussi importantes que la diversité linguistique brésilienne. Aujourd'hui la situation est différente. La publication dans un premier temps des atlas régionaux servit de base pour une consolidation du domaine de la recherche en géographie linguistique et ses retombées sur l’étude de l’histoire de la langue et sur l’enseignement apprentissage du portugais langue maternelle. Le brésil compte aujourd’hui huit atlas linguistiques publiés : Atlas Prévio dos Falares Baianos APFB (ROSSI, Nelson 1963); Esboço de um Atlas Lingüístico de Minas Gerais EALMG(ZAGARI Mário Roberto 1977); Atlas Lingüístico da Paraíba -ALPB (ARAGÃO, Maria do Socorro Silva de. 1984); Atlas Lingüístico de Sergipe -ALS (FERREIRA, Carlota e al., 1987); Atlas Lingüístico do Paraná - ALPR, (AGUILERA, Vanderci de Andrade. 1994); Atlas lingüístico-etnográfico da Região Sul do Brasil. – ALERS (KOCH, Walter et al.2002); Atlas Lingüístico de Sergipe II. 2 v. - ALS2 (CARDOSO Suzana 2002); Atlas Lingüístico Sonoro do Pará -ALiSPA 1.1(RAZKY, Abdelhak 2004). Les résultas de la variation linguistique révélés par les atlas publiés et par d’autres études sociolinguistiques au brésil constituent un répertoire important pour différents domaines qui traitent de l’homme, son environnement et ses manifestations langagières. 1 « Notre travail n’est pas pour la génération actuelle ; dans cent ans les chercheurs y trouveront une image de l’état actuel de la langue et de ce point de vue seront plus heureux que nous qui n’avons rien trouvé du parler de 1822 . » 181 POUR UNE BASE DE CONNAISSANCE AUTOMATIQUE EN GEOGRAPHIE LINGUISTIQUE En effet cette mouvance a produit un effet marquant en 1996 lors du lancement à l’université fédérale de Bahia du plus grand projet de l’histoire de la linguistique brésilienne : Atlas lingüístico do Brasil. Le projet est dirigé aujourd’hui par un comité de linguistes présidé par Suzana Cardoso. Selon la présidente du projet : “O quadro histórico-social do Brasil, hoje, e a necessidade do conhecimento sistemático e geral da realidade lingüística brasileira, necessário sobremodo à difusão de um ensino adequado ao caráter pluricultural do pais (grifo nosso), estão a exigir, sem mais demora, um esforço coletivo na tentativa de concretizar estudos mais amplos que levem a esse conhecimento global. Essa pode e deve ser tarefa da Dialetologia brasileira nesse final de milênio, a se concretizar com a realização do Atlas lingüístico geral do Brasil”1. C’est aussi dans cette même époque que nous avons initié le projet Atlas geo-sociolinguistique de l’état du Pará (AliPA) dont le volet phonétique (ALiSPA 1.1) vient d’être publié en version Cd-rom et dont nous faisons état ci-après. 1. ATLAS LINGUISTIQUE PARLANT DE L’ÉTAT DU PARA (ALISPA) À partir d’une théorie du mouvement nous avons procédé entre 2000 e 2001 à l’observation de 10 villes de l’état du Pará, au nord du brésil. L’intégration du point de vue sociolinguistique a été d’une grande importance pour déterminer les mécanismes internes et externes qui permettent de mieux appréhender le locuteur à la fois en tant qu’individu social à l’intérieur d’une zone géographique et comme individu statistique qui montre des fluctuations d’un sous-système linguistique en interaction avec d’autres sous-systèmes. Les individus en interaction sont créateurs de sous-espaces d’interlangues. Pour contrôler ces mouvements linguistiques, il est nécessaire de mieux intégrer les techniques d’organisation des données linguistiques et d’automatiser l’accès aux bases de données textes et audio pour faciliter le système de recherche et de cartographie. En ce qui concerne l’ALiSPA, nous avons mis l’accent sur le volet phonétique. Quarante sujets stratifiés socialement et répartis dans 10 villes de l’état ont répondu à un questionnaire phonétique. Il s’agit d’un échantillon de 40 informateurs qui font partie des 420 sujets du projet Atlas geo-sociolinguistique du Pará. 1.1. Recherche de terrain 1.1.1. Sélection des localités La sélection des localités est en rapport avec la tradition dialectologique. 10 villes ont été choisies en fonction des critères socio-historique, géographique et économique. Les localités sont réparties suivant les 6 régions de l’état du Pará : Régions Bas Amazone Marajó Localités Santarém Breves 1 « Le cadre socio-historique du Brésil, aujourd’hui, et la nécessité d’une connaissance systématique et générale de la réalité linguistique brésilienne, utile surtout pour une diffusion d’un enseignement en rapport avec le caractère plurilingue du pays, exigent sans trop tarder un effort collectif pour concrétiser des études plus amples afin d’atteindre cette connaissance globale. Ceci peut et doit être le rôle de la dialectologie brésilienne en ce fin du millénaire en réalisant le projet de l’Atlas linguistique général du Brésil. » 182 ANALYSES Région métropolitaine Nord-est du Pará Sud-ouest du Pará Sud-est du Pará Belém Bragança, Cametá, Abaetetuba Itaituba et Altamira Marabá, Conceição do Araguaia 1.1.2. Collecte de données, stratification sociale des sujets et organisation de la base de données a) Questionnaire et stratification sociale Nous avons adopté la première version du questionnaire phonétique et phonologique (QFF) élaboré par le comité national du projet Atlas linguistique du brésil (AliB) en 1998. Le QFF est composé de 159 questions qui visent à vérifier la variation phonétique en portugais brésilien. Le questionnaire a été appliqué en 2001 avec la participation d’un groupe de collaborateurs1. Dans chaque localité, 4 sujets ont été choisis pour répondre au QFF : - Sexe : 2 hommes et 2 femmes - Âge : 2 sujets ayant entre 18 et 30 ans et 2 sujets ayant entre 40 et 70 ans - Scolarité : Premier degré complet (qui correspond à la quatrième du système français). b) Numérisation des enregistrements: Le débat méthodologique sur la transcription phonétique des données est toujours d’actualité. Cette tâche doit être constamment réévaluée en cherchant de plus en plus comme le confirme Fossat (1993) un matériel audio de qualité. Une rigueur scientifique qui intègre la numérisation des données phonétiques peut produire des résultats plus fiables. Une partie de la numérisation de la banque de donnée ALiSPA a été faite à l’université Fédérale du Pará. Les données ont été retraitées au laboratoire Gril (Groupe de recherche en industrie de la langue – Université de Toulouse le-Mirail). Les interviews ont été enregistrées tout d’abord à l’aide d’un magnétophone simple de Type Sony avec un microphone unidirectionnel. Les archives sonores sont de qualité moyenne. Pour réduire le bruit de fond nous avons utilisé le logiciel CoolEdit Pro qui permet de nettoyer tout un fichier sonore à partir d’un échantillon préétabli. c) Interface électronique Après un processus de segmentation des fichiers audio et des fichiers de transcriptions phonétiques des 40 informateurs, nous avons pu grouper la transcription phonétique dans 4 fichiers en format .rtf représentant la transcription phonétique des interviews de 40 sujets et 159 fichiers audio pour chaque sujet (soit 6 360 fichiers audio qui forment les vocables de l’ensemble des informateurs). L’interface électronique a été élaborée sous TOOLBOOK 8.5. Nous avons pu programmer un système informatisé qui permet à l’utilisateur de consulter d’une manière instantanée les variations phonétiques dans l’état du Pará. Le programme 1 Alcides Lima, Marilucia Oliveira, Raquel Lopes, Orlando Cassique, Arlon Martins , Gracinete Antunes, Damiana Oliveira et d’autres volontaires. 183 POUR UNE BASE DE CONNAISSANCE AUTOMATIQUE EN GEOGRAPHIE LINGUISTIQUE ALiSPA permet de voir et d’écouter comment une variable phonétique est réalisée dans chacune des 10 villes en fonction de 2 paramètres sociaux (âge et sexe). L’avantage ici est l’accès en temps réel au vocable sans forcément passer par le filtre de la transcription phonétique du linguiste. En plus, le non spécialiste peut naviguer dans le système et écouter la prononciation des vocables sans être obligé de lire les transcriptions. 2. ASPECTS PHONÉTIQUES ENVISAGÉS DANS L’ALISPA À partir des 159 vocables du questionnaire QFF, nous pouvons analyser les éléments phonétiques suivants et leur variation: Tableau 1: Variables phonétiques dans l’ALiSPA Consonne en position initiale CK z Jz Groupes de consonnes et voyelles en contexte interne HKI HHK J Consonne en position interne en fin de syllabe CVC z Consonne en position finale -C Voyelle en contexte CVC Voyelle en position initiale V- L( 2 H $ P L Consonnes en contexte interne syllabe initiale CK A z I a Voyelle en contexte Voyelle en contexte interne final -V CV- Groupe de consonnes en contexte interne –CCz KK KM L( P LP 2HP P H Les items qui apparaissent en italique dans le tableau 2 sont des exemples de phonèmes qui peuvent être observés dans la carte phonétique. L’utilisateur peut cependant choisir de vérifier d’autres contextes également. Tableau 2: exemples du QFF C-, CC02- DIA 13- RUA 54- TIO 68- VIDRO 158- RATO 115- VARRER 09- PLANTA 20- CLUBE 69- PNEU 70- PLACA 142- CLARA CVC15- DESVIO 27- PERNAMBUCANO 28- SOLDADO 65- CERTO 46- CASPA 49- DESMAIO 75- PERFUME 81- TORNEIRA 90- FÓSFORO 110- PERGUNTAR 116- RASGAR 118- MESMO 136- FERVENDO 141- CASCA -C 155- MEL 83- ANEL 04- SOL 07- CALOR 23- COLEGAS 24- GIZ 26- BRASIL 45- VOZ 134- COLHER 52- MULHER 135- BOTAR 137- SAL 122- AMAR 79- LUZ 184 Grupo –CC30- ADVOGADO 112- ADMIRAÇÃO 106- SORRINDO 136- FERVENDO 151- AFTOSA 94- ANDANDO 149ADMINISTRADOR ANALYSES 86- CALÇÃO 119- PAZ 130- ARROZ –C134- COLHER 126- TARDE –C- (suite) 105- SORRISO 29- BANDEIRA Grupe 78- LÂMPADA 87- BRAGUILHA 01- NOITE 32- SANTO ANTÕNIO 47- BANHO 66- VELHO 47- BANHO 104- MORREU 107- ASSOBIO 114- BARULHO 121- MENTIRA 134- COLHER 144- MANTEIGA 156- CARNIÇA 148- FAZENDA 105- SORRISO 29- BANDEIRA 109- PERDIDO 130- ARROZ 06- SÁBADO 40- FÍGADO 67- PRATELEIRA 56- COMPADRE 65- CERTO 46- CASPA 49- DESMAIO 75- PERFUME 81- TORNEIRA 90- FÓSFORO 110- PERGUNTAR 116- RASGAR 118- MESMO 136- FERVENDO 141- CASCA 15- DESVIO 79- LUZ 109- PERDIDO 45- VOZ 130- ARROZ CV12- REAL/REAIS 17- TERRENO 21- PREFEITO 25- HÓSPEDE 33- PECADO 41- PEITO 44- ROUCA 38- DENTE 159- TEIA 61- BONITO 71- TELEVISÃO 74- BORRACHA 77- TRAVESSEIRO 92- PÓLVORA 95- SEGURO 72- CAIXA 95- SEGURO 102- PEGO 105- SORRISO 50- VÔMITO 78- LÂMPADA 131- GORDURA 129- RUIM 132- GRELHA 135- BOTAR 138- COMINHO 153- BORBOLETA 75- PERFUME 08- ÁRVORE CV- (suite) 84- COROA 121- MENTIRA 90- FÓSFORO 93- CANOA 100- DEFESA 103- BEIJAR 101- DEVE 113- FECHA 91- FUMAÇA 124- NÚMERO 85- PRESENTE 133- PENEIRA 88- MEIA 139- CEBOLA 143- GEMA 147- MONTAR 150- FERIDA 157- PEIXE 144- MANTEIGA 19- CINEMA 24- GIZ 35- PESCOÇO 125- DEVAGAR 140- ABÓBORA 51- HOMEM 55- COMADRE 59- BAIXA 73- TESOURA 76- CAMINHA -V 107- ASSOBIO 20- CLUBE 75- PERFUME 126- TARDE 01- NOITE 57- GENRO 107- ASSOBIO 120- OBRIGADO 21- PREFEITO 33- PECADO 41- PEITO 126- TARDE 11- PASSAGEM 35- PESCOÇO 51- HOMEM 50- VÔMITO 35- PESCOÇO 08- ÁRVORE 52- MULHER 57- GENRO 61- BONITO 74- BORRACHA 89- SANDÁLIA 98- A GENTE 109- PERDIDO 154- ABELHA 146- CAVALO 156- CARNIÇA 34- OLHO 53- FAMILIA 63- DOIDO 96- TRABALHAR 154- ABELHA V03- ANO 05- AMANHÃ 36- ORELHA 37- OUVIDO 10- ESTRADA 60- ÚNICO 62- INOCENTE 64- ESQUERDO 80- ELÉTRICO 82- ÍMÃ 83- ANEL 64- ESQUERDO 97- EMPREGO 99- UNIÃO 108- ENCONTRAR 120- OBRIGADO 122- AMAR 145- OVELHA 152- ELEFANTE 185 CVC 15- DESVIO 27PERNAMBUCANO 28- SOLDADO POUR UNE BASE DE CONNAISSANCE AUTOMATIQUE EN GEOGRAPHIE LINGUISTIQUE 14- POÇA 18- CORREIO 23- COLEGAS 31- PROCISSÃO 39- CORAÇÃO 42- JOELHO 134- COLHER 2.1. Cartes phonétiques et fichiers audio Le programme ALiSPA permet de visualiser automatiquement 636 cartes phonétiques qui recouvrent l’ensemble des contextes phonétiques du portugais brésilien. L’utilisateur doit sélectionner un vocable qui indique en couleur rouge l’élément phonétique à être observé. En choisissant le groupe de sujets à observer (ex. La variation phonétique du vocable ‘Arvore’ carte 1), l’utilisateur peut voir la transcription phonétique dans les 10 villes. En sélectionnant chacun des champs affichés dans la carte, l’utilisateur peut écouter le vocable produit par le sujet de la localité en question. Les cartes linguistiques permettent deux types d’observation : A : Une observation du contexte phonétique où le phonème en question apparaît : la carte présente une transcription phonétique du vocable afin de vérifier les pressions du contexte qui précède ou suit la variable phonétique. La carte 1, par exemple montre la réalisation du vocable ‘arvore’ (arbre) chez des sujets masculins ayant entre 40 et 70 ans. L’objectif ici est d’analyser les voyelles /o/ et /i/ dans le contexte du vocable. Bien entendu une analyse plus profonde du contexte suivant la voyelle /i/ exigerait un contexte linguistique plus ample qui inclut un enregistrement d’un discours libre. Pour cela, nous avons intégré dans le cd-rom 6 monographies de ‘mestrado’ (équivalent du DEA) en format .pdf qui abordent des faits de variation phonétique à partir d’un corpus de discours libre et d’un échantillon de 42 sujets dans chaque ville. 186 ANALYSES Carta 1. Pergunta 08 – “Arvore” B- Observation seulement du phonème en question et un calcul automatique des variantes (carte 2) : la carte exhibe dans une croix, qui représente en même temps les quatre sujets interviewés dans chaque localité, les variantes du phonème observé. Il s’agit dans la carte présentée ici du groupe voyelle et consonne /es/ en contexte interne. Le programme calcule automatiquement les variantes de ce groupe et les montre dans le champ ‘realizações’. On peut voir dans la carte 2 que le groupe /es/ présente 7 formes [P+LaPALAPa,a,AP+DL a variable (e) présente 3 variantes [PL,] et la variable (s) 3 variantes [+aA]. La possibilité de cartographier les données de 4 sujets en même temps montre l’intérêt de prendre en compte un échantillon stratifié de sujets pour éviter toute conclusion qui pourrait chercher à tracer trop rapidement des aires dialectales. 187 POUR UNE BASE DE CONNAISSANCE AUTOMATIQUE EN GEOGRAPHIE LINGUISTIQUE Carta 2: Pergunta 49: vocábulo “Desmaio” Des 40 sujets de l’enquête ALiSPA, 34 ont répondu à la question 49 du QFF. La carte indique que la tendance dans l’état du Pará favorise l’usage des variantes [P,] (76%) et de la variante [A] (68%) comme on peut voir dans les graphiques suivants. Graphe 1: Réalisations de la variable (e) dans ‘desmaio’ 80 70 60 50 40 30 20 10 0 i e 188 ANALYSES Variable (z) 80 70 60 50 40 30 20 10 0 palatale alvéolaire glottale 3. DE LA DESCRIPTION ARTICULATOIRE À LA DESCRIPTION ACOUSTIQUE Le programme ALiSPA permet de visualiser une transcription phonétique et rend disponibles les fichiers sonores correspondants. L’intégration de fichiers audio assure une meilleure interaction entre ce qui existe (transcription phonétique) et ce qui peut changer (lorsque l’utilisateur n’est pas d’accord avec la transcription phonétique fournie). Dans ce sens, en plus de l’intégration des données audio, le programme a été accouplé au logiciel Praat 4-0 (Boresma 1992-2002) du domaine public. L’objectif ici est de faciliter le traitement acoustique des variations phonétiques de l’Atlas Linguistique parlant du Pará. Il est très intéressant du point de vue de la rigueur scientifique de pouvoir soumettre à l’analyse acoustique des variantes des phénomènes comme les voyelles médianes pré-toniques, les diphtongues, les processus de nasalisation, les consonnes palatales, les consonnes latérales, etc. Pour effectuer ses comparaisons, l’utilisateur peut automatiquement accéder au logiciel Praat et aux fichiers audio. Si l’utilisateur veut par exemple analyser la variable (o) du vocable ‘arvore’, il lui suffit de sélectionner le bouton ‘analyse acoustique’ et le message suivant s’affiche : 189 POUR UNE BASE DE CONNAISSANCE AUTOMATIQUE EN GEOGRAPHIE LINGUISTIQUE En choisissant le bouton A, on pourrait analyser le fichier audio ‘arvore’ de tous les hommes qui ont entre 40 et 70 ans des 10 localités (cf. carte 1), lorsque la fenêtre suivante s’affiche automatiquement : Il suffit après de sélectionner l’un des fichiers des 10 localités e choisir le type d’analyse acoustique désirée. Par exemple, en choisissant le bouton ‘Edit’ on pourrait voir l’onde sonore et le spectrographe de la variable (o) d’un homme ayant entre 40 et 70 de la ville d’Itaituba-PA : 190 ANALYSES 4. UN OUTIL POUR L’ENSEIGNEMENT DE LA PHONÉTIQUE ET POUR LA RECHERCHE Les étudiants de lettres à l’université fédérale du Pará suivent des cours de phonétique, de sociolinguistique et de linguistique appliquée à l’enseignement du portugais langue maternelle. Le programme ALiSPA pourra leur faciliter l’accès aux informations dialectales d’une manière interactive et instantanée. Le programme leur permettra de voir et d’écouter les réalisations phonétiques dans l’état du Pará du point de vue linguistique et social. Les étudiants pourraient faire des exercices d’écoute et de transcription phonétique pour comparer leurs productions. Ils pourraient également analyser plus rapidement des aspects phonétiques au niveau géographique. Pour les étudiants intéressés par les questions d’alphabétisation, ils pourraient trouver dans le programme ALiSPA un élément de réponse aux problèmes liés au passage de l’oral à l’écrit et les correspondances phonème-graphème. Il s’agit par exemple ici de prendre en considération les stratégies appliquées par la sociolinguistique pour aborder les questions du vernaculaire et la norme de l’école. Sur le plan de la recherche, ceux qui travaillent sur la variation phonétique du portugais brésilien pourraient trouver dans le programme ALiSPA une source d’information importante sur la présence ou l’absence de certaines variantes en comparaison avec les autres états du brésil. Le programme pourrait aider les chercheurs qui souhaitent analyser des grands corpus à mieux élaborer leurs hypothèses. Enfin pour celles et ceux qui sont intéressés par la comparaison des aires dialectales, ils trouveront dans cet outil des cartes géographiques qui représentent 191 POUR UNE BASE DE CONNAISSANCE AUTOMATIQUE EN GEOGRAPHIE LINGUISTIQUE l’ensemble des réalisations phonétiques du portugais du nord du brésil en fonction de facteurs externes. Abdelhak RAZKY Universidade Federal do Pará [email protected] REFERÊNCIAS BIBLIOGRÁFICAS AGUILERA, Vanderci de A. Atlas lingüístico do Paraná. Curitiba: Imprensa Oficial do Estado do Paraná. 1v., 1994. AMARAL, Amadeu. O Dialeto Caipira. 3. ed. São Paulo: HCITEC, 1976. ARAGÃO, Maria do S. S. & MENEZES, Cleuza P. B. de. Atlas lingüístico da Paraíba. Brasília: UFPB/CNPq. 2 v., 1984. BORESMA Paul; WEENINK, David. Praat 4.0: A system for doing phonetics by computer. 1992-2002. Disponível em : <http://www.praat.org>. Acesso em:[ 28 nov. 2000].CARDOSO, Suzana Alice Marcelino. Atlas Lingüístico de Sergipe II. 2 v. Tese (Doutorado em Letras). Rio de Janeiro: UFRJ, 2002.COMITÊ NACIONAL DO PROJETO ALiB (Brasil). Atlas Lingüístico do Brasil: questionários 2001; Ed. UEL, 2001. 47 p.; 29 cm. FERREIRA, Carlota et al. Atlas lingüístico de Sergipe. Salvador: UFBA – Fundesc, 1987.KOCH, Walter et al. Atlas lingüístico-etnográfico da Região Sul do Brasil. Porto Alegre: co-edição UFRGS/UFSC/UFPR. 2 v., 2002. RAZKY, Abdelhak (org.). Estudos geo-sociolingüísticos no Estado do Pará. Belém: Grafica, 2003. ______. Atlas Lingüístico sonoro do Estado do Pará (ALiSPA 1.1). Belém : Capes/UFPa/GRIL, 2004. ROSSI, Nelson et al. Atlas prévio dos falares baianos. Rio de Janeiro: MEC/INL. 1 v., 1963. SILVA NETO, Serafim . História da língua portuguesa no Brasil. 2. ed. Rio de Janeiro: Livros de Portugal, 1970. _______. Guia para estudos dialectológicos. 2. ed. (melh. e ampl.). Belém: Conselho Nacional de Pesquisa/Instituto Nacional de Pesquisas da Amazônia, 1957. ZÁGARI, Mário Roberto Lobuglio et al. Esboço de um Atlas lingüístico de Minas Gerais. Rio de Janeiro: Fundação Casa de Rui Barbosa, 1977. VIEIRA, Hilda Gomes. Sistema de transcrição e elaboração de cartas lingüísticas. In: CARDOSO, Suzana Alice Marcelino et al. (org.). Seminário Nacional: caminhos e perspectivas para a geolingüística no Brasil. Salvador: UFBA/Instituto de Letras, 1996. 192