VERS UN CORPUS DE LA PRESSE FRANCOPHONE ARABE ET
Transcription
VERS UN CORPUS DE LA PRESSE FRANCOPHONE ARABE ET
VERS UN CORPUS DE LA PRESSE FRANCOPHONE ARABE ET OUESTAFRICAINE Loic Boizou [email protected] Vytauto Didžiojo universitetas, Lietuva Legs de la période coloniale, le français s'est établi dans de nombreux pays situés hors d'Europe. Il tend à se développer de manière de plus en plus autonome eu égard aux usages langagiers de France. Le degré d'autonomisation dépend de plusieurs paramètres liés aux contacts de langues, au milieu culturel et aux variables sociolinguistiques. Si l'on s'en tient à la langue de la presse, on peut s'attendre à observer des variations très faibles du système linguistique, tandis que les normes et références culturelles ainsi que les entités nommées peuvent varier considérablement. Afin d'étudier cette question de manière plus approfondie, nous avons commencé à compiler un corpus de la presse francophone arabe et ouest-africaine, lequel représente une modeste contribution en vue de combler le manque de corpus du français librement disponibles. Les pays étudiés possèdent une presse francophone suffisamment active et diversifiée qui constitue une source textuelle d'accès aisé. Le corpus évoqué compte environ 1 million de mots provenant des textes de la presse généraliste d'une dizaine de pays, dans lesquels le français évolue au sein d'un milieu multilingue impliquant l'arabe et plusieurs langues africaines. Le corpus est appelé à croître progressivement, mais il s'agit pour l'instant d'un corpus de test de dimensions limitées : le but est d'une part de définir la structure du corpus et d'autre part d'arrêter les choix informatiques (format d'encodage des données, outils d'indexation et de recherche), et ce, avant que la quantité de données accumulées ne représente un obstacle. Dans notre intervention, nous chercherons à la fois à présenter le corpus et à rendre compte des résultats des études linguistiques préliminaires portant sur ce corpus.