VERS UN CORPUS DE LA PRESSE FRANCOPHONE ARABE ET

Transcription

VERS UN CORPUS DE LA PRESSE FRANCOPHONE ARABE ET
VERS UN CORPUS DE LA PRESSE FRANCOPHONE ARABE ET OUESTAFRICAINE
Loic Boizou
[email protected]
Vytauto Didžiojo universitetas, Lietuva
Legs de la période coloniale, le français s'est établi dans de nombreux pays situés hors d'Europe.
Il tend à se développer de manière de plus en plus autonome eu égard aux usages langagiers de France.
Le degré d'autonomisation dépend de plusieurs paramètres liés aux contacts de langues, au milieu
culturel et aux variables sociolinguistiques. Si l'on s'en tient à la langue de la presse, on peut s'attendre à
observer des variations très faibles du système linguistique, tandis que les normes et références
culturelles ainsi que les entités nommées peuvent varier considérablement. Afin d'étudier cette
question de manière plus approfondie, nous avons commencé à compiler un corpus de la presse
francophone arabe et ouest-africaine, lequel représente une modeste contribution en vue de combler le
manque de corpus du français librement disponibles. Les pays étudiés possèdent une presse
francophone suffisamment active et diversifiée qui constitue une source textuelle d'accès aisé. Le
corpus évoqué compte environ 1 million de mots provenant des textes de la presse généraliste d'une
dizaine de pays, dans lesquels le français évolue au sein d'un milieu multilingue impliquant l'arabe et
plusieurs langues africaines. Le corpus est appelé à croître progressivement, mais il s'agit pour l'instant
d'un corpus de test de dimensions limitées : le but est d'une part de définir la structure du corpus et
d'autre part d'arrêter les choix informatiques (format d'encodage des données, outils d'indexation et de
recherche), et ce, avant que la quantité de données accumulées ne représente un obstacle. Dans notre
intervention, nous chercherons à la fois à présenter le corpus et à rendre compte des résultats des
études linguistiques préliminaires portant sur ce corpus.

Documents pareils