Infol@ngues 2012 - Document sans nom

Transcription

Infol@ngues 2012 - Document sans nom
Infol@ngues 2012
Institut Supérieur des Langues Appliquées et d’Informatique de Béja
En collaboration avec
Laboratoire de recherche en
Technologies de l'Information et de la Communication & Génie
Electrique
Organise
4ème édition du colloque INFOL@NGUES 2012
Sous le patronage de l´Université de Jendouba
«NTICS, Langues et Humanités : Réalités et
Perspectives»
05, 06 et 07 avril 2012 à Béja
1
Béja 05-06-07 avril 2012
Infol@ngues 2012
A ReSTful Web Service for Accessing a Multilingual and
Multi-format Syntactic Parser
Kamel Nebhi, Luka Nerima, Eric Wehrli
LATL – Department of linguistics
University of Geneva
Abstract: Development of language resources and tools (LRT) has been a research goal
for many years now. While in most cases, these technologies are available by download
only and/or restricted to a particular platform or environment, several types of LRT can be
successfully wrapped as Web services (WS) as a way of "democratization" of language
technologies. Such WS provide access to various language services like machine
translation or analyzers. Other services allow access to resources for example semantic
resources like WordNet-type semantic lexicons.
This paper reports on our experience to integrate the multilingual parser Fips into a
ReSTful Web service in order to provide access to multilingual and multi- format
resources.
Fips is a robust multilingual parser, based on generative grammar concepts for its linguistic
component and on an object-oriented design for its implementation. It uses a bottom up
parsing algorithm with parallel treatment of alternatives, as well as heuristics to rank
alternatives. The syntactic structures built by Fips are all of the same pattern, that is: [XP L
X R], where L stands for the (possibly empty) list of left constituents, X for the (possibly
empty) head of the phrase and R for the (possibly empty) list of right constituents. The
possible values for X are the usual parts of speech Adverb, Adjective, Noun, Determiner,
Verb, Tense, Preposition, Complementizer, Interjection.
The Fips Web service offers some widely known and used linguistic data formats such as :
Parser – a condensed X-bar representation of the syntactic structure of the sentence, XML
– a full X-bar structure in XML format, Tagger – a standard part of speech tag output,
XML TEI – a simple syntactic representation using the Text Encoding Initiative standard,
and PASSAGE – a dependency structure representation designed for the eponymous
evaluation campaigns of French parsers.
In their current version, the services are available for English, French, German, Italian,
Spanish and Greek. Users can access all of these technologies and data formats simply by
using a browser.
2
Béja 05-06-07 avril 2012
Infol@ngues 2012
Systèmes de reconnaissance des caractères multilingues
Sofiene Haboubi
Institut Supérieur des Langues Appliquées et d’Informatique de Béja
[email protected]
Résumé : La reconnaissance automatique du texte manuscrit et imprimé est un domaine
qui a beaucoup intéressé les chercheurs dans les dernières décennies. Les premiers
systèmes de lecture automatique du texte imprimé ont vu le jour aux années soixante. Vu le
nombre des écritures, actuellement, nous trouvons plusieurs systèmes de reconnaissance
des caractères. Dans un environnement comprenant plusieurs types d’écritures, il est
impératif d’utiliser une banque d’OCRs où chaque OCR correspond à une écriture
différente. Pour sélectionner l’OCR qui doit reconnaitre une telle écriture dans un
environnement multilingue, nous devons passer par une étape de discrimination. La
discrimination entre les langues d’écritures est une tâche délicate. Cette tâche permet
d’identifier la nature de l’écriture, afin de sélectionner le système de reconnaissance (OCR)
approprié.
Mots clés : Reconnaissance des caractères, OCR
3
Béja 05-06-07 avril 2012
Infol@ngues 2012
Gender Reproduction in cyberspace
Habiba Maddouri
Institut Supérieur des Langues Appliquées et d’Informatique de Béja, Université de Jendouba
[email protected]
Abstract: We are all born equal but different in terms of sex, race, and color. As we start
to grow up, we are given our social responsibilities and behavior patterns. Traditionally,
women were seen as ‘indoor creatures’ while men were seen as the providers of bread,
peace and security. Although things have changed, these roles are still rigidly present in
most societies. These gender ideologies, giving man authoritative power over women,
have been accompanied by a process of beautifying the image of woman as a weak
domestic creature. The process is so cunning that women themselves become part of
reinforcing and supporting this hegemonic order. Gender ideologies have bee n reproduced,
reiterated, and naturalized in hegemonic literature. With the advent of computer mediated
communication (CMC) as a new form of social interaction, optimists claim that these
gender ideologies may be “levelled out by the blindness of cyberspace to bodily identity”.
Others, however, argue that as the status starts to develop through each single post in social
networks, gender ideologies start developing anew.
My current paper aims at revealing whether cyberspace becomes a new home for
the reproduction of gender ideologies. It shall be based on empirical evidence gleaned from
a social network, namely facebook and internet literature on gender ideologies in cyberfora.
In their article entitled Productive Discussion in Science: Gender Equity thro ugh
Electronic Discourse, Shery His & Christopher. M. Hoadley show how an electronic
discussion tool called multimedia Forum kiosk (MFK) gave females room to participate
more than males in discussion. The authors show that “girls report feeling less stifled when
participating in an electronic medium where anonymity is an option”. This idea of online
anonymity, however, raises the very issue of gender inequality in online communication.
Electronic discourse is highly loaded with our legacy of gender ideologies. Any form of
identifying a female communicator via social networks be it through photographs, names
or voices is met with social denunciation. A close look at some aspects of male and female
networking behavior proves that the hegemonic gender ideologies are reproduced in
electronic discourse. This is crystal clear through the time devoted by female
communicators to online interaction, the frequency of posting on social networks, the types
of posts, the social attitudes towards female photo posting and even towards providing
female full names. In a way, online communication becomes a metaphor for the public
space that is considered as men’s land. While offline communication is a metaphor for
indoor space which is basically a space of women’s own.
4
Béja 05-06-07 avril 2012
Infol@ngues 2012
La experiencia tunecina: una nueva estrategia de desarrollo en el
mundo de la información
Inés Shabou
Instituto superior de lenguas aplicadas e informática de Beja, Universidad de Jendouba,
[email protected]
Abstract: nowadays, the information and communication technologies know important
development as they perfectly correspond to the socio-economic tendency which the
companies must face.
Our research focuses on the impact of the news technologies of the information and
communication on Tunisia. I will analyze Tunisian experience in the use of the news
technologies before and after the summit international and Tunisian position in the actual
international context.
Abstract : A principios de este siglo, la comunidad mundial se ha encontrado en una nueva
era civilizacional; la era de las nuevas tecnologías de la información y de la comunicación.
Estas tecnologías han dado un nuevo sentido cuantitativo y cualitativo a la información. Se
han convertido en un medio que sirve para mejorar y complementar la inteligencia humana:
amplían y reparten los conocimientos, aceleran la interacción, profundizan la reflexión y
diversifican sus campos.
Esta revolución de las tecnologías de la información y de la comunicación no podrá
avanzar sin la reacción de los individuos, de las sociedades y de la influencia de su sistema de
pensamiento y de sus culturas. Así pues, el reto mayor de los próximos años será sin lugar a
dudas ¿cómo saber dominar a la vez esta revolución tecnológica y sus consecuencias sobre
nuestra vida? Las NTIC (nuevas tecnologías de la información y de la comunicación) viven hoy
en día un desarrollo fulgurante puesto que han invadido la empresa contemporánea y
participan directa e indirectamente en las tendencias socioeconómicas.
En el seno de estas mutaciones Túnez, es un país mediterráneo y africano en vía de
desarrollo, que no puede estar excluido de esta revolución tecnológica mundial; sobre todo
después de la cumbre mundial de la sociedad de la información celebrada en el 2005 en
Túnez que ha sido una cumbre de soluciones para limitar el ensanchamiento del abismo
5
Béja 05-06-07 avril 2012
Infol@ngues 2012
numérico y garantizar un acceso equilibrado del saber gracias a los esfuerzos del estado, de
las organizaciones, del sector privado y de la sociedad civil.
En el tratamiento de la información (administrativa, estadística, científica y tecnológica)
Túnez vive una verdadera revolución: se ha mejorado la productividad del servicio público, se
ha simplificado los procedimientos administrativos, se ha intentado evitar los
desplazamientos inútiles y se ha reforzado el nivel local del diálogo con los usuarios, e ntre
otras cosas. Podemos decir que se ha hecho una rápido transición hacia una administración
moderna apta para responder a las necesidades de los usuarios. Pero el uso de las TIC no
podrá ser posible sólo cuando la población dispone de un acceso suficiente a la tecnología y
se siente en harmonía con ella, y es lo que voy a tratar en mi ponencia abordando estas
cuestiones ¿cuál es el impacto de la cumbre mundial en el uso de las NTIC en Túnez? ¿Cuál es
la posición que ocupa Túnez en el contexto actual del mundo de la información? ¿Cuál es la
estrategia tunecina en el uso de las TIC?
Muchas preguntas planteadas suponen unos verdaderos problemas que tenemos que
resolver si queremos administrar eficazmente los cambios y si queremos optar por la
modernización en el seno de la sociedad de la información.
Keywords: condiciones de éxito-NTIC-cumbre mundial de la sociedad de la informacióntelecomunicación-
6
Béja 05-06-07 avril 2012
Infol@ngues 2012
The big bang theory or how we have to undestan[d] media
Chiheb Mehtelli
Institut Supérieur des Langues Appliquées et d’Informatique de Béja, Université de
Jendouba
[email protected]
Understanding media represents still for science a challenge. The author aims to give a
general insight to media and communication theories and to show that t his field of study
can’t be discussed adequately neither with preconceived interpretation templates nor with
established rating patterns. Normative critics, with its well-established concepts, has to
liberate itself from the dilemma of a methodological and interpretative preliminary
decision. The study rejects in this sense to give the impression that it has an intimate
dialogue with media-texts or even with the author-subject and its psyche or intentions.
7
Béja 05-06-07 avril 2012
Infol@ngues 2012
Technology-assisted L2 reading instruction: The role of Computer-assisted concept
mapping and webquests in improving L2 reading comprehension ability
Malek Mhadhbi
Institut Supérieur des Langues Appliquées et d’Informatique de Béja, Université de
Jendouba
[email protected]
Technology-assisted reading instruction has been the subject of some investigations
showing the beneficial effects of technology applications in improving reading
comprehension abilities (Block et al. 2002; Dreyer & Nel, 2003; Mcke nna et al. 2007;
Nesbit & Adesope, 2006). However, there is still a lack of data regarding the role of
appropriate electronic navigational tools in promoting strategy support and improving L2
reading comprehension abilities. Hence, the present paper is an attempt to develop the
theoretical knowledge describing how concept mapping and webquests help learners
develop their reading skills. To begin with, a concept map which is a schematic technique,
allows learners to see the connections between ideas they already have, and organize them
in logical structure. To this point, Nesbit & Adescope, (2006) found that concept mapping
fosters learning by encouraging learners to think critically as well as by enhancing
comprehension. In a similar vein, Sanchez, Canas & Novak (2010) contended that such
activity assists the activation of L2 learners’ prior domain- background knowledge and
promotes internal structuring of new knowledge which, in turn, improves their reading
comprehension. Another significant computer- supported activity refers to the integration
of webquests with pictures within the reading texts. In this respect, Beker (2002) found that
such factors as the images presented to the readers as well as the availability of appropriate
and active web sites links to the text concepts play a significant role in enhancing students
L2 reading comprehension abilities. In Dodge (1997)’s view, webquests are “training
wheels” for not only understanding the text, but also for developing an interpretation and
demonstrating a critical stance of the text. To conclude, these computer-assisted activities
are of great benefits to students’ L2 reading comprehension. Therefore, teachers need to
greatly increase their Information and Communications Technology skills in order to know
how to access and use such computer-supported activities to help students develop their
reading skills as well as their overall language ability through reading.
8
Béja 05-06-07 avril 2012
Infol@ngues 2012
Motivation and EAP online courses: the case of Masters Students of
Logistics
Amira Msaabi
Faculté des Lettres, Arts et Humanités, Manouba
[email protected]
Abstract: Motivation has been reported to stand out as one major facilitating emotional
factor for effective language learning (e.g., Gardner et al., 1985). Recently, motivation
research has focused on the role of situational characteristics pertinent to FL classrooms in
the learning process. Dörnyei‘s (2001) model for learner motivation analysis has received
much credit. The model includes three levels: (1) language level (orientations and motives
related to L2 learning; integrative and instrumental orientation), (2) learner level (need for
achievement and self-confidence) and (3) learning situation level (course specific, teacherspecific, and group specific motivational components). The present study used Dörnyei’s
model in an attempt to understand why Masters students of Logistics and Supply Chain at
the Institute of Higher Education in Commerce (IHEC) displayed little motivation to
engage in the EAP online course held by their institution in collaboration with the Tunisian
Virtual University, a relatively new pedagogical experience in Tunisia. To investigate the
participants’ learning motivation, the study triangulated methods of data collection:
structured interviews were given to the EAP teachers to gain insight into their online
courses, questionnaires were administered to the students to uncover their opinions about
the course and an observation grid was used to assess the online learning platform.
Preliminary results revealed that three main factors influenced the participants’ motivation:
(1) the teachers’ felt-presence, (2) speaking practice opportunities, and (3) course
discipline. The present study underscores the importance of affective factors in language
learning.
9
Béja 05-06-07 avril 2012
Infol@ngues 2012
Surviving your dissertation with new technologies
Ahlem Selmi Mhenni
Higher Institute for applied languages in Humanities Zaghouan-Mogren, University of Tunis
[email protected]
Abstract: Language mastery and learning have always been considered a challenge to
linguists and applied linguists throughout history. Uncovering how learners learn
languages entails, among other things, getting to grips with the way language learners
process languages, i.e. their learning styles. The present paper deals with information
technology as a tool for uncovering Tunisian VESP learners’ perceptual learning styles at
two vocational training centers. The researcher puts the stress on three key components: 1)
how information technology including the software program Microsoft Word in
combination with a handheld scanner with optical character recognition (OCR) helped
initiate and finalize the research work , 2) the use of a digital camcorder and a wideconverter as a tool for successful classroom observations, and 3) the way statistical
analyses -both descriptive and inferential- have been generated with the help of a statistical
software for the social sciences, namely SPSS.
Key words: Learning styles, Vocational training, technological records
10
Béja 05-06-07 avril 2012
Infol@ngues 2012
Extraction des syntagmes nominaux pour la recherche
d’information multilingue
Bechikh Ali Chedi1 , Haddad Hatem1,2
1. Equipe de recherche URPAH, Faculté des sciences Tunis EL Manar 2060 Tunisie,
[email protected]
2. ESSTHS, Université de Sousse 4011 H. Sousse Tunisie,
[email protected]
Résumé : Nous proposons dans cet article un Système de Recherche d'Information (SRI)
qui se base sur des techniques d'indexation des textes en langue naturelle basées sur les
syntagmes nominaux pour les documents et les requêtes. Nous mettons l'accent sur
l'importance des syntagmes nominaux pour la recherche d'information multilingue. La
méthode utilisée pour extraire les syntagmes nominaux d'un corpus en français et un autre
corpus en anglais est présentée ainsi que les résultats et les statistiques de l'extraction.
Mots clés : Recherche d’information multilingue, Traitement de la langue naturelle,
syntagmes nominaux.
11
Béja 05-06-07 avril 2012
Infol@ngues 2012
Construction de patrons morpho-lexicaux pour l’enrichissement
du WordNet Arabe
Nacef KHEDHER1 , Mohamed Mahdi BOUDABOUS1 , Nouha CHAABEN KAMMOUN 1 , Lamia
HADRICH BELGUITH 1
1
Laboratoire MIRACL
[email protected]
[email protected],
[email protected],
[email protected]
Résumé : Les travaux de recherche dans le domaine du Traitement Automatique du
Langage Naturel (TALN), ont vécu un grand développement au cours de ces dernières
décennies. La plupart de ces travaux se sont basés sur des ressources numériques tels que
les corpus, les dictionnaires électroniques, les ontologies, etc. L’ontologie WordNet arabe
(AWN)1 est considérée parmi les ressources arabes les plus importantes. En fait, c’est une
ressource lexicale pour l’Arabe standard moderne. Elle comporte, à peu pré 11000 synsets
(ensemble de mots qui ont un sens commun), 23000 termes et 18000 relations sémantiques
et lexicales. La conception de AWN offre plusieurs avantages pour son utilisation dans le
domaine du TALN. Malgré ses avantages, AWN souffre de quelques insuffisances au
niveau de la complétude des synsets et des relations sémantiques les reliant.
1 http://www.globalwordnet.org/AWN/AWNBrowser.html
2 http://www.nooj4nlp.net/pages/nooj.html
Dans le but d’enrichir le WordNet arabe, nous avons réalisé une étude approfondie des
relations sémantiques reliant les concepts dans AWN. Les résultats obtenus ont prouvé que
cette ontologie souffre encore d’un manque important au niveau des relations sémantiques.
Ainsi, dans ce papier, nous proposons une méthode de construction de patrons morpholexicaux en vue de couvrir toutes les relations sémantiques manquantes dans AWN. Nous
présentons, donc, en premier lieu, l’étude menée pour extraire les patrons morpholexicaux. Ensuite, nous décrivons la mise en oeuvre de ces patrons à travers la plate-forme
NooJ2.
La première étape de la méthode proposée consiste à extraire les synsets qui sont reliés par
une relation sémantique à partir de AWN. La deuxième étape concerne le téléchargement
des articles correspondant aux termes extraits précédemment à partir de l’encyclopédie
wikipedia. Cette étape aboutit à la construction d’un corpus d’étude. La troisième étape
permet de repérer les phrases indicatives dans chaque article, puis de les analyser
morphologiquement. Finalement, la dernière étape a pour objectif de construire un
ensemble de patrons morpho-lexicaux pour chaque relation.
Une fois l’extraction des patrons morpho-lexicaux est achevée, l’étape suivante consiste à
les mettre en oeuvre en utilisant la plate- forme NooJ. Cet outil a permis de construire, pour
chaque relation sémantique, une grammaire syntaxique représentant tous les patrons
spécifiques à cette relation. Puis, nous avons regroupé toutes ces grammaires dans une
grammaire globale. Enfin, la grammaire globale construite est appliquée sur un corpus de
test afin d’évaluer les patrons construits.
Mots clés : Ontologie, Arabic WordNet, patrons morpho-lexicaux, grammaire syntaxique.
12
Béja 05-06-07 avril 2012
Infol@ngues 2012
Une méthode d’apprentissage pour la classification des pronoms
démonstratifs en langue arabe
Yacine BEN YAHIA, Souha HAMMAMI, Lamia HADRICH BELGUITH
FSEGS, Université de Sfax, Tunisie
[email protected], [email protected], [email protected]
Résumé : Le domaine du Traitement Automatique du Langage Naturel (TALN) est un
domaine pluridisciplinaire qui se situe à l’intersection de la linguistique, l’intelligence
artificielle et l’informatique. L’objectif du TALN est la conception de programmes
capables de traiter de façon automatique des données exprimées dans une langue naturelle.
Parmi les phénomènes les plus rencontrés dans les textes en langage naturel, celui de
l'anaphore qui constitue un segment de l'énoncé dont l'interprétation nécessite le recours à
un segment précédent.
La résolution des anaphores, qui consiste à trouver le (ou les) référent(s) de ces segments,
est un sujet de recherche fort étudié car c'est une tâche cruciale pour plus ieurs applications
comme la traduction automatique, l'extraction d'information et le résumé automatique.
Prenons à titre d'exemple les applications d'extraction d'information et de résumé
automatique où les techniques d’extraction des phrases importantes sont plus exactes
lorsque les références anaphoriques des concepts indicatifs sont bien prises en
considération.
Parmi les anaphores, on peut distinguer les pronoms démonstratifs qui sont fréquents dans
les textes arabes. De plus, parmi les pronoms démonstratifs, on peut distinguer des
éléments avec un emploi cataphorique (où le référent est actualisé après) ou anaphorique.
Un système de résolution des anaphores doit être capable de classifier les occurrences des
pronoms en pronom anaphorique (exemple 1) ou pronom cataphorique (exemple 2).
(1) ‫ذلك الكتاب ال ریب فیه‬
/*lk AlktAb lA ryb fyh/
Voici le Livre qui n’est sujet à aucun doute
Dans l’exemple 1, le pronom démonstratif (*lk/ ‫ )ذلك‬se réfère au nom (AlktAb/ ‫ )الكتاب‬donc
ce pronom est classé comme cataphorique. Alors le système doit chercher son antécédent
dans le segment qui suit le pronom.
(2)‫لي رغبة كبیرة في أكل العصافیر أیّھا الفیل الكریم لك ّني ال أستطیع ذلك‬
/ly rgbp kb?rp fy Okl AlESAf?r O? ‫ھ‬A Alf?l Alkr?m lkny lA OstT?E *lk/
J’ai un grand désir pour manger les oiseaux mon cher éléphant, mais je ne peux pas faire ça.
Dans l’exemple 2, le pronom démonstratif (*lk/ ‫ ) ذلك‬se réfère au syntagme (Okl AlESAf?r
/ ‫ )أكل العصافیر‬donc ce pronom est classé comme anaphorique. Alors le système doit
chercher son antécédent dans le segment qui précède le pronom.
Ainsi, c'est dans ce cadre que se situe notre travail qui consiste à la modélisation et la
réalisation d’un système de classification des pronoms démonstratifs dans des textes écrits
13
Béja 05-06-07 avril 2012
Infol@ngues 2012
en arabe non voyellé, en se basant sur une méthode d'apprentissage automatique qui est
devenue la stratégie la plus prédominante pour la résolution de nombreux problèmes en
TALN. Nous proposons dans cet article une méthode de classification automatique des
pronoms démonstratifs qui se base sur les algorithmes SVM et PART.
Mots-cles: Pronoms démonstratifs, résolution des anaphores, traitement de la langue arabe.
14
Béja 05-06-07 avril 2012
‫‪Infol@ngues 2012‬‬
‫اللّ سانياتّالعرفنيةّ‪ّ:‬المقاربةّالدّالليةّعندّليوناردّتالمي‪Leonrad TALMY‬‬
‫الحبیب المقدمیني‬
‫المعھد العالي للغات التطبیقیة و اإلعالمیة‪ ،‬و حدة البحث‪ :‬اللسانیات العرفنیة و اللّغة العربیة منوبة‬
‫‪[email protected]‬‬
‫ّ‬
‫ملخص العمل‪ :‬تتناول ھذه المداخلة نظریة الداللة العرفنیة ‪ cognitive semantic‬عند "لیونارد تالمي" أحد أھم‬
‫أعالم التیار العرفني في البحث اللساني المعاصر الذي یقول بالعرفنة المجسدنة ‪- embodied cognition‬مقاربة‬
‫ظھرت أولى بوادرھا أواخر سنة سبعین وتسع مائة وألف ‪-‬و تستند في توجھھا إلى مستجدات الدراسات الفلسفیة و‬
‫العلمیة و اللسانیة المنادیة بأھمیة الجسد و المادة في الفكر‪ ،‬و أفضت إلى نتائج ھامة في تحدید طبیعة النشاط الذھني و‬
‫ذلك باعتماد مدخل ھام ھو اللغة و النش اط ال ّلغوي بماھو قدرة عرفنیة كانت محلّ جدل كبیر بین التیار العرفني األصولي‬
‫الذي یرى أن معالجة المعلومة في الذھن البشري قائمة على أسس حوسبیة‪ ،‬فأ سّس باالستتباع لما یعرف باللسانیات‬
‫الحوسبیة ‪ ، computationallinguistics‬وبین التیار العرفنیالمجسدن الذي أ سّس للسانیات العرفنیة المندرجة ضمنھا‬
‫مقاربة تالمي للداللة‪ ،‬وھي مقاربة اعتمدت البنیة التصوریة ‪ conceptual structure‬في تناولھا لمسألة الداللة اللغویة‬
‫‪ ،‬فاعتبرت أن الداللة جزء من البنیة التصوریة ؛ فمعاني الكلمات عموما ما ھي إال مفاھیم لسانیة أو مفاھیم معجمیة‬
‫تمثل الشكل التواضعي الذي تتخذه البنیة التصوریة في جزء منھا حتى تشفّر ‪to beencoded‬داخل اللغة‪ ،‬فجملة‬
‫الوحدات اللسانیة المعجمیة منھا او الصرفیة و التصریفیة و التراكیب النحویة تمثل شكال تواضعیا تقوم علیه اللغة ‪ .‬و‬
‫ھي حسب تالمي تصنف الى قسمین ‪ :‬قسم مغلق ‪ closed-class‬وفیه نجد جمیع المقوالت النحویة‪ ،‬وقسم مفتوح‬
‫‪ open-class‬ویمثّل الوحدات المعجمیة‬
‫الكلمات‬
‫المفاتيح‪:‬‬
‫العرفنة‬
‫‪- cognition‬‬
‫الذكاء‬
‫االصطناعي‬
‫‪intelligence‬‬
‫‪- aritificiel‬‬
‫الجسدنة‪ - embodiment‬الداللة ‪- semantic‬الحوسبة ‪computation‬‬
‫‪15‬‬
‫‪Béja 05-06-07 avril 2012‬‬
‫‪Infol@ngues 2012‬‬
‫دور التحليل اللغوي في رصد العالقات البالغية بين مختلف وحدات النص‬
‫وجدي العجال ‪ ،1‬محمد الھادي معلول ‪، 2‬لمیاء ھدریش بلغیث‬
‫‪1‬‬
‫‪ ،1‬فریق بحث أ ‪-‬آن ‪-‬آل ‪ -‬بي ‪ -‬مخبرمیراكل كلیّة العلوم االقتصادیّة والتّ صرف بصفاقس‪ ،‬ص ب‪8103‬‬
‫صفاقس تونس‪[email protected] ، [email protected] ،‬‬
‫‪ ،2‬مخبر آل بي آل‪ 5 ،‬نھج باستار ‪ -‬ص ب ‪ ، 80975 ، 13604‬أكس آن بروفنص‪ ،‬فرنسا‪،‬‬
‫‪[email protected]‬‬
‫الملخص‪:‬تندرج ھذه المقالة في مجال تحلیل ومعالجة النصوص العربیة المكتوبة ‪.‬وفي ھذا اإلطار یتمحور اھتمامنا‬
‫برسم ھیكلیة النصوص العربیة في شكل ھرمي ‪,‬وذلك اعتمادا على النظریة البالغیة " ‪ " RST‬لتحدید العالقات‬
‫البالغیة التي تربط مختلف وحدات النص قصد ھیكلتھا فیما بعد ‪,‬بصفة تسلسلیة وتفاضلیة وفقا إلى أھمیتھا النسبیة‬
‫والرتباطھا البالغي یبعضھا البعض‪.‬‬
‫ضمن ھذا التوجه ‪,‬یرتكز منھجنا أساسا على استغالل مزایا التحلیل الصرفي والبالغي للنص‪ ،‬وھو ھدفنا األول‬
‫واألساسي‪ ،‬وذلك لكشف وإلثراء وإلصالح العالقات البالغیة باستناد إلى جملة من األطر البالغیة والقواعد الصرفیة‬
‫لتحدید مختلف العالقات البالغیة قصد استثمارھا فیما بعد إلنتاج شجرة ھرمیة للنص ‪.‬ونستھل النظر في ھذا الموضوع ‪,‬‬
‫بتقدیم دراسة تحلیلیة أجریت على مجموعة من المقاالت الصحفیة سمحت لنا‪ ،‬انطالقا من مالحظات تجریبیة معمقة‪ ،‬أن‬
‫نستنتج مجموعة من القواعد البالغیة واألطر الصرفیة ‪,‬والتي مكنتنا فیما بعد ‪,‬من تحدید مجموعة من العالقات البالغیة‬
‫تقوم بعملیة الربط بین مختلف وحدات النص ‪ .‬نقترح إثر ذلك طریقتنا المعتمدة في النظام "‪ " RSTAnalyse‬لرسم‬
‫النص في شكل ھرمي و ذلك باالعتماد على مخططات وقواعد بالغیة و أنماط صرفیة‪.‬‬
‫الكلمات الجوهرية ‪:‬تحلیل النص المكتوب‪ ،‬النظریة البالغیة‪ ،‬التحلیل الصرفي‪ ،‬العالقات البالغیة‪ ،‬العالمات اللغویة‪.‬‬
‫‪16‬‬
‫‪Béja 05-06-07 avril 2012‬‬
Infol@ngues 2012
Challenges and Opportunities with Information Technology
and the Arabic Language
Bouhouch Riadh, Mme Saida ELYENGUI
[email protected], [email protected]
Résumé : Le contenu de cet article tourne autour du rôle crucial des nouvelles
technologies et leur importance dans le domaine de la communication et ceux à l’aide des
applications informatiques qui ont recours à des technologies avancées afin de faciliter la
manipulation et l’apprentissage de la langue et plus précisément la langue arabe.de même,
cet article va comporter le sujet de l’écart entre l’entreprise et la faculté ainsi que la
solution de leur alliance.
Mots clés :Entreprise, Faculté, Lte Advanced, Langue arabe, Technologie mobile, Écart,
Alliance.
17
Béja 05-06-07 avril 2012
Infol@ngues 2012
The Consequential Validity of ‘Oxford Online Placement Test’ as a Computer
Adaptive Test in Tunisia
Asma Maaoui Gaaloul
Higher Institute of Applied languages and Computer Science- Beja, University of
Jendouba, [email protected]
Abstract: The present paper focuses on aspects of computer adaptive language tests
(CALT) implementation for English language placement at the Tunis Virtual University
(TVU). This study explored core language assessment issues relating to the use and
administration of an online language test. The study data were collected by means of an
unstructured interview administered to tutors in the local context. It was also based on the
analysis of reports about the test takers’ final performance, scores and Oxford Language
Management System (LMS) reports. The Oxfo rd Online Placement Test (OOPT)
administered by the TVU was equally analyzed along with related documents. Despite the
benefits of the test in terms of the ease of its delivery and scoring, problems of time
management because of the multimedia interface of the test emerged. Other problems
related to pedagogical decisions based on the obtained OOPT test scores revealed
particular consequential validity issues. Therefore, recommendations were made to
consider major test impact for CALTs (Chapelle et al., 2003).
Key words: Language; Information Communication Technology, Computer Adaptive
Language Tests, consequential validity
18
Béja 05-06-07 avril 2012
Infol@ngues 2012
Information Technologies in the Teaching of Anglo-American
Cultural and Civilisational Concepts, an Instructive Tool or a
Destructive Means?
Mejri Abdelhak
High Institute of Applied Languages and Computer Sciences, Beja, Jendouba University
[email protected]
Abstract : In the early twenty- first Century, advances in information technologies have
revolutionized the way humanity is connected and have improved man’s understanding to
the universe, sorting him/her out of his /her confined environment. In the realm of teaching
Anglo-American cultural and civilisational concepts, learners in the Tunisian context have
been provided with a variety of an easy-reached electronic sources, an exercise which does
not usually cost a great deal of proficiency to be performed at home or dur ing classroom
sessions. In this context, advances in information technologies may be either an instructive
tool or a destructive means in the teaching of Anglo-American cultural and civilisational
concepts.
19
Béja 05-06-07 avril 2012
Infol@ngues 2012
Predicting Learning Through Computerized Statistical Procedure
Aimen Nefaa
High Institute of Applied Languages and Computer Sciences, Beja, Jendouba University
[email protected]
Abstract: The objective of this study was to examine how can family and learner factors
such as global self-esteem, age, parental academic expectations and learners’ perception of
those expectations can predict learners’ performance in reading comprehension
examinations. The study included data from a sample of 700 first through fourth year
secondary school learners and their parents. Data on learners’ grades in reading
comprehension examinations were supplied by the school teachers and measures of
parents’ academic expectations for their children, learners’ perception of those
expectations, and learners’ global self-esteem were administrated. Spearman correlation
and multiple regression analyses were carried using learners’ composite scores on each
variable Results suggested that the variables of parental expectations (reported and
perceived) learners’ global self-esteem, and learners age, respectively, had the most
significant predictive power over learners’ grades in reading comprehension examinations.
20
Béja 05-06-07 avril 2012
Infol@ngues 2012
La traduction automatique à base des statistiques au service de
la langue des signes
Achraf Othman1 , Mohamed Jemni2
Laboratoire de Recherche LaTICE, Université de Tunis, Tunisie
1
2
[email protected]
[email protected]
Résumé : Afin d’améliorer la communication entre les communautés des sourds et
malentendants avec les personnes entendant, ce papier présente un traducteur automatique
qui prend en entrée un texte écrit et génère une transcription en langue des signes.
L’apprentissage du système se fait à partir d’un corpus bilingues Anglais écrit et la langue
des signes Américaines. L’algorithme d’apprentissage est basé sur modèle probabiliste à
base de statistiques. Ce papier décrit aussi un état de l’art sur les différents systè mes de
traduction existants. Les expérimentations, de notre traducteur automatique à base de
statistiques, montrent l’efficacité du système grâce à l’utilisation d’un corpus dont le
nombre de mots dépasse les 800 millions.
Mots clés : Langue des signes, Traduction automatique
21
Béja 05-06-07 avril 2012
Infol@ngues 2012
Enseignement virtuel versus enseignement à distance en Tunisie : les
paradigmes les concepts et l’expérience pratique
Bedhioufi Hafsi1 , Khelifa Samiha2 Nebli Naoufel3 et Ayari Majdi4
1. Sociologue, Maitre -assistant ISSEP Tunis Université la Manouba
[email protected]
2. Coordinatrice d’une FOAD, Docteur en Agriculture durable, ISA Chott Mariem,
Université de Sousse [email protected]
3. Expert AUF, Professeur hospitalo-universitaire, Faculté de pharmacie de Monastir,
université de Monastir [email protected]
4. Directeur du CNF de Tunis [email protected]
Résumé : Les définitions de l’enseignement à distance et/ou virtuel permettent de donner
une description et de délimiter des frontières aux sujets couverts par ce champ, mais elles
ne peuvent en donner une compréhension plus approfondie. C’est un champ de pratique
professionnelle traitant du problème de la transmission du savoir à enseigner, dans un
rapport didactique : enseignant- apprenant et savoir. L’enseignement par les TIC est encore
à l’heure actuelle matière à débat et loin d’être unanimement partagé au sein de la
communauté des scientifiques et des pédagogues. La même communauté est divisée entre
plusieurs approches théoriques et idéologiques. Car l’enseignement à distance s’intéresse
avant tout à l’élaboration sociale et au partage du savoir. L’analyse qualitative du partage
et de l’élaboration se réalise dans des expériences de formation à distance nationale et
internationale dans des contextes sociaux et culturels différents. Ce processus analyse la
problématique de l’interaction sujet/objet par un contenu de formation proposé qui vise le
développement des compétences dans les trois domaines de savoir (acquis théoriques et
activités d’apprentissage), savoir faire (utilisation des TIC) et savoir être (travail
collaboratif).
La démarche pédagogique repose sur l’apprentissage individuel et collaboratif, par
résolution de situations à problèmes, par les projets et par le tutorat à distance. Les activités
d’apprentissage programmées seront synchrones et asynchrones et constituerons la base de
l’évaluation formative et sommative. Cette démarche réflexive nos permet, par ailleurs,
d’élucider ce qui est virtuel et ce qui ne l’est pas.
22
Béja 05-06-07 avril 2012
Infol@ngues 2012
Traduire l’agrammaticalité : quelques traducteurs automatiques en ligne à
l’épreuve.
Nidhal Hamrouni
Institut Supérieur des Langues Appliquées et d’Informatique de Béja, Université de
Jendouba
[email protected]
Résumé: Selon le modèle génératif, la notion de grammaticalité est exclusivement binaire.
Une phrase est soit grammatical soit agrammatical. Partant, un traducteur automatique est
censé offrir une traduction acceptable d’un énoncé grammatical. Mais l’agrammaticalité
fait partie du corpus et met en évidence des écarts à la norme qui permettent de distinguer
des niveaux de langues ou des particularités régionales. Ces énoncés agrammaticaux,
entrés en tant que texte source dans un logiciel de traduction automatique, donne nt des
traductions plus ou moins acceptables. Dans notre article nous relèverons les erreurs les
plus courantes et les difficultés rencontrées au niveau du traitement syntaxique par les
traducteurs en ligne.
23
Béja 05-06-07 avril 2012
Infol@ngues 2012
Le Cloud Computing et la fouille de données textuelles, vers un
environnement collaboratif ubiquitaire pour la recherche
Karime Chine
[email protected]
Résumé : Les clouds publiques tels qu’Amazon EC2 auront un impact majeur sur la
recherche : Des ressources de calcul et de stockage « infinies » sont devenues accessibles à
la demande aux scientifiques du monde entier, à des coûts abordables, parfois dérisoires.
La technologie et les modèles économiques qui sous-tendent le cloud ont rendu possible la
conception d'une nouvelle génération d'environnements virtuels de sciences
computationnelles et de fouille de données qui va accélérer le mouvement déjà entamé vers
une science plus ouverte, plus participative, plus collaborative et plus facilement
reproductible. Ces environnements vont aussi permettre aux scientifiques de faire face au
déluge de données auquel ils sont confrontés et de se doter des outils et des ressources
nécessaires pour analyser des données massives.
Elastic-R est l’une des premières plate-forme à combiner le potentiel de l'infrastructurecomme-service avec les outils les plus utilisés de l'analyse statistique et de la fouille de
données. Ces outils deviennent accessibles comme services à partir d’un simple navigateur,
utilisables dans un contexte collaboratif et facilement opérationnels sur des données de
n’importe quelle taille. Ils peuvent mobiliser, si besoin est, et à la demande du scientifique,
des capacités de calcul et de mémoire très significatives. Les outils les plus couramment
utilisés pour le traitement du langage naturel et l’analyse textuelle tels que Python/NTLK
et R/tm font partie des librairies de calcul que les agents de la plate- forme rendent
accessibles de manière ubiquitaire. Des sessions partagées permettent aux scientifiques de
collaborer en temps réel, de créer et de publier des services scientifiques, de lancer
aisément des calculs parallèles massifs, de connecter leurs feuilles Excel et leurs
documents à des moteurs de calcul distants, etc. Ils peuvent ainsi partager avec leurs
collaborateurs, leurs étudiants et les examinateurs de leurs papiers scientifiques tous les
artefacts produits.
24
Béja 05-06-07 avril 2012
Infol@ngues 2012
Modes de discours dans des articles journalistiques
Annotation de corpus, observations linguistiques et
étiquetage automatique
Patrice Enjalbert1 , Alexandre Labadié 2 , Stéphane Ferrari1 , Abdallah Attoumani1
GREYC, Université de Caen & CNRS, Bd Maréchal Juin, BP 5186
F-14032 Caen Cedex, France [email protected],
[email protected], [email protected]
2 GETALP, LIG, BP 53, 38041 Grenoble Cedex 9, France,
[email protected]
1 Laboratoire
Résumé : On observe depuis quelques années un intérêt croissant dans la communauté du
Traitement Automatiques des Langues pour l'analyse de la structure du discours, tant à des
fins applicatives que pour des études de linguistique de corpus. Une approche
particulièrement populaire vise à saisir l'organisation du texte en termes de « blocs »
successifs possédant une certaine « homogénéité ». Une analyse de ce type peut être
précieuse dans des tâches concrètes telles que la recherche d’information (on retourne à
l’utilisateur des passages plutôt que des textes entiers) ou le résumé automatique. La
définition de tels segments de texte est le plus souvent
formulée en termes thématiques : suite des « thèmes » développés dans le texte,
appréhendés par leurs champs lexicaux (cf. travaux fondateurs de Hearst sur le « Text
Tiling »).
Le travail présenté dans cet article aborde la question sous un autre angle, de caractère
plutôt rhétorique. L’application en vue serait une autre forme de navigation inter- et
intradocumentaire, le lecteur se focalisant par exemple sur des articles et des passages
relevant de l'information brute ou au contraire de débats, d'analyses, de prises de position
programmatiques, etc. Notre étude fait donc écho à un certains nombre de travaux actuels
appuyés sur la notion de discourse moves de J. Swales et à des réalisations informatiques
développées en particulier pour des textes scientifiques à la suite de S. Teufel, ou pour
d’autres textes dans l’équipe de D. Biber. En vue d'adapter ces idées à notre corpus
journalistique, nous considérons toutefois un autre modèle linguistique, inspiré de la
typologie classique Description-Argumentation-NarrationPrescription considérée (avec ses nombreuses variantes) dans les études linguistiques (cf .
travaux de E. Werlich, J.M. Adam, C. Smith, par exemples). Le modèle est adapté aux
spécificités du corpus et de ses fonctions communicationnelles propres ; il est d’autre part
amendé pour pendre en compte l’entrelacement des différents modes au sein d’un même
passage. Plus précisément nous considérons la manière dont différents modes de discours
se combinent dans un texte et produisent, plutôt qu’une véritable segmentation, une
dynamique rhétorique.
Pour mener à bien cette recherche nous avons considéré qu’une première étape
indispensable était la constitution d’un corpus annoté selon ce modèle. Le corpus est
composé d'articles du journal Le Monde (articles de fond de politique et d'économie). Les
annotations produites ont fait l'objet d'analyses quantitatives mettant e n évidence un
ensemble de propriétés linguistiques. Une première étude visant à un étiquetage
automatique en termes de modes de discours est également présentée et évaluée en regard
de l’annotation manuelle.
Mots clés : Structure du discours, structure rhétorique, modes de discours, annotation,
étiquetage rhétorique automatique, textes journalistiques.
25
Béja 05-06-07 avril 2012