langue arabe

Traitement automatique de l’arabe – Problématique de l’étiquetage grammaticale

Nom: 
NC
Prénom: 
-
Année: 
2003
Résumé du mémoire: 

Notre étude consistera à traiter la question de l’étiquetage grammaticale de la langue arabe en insistant sur la problématique que posent les deux spécificités inhérentes à cette langue, à savoir : l’agglutination et la non voyellation ou la voyellation partielle des textes. L’étiquetage d’un texte en arabe requiert la restitution des voyelles. Mais comment restituer les voyelles puisque cette opération dépend de la détermination des étiquettes grammaticales ? Nous sommes donc confronté à un cercle vicieux. Le problème d’ambiguïté est ainsi posé. En effet, étiqueter un texte dépourvu de voyelles, c’est étiqueter un texte grammaticalement ambigu. Il s’agit donc de lever cette ambiguïté, qu’elle soit lexicale ou grammaticale. De nombreux efforts ont été déployés dans ce sens. Nous ferons donc un état de l’art, présentant les différentes approches appliquées jusqu’à ce jour, les différentes grammaires et modèles adoptés ainsi que les différents outils développés en vue d’effectuer une analyse syntaxique, voire morphosyntaxique d’un texte donné, dans le but de venir à bout de ce problème. Nous mettrons en évidence les points forts, mais également, les limites des travaux effectués. A partir de là nous tenterons de proposer une solution potentielle.

Extraction d'une terminologie bilingue à partir d'un corpus parallèle regroupant les ressources produites suite à un projet de localisation en arabe de l’environnement Linux

Nom: 
MAAFA
Prénom: 
-
Année: 
2006
Résumé du mémoire: 

Arabeyes est un projet qui vise à produire, et à maintenir à jour, une distribution arabe du système Linux. Ceci nécessite d’importants efforts de traduction, et le développement d’outils logiciels spécifiques. L’objectif de notre travail est d’exploiter tous les travaux de traduction, réalisés dans le cadre de ce projet, afin d’extraire des ressources terminologiques anglais /arabe concernant la localisation des logiciels libres.

La première étape du travail consiste à récupérer, et à filtrer, tous les fichiers contenant les traductions, puis ensuite regrouper les messages provenant de ces fichiers dans un seul corpus parallèle. Pour former une première liste de candidats termes bilingues, nous récupérons tous les messages susceptibles de contenir un seul terme, puis à l’aide d'outils d’analyse morphosyntaxique, nous isolons, dans cette liste, les suites de mots correspondant aux catégories qui présentent plus d’intérêts terminologiques. 

La deuxième étape consiste à implémenter une méthode d’alignement basée sur le calcul des fréquences des cooccurrences. Cette technique d’alignement sera exploitée pour obtenir de nouveaux couples de candidats termes à partir du corpus. Pour filtrer les résultats, nous  comparons les catégories  des suites de mots obtenues, et nous gardons les couples de candidats termes qui se correspondent le plus

Évaluation de l’interrogation monolingue d’un moteur de recherche cross-lingue : application pour l’arabe et analyse de la méthodologie.

Nom: 
RAMDANI
Prénom: 
-
Année: 
2006
Résumé du mémoire: 

Dans ce mémoire nous nous intéressons aux moteurs de recherche et plus particulièrement aux moteurs de recherche cross-lingues qui traitent la langue arabe.

Nous décrivons également les méthodologies d’évaluation des systèmes de recherche d’information appliquées lors des campagnes d’évaluation de grande envergure.

Par la suite nous procédons à l’évaluation de l’interrogation monolingue arabe d’un moteur de recherche cross-lingue développé par le LIC2M (Laboratoire d'Ingénierie de la Connaissance Multimédia Multilingue, CEA-LIST), et nous proposons un certain nombre de suggestions pour améliorer les méthodes des campagnes d’évaluation existantes.

Syndiquer le contenu