traduction automatique

Implementation of a new language into a rule-based Spoken Dialogue System

Résumé
Le but de cette étude est de fournir une solution pour implémenter une nouvelle langue dans un système de dialogue vocal basé sur des règles. Notre approche repose sur l’hypothèse selon laquelle la traduction automatique peut aider à résoudre le problème de la portabilité vers une nouvelle langue. Nous procédons à la traduction automatique du système de dialogue de l’anglais vers le mandarin et évaluons ses performances. Les résultats indiquent que cette approche est efficace pour concevoir un système de dialogue multilingue.

Optimisation et amélioration du process de traduction des rapports d'intervention pour service Europe

Résumé
Ce travail s’inscrit dans le cadre du projet CHU (Complaint Handling Unit) Translation Productivity au sein de GEHC à Buc, France. Le travail effectué consiste à optimiser l'extraction, le traitement des rapports d'intervention générés dans les systèmes de gestion de services dans plusieurs langues, ainsi que leur traduction réalisée à la demande de la FDA (Food and Drug Administration). Le projet a été réalisé entre l’équipe de Traduction, de Global Services et de Sourcing. Nous analysons donc le problème de traitement de rapports, ainsi que la difficulté de la traduction technique dans le domaine médical. La solution mise en oeuvre consiste à gérer spécifiquement la concaténation et la segmentation des textes à traduire, en tenant compte de la mémoire de traduction et des portions déjà rédigées en anglais dans les textes sources. Le résultat de ce travail permet d'améliorer l'effet de levier et de réduire les coûts de traduction.

Développement d'une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées

Résumé
Cette étude vise à définir une méthodologie pour la création de systèmes de traduction automatique pour les langues peu dotées. Les systèmes de traduction automatique à base de statistiques ont permis des progrès considérables, mais sont peu adaptés aux langues peu dotées pour lesquelles il n'existe que peu de données. C'est pourquoi nous avons choisi un système à règle (Ariane-H), issu du GETA (laboratoire pionnier en traduction automatique en France). Pour la méthodologie, nous avons décidé de prendre un corpus exemple, qui sera Le Petit Prince d'Antoine de Saint-Exupéry, qui a l'avantage d'être traduit dans 270 langues. Dans un premier temps, nous avons créé une maquette khmer-français. Nous nous sommes servis des difficultés rencontrées pour définir la marche à suivre pour d'autres langues, et les phénomènes linguistiques traités serviront d'exemples. Nous avons ensuite mis ces travaux à l'épreuve, en démarrant la création de systèmes pour d'autres langues.

Vers une génération automatique en ROBRA d'analyseurs et de générations syntaxiques pour des systèmes de traduction automatique

Résumé
Ariane est un environnement de développement de systèmes de traduction automatique par règles. Les grammaires statique sont un élément-clé pour le développement de tels systèmes dans la mesure où en décrivant la langue, elles servent de spécification pour les phases structurales écrites en ROBRA : les programmes d'analyse de l'énoncé en langue source et de génération de l'énoncé en langue cible. Ces grammaires statiques présentent néanmoins deux inconvénients qui sont d'être difficiles à prendre en main et pas assez formelles. L'objectif de ce travail est donc de proposer une alternative aux grammaires statiques afin de permettre de rédiger plus facilement des spécifications linguistiques et d'intégrer de nouvelles langues dans un système. La solution que nous proposerons devra par ailleurs être manipulable informatiquement, tant par sa formalisation que dans son format de stockage interne.

Machine Translation in the Colloquial Domain (en français : La traduction automatique dans le domaine du langage familier)

Résumé
Les présentes recherches visent à optimiser la traduction automatique sur un corpus parallèle constitué d'expressions colloquiales (anglais-espagnol). Ce corpus est constitué en partie de sites traitant le tourisme et de courriels. Le discours présente dans le corpus comprend notamment du langage parlé et du langage SMS. La méthode proposée est fondée sur des règles (rule-based machine translation) avec une dernière phase statistique complémentaire. Les règles sont définies dans des dictionnaires bilingues et monolingues qui sont appliqués à différents stades de la traduction. Les dictionnaires traitent des problèmes de normalisation de texte (erreurs orthographiques, orthographe non-standard, abréviations, etc.), d'ambiguïtés, et des traductions spécifiques au domaine, parmi d'autres particularités de la traduction automatique. Ce mémoire apporte également une évaluation sur le test que j'ai effectué selon cette méthode.

Lexicographie bilingue pour la traduction automatique : Élaboration et enrichissement de dictionnaires géneraux anglais-français et français-anglais

Résumé
Un dictionnaire bilingue est souvent considéré comme un outil de travail, mais il est également le résultat de recherches lexicographiques importantes. Lorsqu’il est destiné à un système de traduction automatique de type linguistique (comme celui de Reverso), le dictionnaire est construit selon une méthodologie bien définie.

Dans cette étude, nous revenons sur ce qui différencie un dictionnaire traditionnel d’un dictionnaire de traduction automatique (éléments qui y figurent, cible etc.), ainsi que sur la question de la désambiguïsation, procédé qui permet de gérer la polysémie en traduction automatique. Les recherches lexicographiques étant essentiellement manuelles, nous proposons également dans ce mémoire des façons de les automatiser à l’aide de différentes ressources afin de gagner en productivité.

Traduction automatique, traduction humaine : évaluation, avantages, complémentarité

Résumé
Dans ce mémoire, nous visons à évaluer la traduction automatique, afin de permettre de proposer des critères en vue de son amélioration. Mais nous comparons d’abord la traduction automatique à la traduction humaine (qu’on a a priori pensé devoir être son modèle), après avoir présenté une méthode d’évaluation des traductions humaines.

Construction de ressources terminologiques pour un traducteur automatique : une approche textuelle

Résumé
Notre projet prend place dans une étude menée par EADS-CCR (Centre Commun de Recherche) pour le département de veille de EADS-LV (Launch Vehicles). Une des activités de ce département (SN/S) est la veille stratégique et technologique sur les produits, entreprises et pays concurrents dans le domaine des lanceurs. Dans le cadre de cette veille, le département utilise le logiciel de traduction automatique Reverso de Softissimo, notamment comme outil d'aide à la compréhension de documents russes. Notre travail a consisté à enrichir le dictionnaire utilisateur russe-français sur les lanceurs à partir de corpus de textes représentatifs de ceux que les veilleurs exploitent habituellement. Nous avons dans un premier temps constitué à l'aide de la plate-forme Xerox Terminology Suite une base de données terminologique trilingue (russe-anglais-français) que nous avons ensuite enrichie manuellement en reliant les termes par des relations de traduction. En parallèle de ce travail, nous avons réfléchi sur la problématique de la réutilisabilité des données terminologiques au sein de EADS et dans le milieu industriel en général. 

La résolution des ambiguïtés des langues naturelles (polonais) et artificielles (espéranto) lors de leur traduction automatique

Résumé
La traduction automatique se heurte au phénomène des ambiguïtés. Ces ambiguïtés peuvent être d’ordre lexical (flexion, homonymie, catégorie) ou structurel (hiérarchie, syntaxe). Quel est donc le degré de ces ambiguïtés dans une langue naturelle hautement flexionnelle, telle que le polonais et dans une langue artificielle à forte structure auxiliaire telle l’espéranto? Comment l’acquisition des connaissances appliquée à la traduction automatique facilite-t-elle la résolution des ambiguïtés ? La présentation d’exemples d’ambiguïtés relatives aux langues polonais et espéranto permet de définir une typologie d’ambiguïtés spécifiques. L’utilisation des différents outils de traduction automatique fait apparaître les limites de la qualité des résultats. L’utilisation de capacités cognitives de plus en plus puissantes est un axe d’amélioration. L’étude d’une modélisation croisée, associant un système symbolique et statistique, corrélée à une optimisation de la compréhension des contextes, est un scénario probable pour résoudre les ambiguïtés.

Traduction humaine dans la perspective du développement de la traduction automatique

Résumé
Dans mon mémoire de DESS, j'aborde la problématique linguistique (traduction) dans la perspective du développement informatique (nouvelles technologies-logiciels de traduction automatique). Il s'agit de traiter la question de la traduction « traditionnelle » vs la traduction automatique. L'enjeu de mon travail est de démontrer quels sont les points forts et les points faibles ainsi que les limites et les difficultés liés à ces deux façons de traduire: humaine et informatisée.Pour illustrer mes observations, je m'appuie sur les exemples précis. J'établis un corpus bilingue (langue source français-langue cible anglais) extrait du Journal Officiel de la Communauté européenne et j'examine les traductions: premièrement traditionnelle publiée dans une version anglaise du Journal Officiel, ensuite celle traitée par le logiciel de traduction automatique REVERSO et celle traitée par le logiciel de traduction gratuit disponible sur le moteur de recherche YAHOO. Par la suite, je procède à l’extraction terminologique en établissant une liste des termes et des expressions que je compare premièrement avec la terminologie traditionnelle du dictionnaire-papier, et ensuite avec le dictionnaire en ligne FREELANG et la base terminologique de la Communauté européenne - EUROVOC. Les commentaires des résultats obtenus me servent de conclusion : quels sont la place et le rôle du traducteur face à la prolifération des outils de traduction automatique, quel est l’avenir de la TA et de la TAO de point de vue de l’efficacité, de la disponibilité, du coût et du temps de traduction ? Est-ce que le progrès technologique accompagne les méthodes traditionnelles et en quoi est-il complémentaire? Arrivera-t-on à maîtriser l’ambiguïté du langage humain du point de vue de la traduction?