traduction automatique

Correction post-OCR à base de SMT pour un corpus juridique

Résumé
La reconnaissance optique des caractères (OCR) est une méthode d'extraction du texte à partir desimages. Elle se compose de plusieures phases: acquisition de l'image, pré-traitement, reconaissnace.Un mauvais fonctionnement du système durant l'une de de ces étapes ou une mauvaise qualité dudocument initial entraîne des erreurs. Notre mémoire vise à mettre en place un modèle de correction des erreurs d'OCR à base des outilsde traduction automatique statistique (SMT) pour un corpus juridique. Notre approche combine deux phases: la détection et la correction. Comme pour la traductionautomatique, le but est de maximiser la probabilité conditionnelle de la phrases cible (phrase sanserreurs) en prenant en compte la phrase source (phrase avec des erreurs).

Implementation of a new language into a rule-based Spoken Dialogue System

Résumé
Le but de cette étude est de fournir une solution pour implémenter une nouvelle langue dans un système de dialogue vocal basé sur des règles. Notre approche repose sur l’hypothèse selon laquelle la traduction automatique peut aider à résoudre le problème de la portabilité vers une nouvelle langue. Nous procédons à la traduction automatique du système de dialogue de l’anglais vers le mandarin et évaluons ses performances. Les résultats indiquent que cette approche est efficace pour concevoir un système de dialogue multilingue.

Optimisation et amélioration du process de traduction des rapports d'intervention pour service Europe

Résumé
Ce travail s’inscrit dans le cadre du projet CHU (Complaint Handling Unit) Translation Productivity au sein de GEHC à Buc, France. Le travail effectué consiste à optimiser l'extraction, le traitement des rapports d'intervention générés dans les systèmes de gestion de services dans plusieurs langues, ainsi que leur traduction réalisée à la demande de la FDA (Food and Drug Administration). Le projet a été réalisé entre l’équipe de Traduction, de Global Services et de Sourcing. Nous analysons donc le problème de traitement de rapports, ainsi que la difficulté de la traduction technique dans le domaine médical. La solution mise en oeuvre consiste à gérer spécifiquement la concaténation et la segmentation des textes à traduire, en tenant compte de la mémoire de traduction et des portions déjà rédigées en anglais dans les textes sources. Le résultat de ce travail permet d'améliorer l'effet de levier et de réduire les coûts de traduction.

Développement d'une maquette de traduction automatique khmer-français comme modèle pour des langues peu dotées

Résumé
Cette étude vise à définir une méthodologie pour la création de systèmes de traduction automatique pour les langues peu dotées. Les systèmes de traduction automatique à base de statistiques ont permis des progrès considérables, mais sont peu adaptés aux langues peu dotées pour lesquelles il n'existe que peu de données. C'est pourquoi nous avons choisi un système à règle (Ariane-H), issu du GETA (laboratoire pionnier en traduction automatique en France). Pour la méthodologie, nous avons décidé de prendre un corpus exemple, qui sera Le Petit Prince d'Antoine de Saint-Exupéry, qui a l'avantage d'être traduit dans 270 langues. Dans un premier temps, nous avons créé une maquette khmer-français. Nous nous sommes servis des difficultés rencontrées pour définir la marche à suivre pour d'autres langues, et les phénomènes linguistiques traités serviront d'exemples. Nous avons ensuite mis ces travaux à l'épreuve, en démarrant la création de systèmes pour d'autres langues.

Vers une génération automatique en ROBRA d'analyseurs et de générations syntaxiques pour des systèmes de traduction automatique

Résumé
Ariane est un environnement de développement de systèmes de traduction automatique par règles. Les grammaires statique sont un élément-clé pour le développement de tels systèmes dans la mesure où en décrivant la langue, elles servent de spécification pour les phases structurales écrites en ROBRA : les programmes d'analyse de l'énoncé en langue source et de génération de l'énoncé en langue cible. Ces grammaires statiques présentent néanmoins deux inconvénients qui sont d'être difficiles à prendre en main et pas assez formelles. L'objectif de ce travail est donc de proposer une alternative aux grammaires statiques afin de permettre de rédiger plus facilement des spécifications linguistiques et d'intégrer de nouvelles langues dans un système. La solution que nous proposerons devra par ailleurs être manipulable informatiquement, tant par sa formalisation que dans son format de stockage interne.

Machine Translation in the Colloquial Domain (en français : La traduction automatique dans le domaine du langage familier)

Résumé
Les présentes recherches visent à optimiser la traduction automatique sur un corpus parallèle constitué d'expressions colloquiales (anglais-espagnol). Ce corpus est constitué en partie de sites traitant le tourisme et de courriels. Le discours présente dans le corpus comprend notamment du langage parlé et du langage SMS. La méthode proposée est fondée sur des règles (rule-based machine translation) avec une dernière phase statistique complémentaire. Les règles sont définies dans des dictionnaires bilingues et monolingues qui sont appliqués à différents stades de la traduction. Les dictionnaires traitent des problèmes de normalisation de texte (erreurs orthographiques, orthographe non-standard, abréviations, etc.), d'ambiguïtés, et des traductions spécifiques au domaine, parmi d'autres particularités de la traduction automatique. Ce mémoire apporte également une évaluation sur le test que j'ai effectué selon cette méthode.

Lexicographie bilingue pour la traduction automatique : Élaboration et enrichissement de dictionnaires géneraux anglais-français et français-anglais

Résumé
Un dictionnaire bilingue est souvent considéré comme un outil de travail, mais il est également le résultat de recherches lexicographiques importantes. Lorsqu’il est destiné à un système de traduction automatique de type linguistique (comme celui de Reverso), le dictionnaire est construit selon une méthodologie bien définie.

Dans cette étude, nous revenons sur ce qui différencie un dictionnaire traditionnel d’un dictionnaire de traduction automatique (éléments qui y figurent, cible etc.), ainsi que sur la question de la désambiguïsation, procédé qui permet de gérer la polysémie en traduction automatique. Les recherches lexicographiques étant essentiellement manuelles, nous proposons également dans ce mémoire des façons de les automatiser à l’aide de différentes ressources afin de gagner en productivité.

Traduction automatique, traduction humaine : évaluation, avantages, complémentarité

Résumé
Dans ce mémoire, nous visons à évaluer la traduction automatique, afin de permettre de proposer des critères en vue de son amélioration. Mais nous comparons d’abord la traduction automatique à la traduction humaine (qu’on a a priori pensé devoir être son modèle), après avoir présenté une méthode d’évaluation des traductions humaines.

Construction de ressources terminologiques pour un traducteur automatique : une approche textuelle

Résumé
Notre projet prend place dans une étude menée par EADS-CCR (Centre Commun de Recherche) pour le département de veille de EADS-LV (Launch Vehicles). Une des activités de ce département (SN/S) est la veille stratégique et technologique sur les produits, entreprises et pays concurrents dans le domaine des lanceurs. Dans le cadre de cette veille, le département utilise le logiciel de traduction automatique Reverso de Softissimo, notamment comme outil d'aide à la compréhension de documents russes. Notre travail a consisté à enrichir le dictionnaire utilisateur russe-français sur les lanceurs à partir de corpus de textes représentatifs de ceux que les veilleurs exploitent habituellement. Nous avons dans un premier temps constitué à l'aide de la plate-forme Xerox Terminology Suite une base de données terminologique trilingue (russe-anglais-français) que nous avons ensuite enrichie manuellement en reliant les termes par des relations de traduction. En parallèle de ce travail, nous avons réfléchi sur la problématique de la réutilisabilité des données terminologiques au sein de EADS et dans le milieu industriel en général. 

La résolution des ambiguïtés des langues naturelles (polonais) et artificielles (espéranto) lors de leur traduction automatique

Résumé
La traduction automatique se heurte au phénomène des ambiguïtés. Ces ambiguïtés peuvent être d’ordre lexical (flexion, homonymie, catégorie) ou structurel (hiérarchie, syntaxe). Quel est donc le degré de ces ambiguïtés dans une langue naturelle hautement flexionnelle, telle que le polonais et dans une langue artificielle à forte structure auxiliaire telle l’espéranto? Comment l’acquisition des connaissances appliquée à la traduction automatique facilite-t-elle la résolution des ambiguïtés ? La présentation d’exemples d’ambiguïtés relatives aux langues polonais et espéranto permet de définir une typologie d’ambiguïtés spécifiques. L’utilisation des différents outils de traduction automatique fait apparaître les limites de la qualité des résultats. L’utilisation de capacités cognitives de plus en plus puissantes est un axe d’amélioration. L’étude d’une modélisation croisée, associant un système symbolique et statistique, corrélée à une optimisation de la compréhension des contextes, est un scénario probable pour résoudre les ambiguïtés.