Linguistique de corpus

La pratique monolingue ou bilingue (essentiellement français-anglais) a conduit à sous-estimer l’impact des différences linguistiques et sémio-textuelles sur l’alignement de corpus. L’optique multilingue remet en question le biais auquel on a indistinctement recours en ingénierie linguistique, à savoir l’alignement de textes parallèles (textes traduits, le plus souvent de l’anglais). Il s’agit aujourd’hui de faire des propositions opérationnelles sur la typologie des corpus de textes bi- et multi-lingues en vue de leur traitement et de leur exploitation. La pertinence des données (lexicologiques, terminologiques et autres) acquises en corpus en dépend. Les projets industriels menés au CRIM(EDF, CNES...) nous ont donné largement l’occasion de confirmer ces hypothèses. Par ailleurs, on a pu évaluer lors de ces expériences la difficulté d’accéder à des outils spécifiques pour traiter les corpus de textes en langues rares. Nos collaborations avec la recherche industrielle (boîte Xelda de Xerox) et l’Université (Hyperbase, Lexico, Syntex, Acabit...) permettent de développer les fonctionnalités manquantes en contexte multilingue. Nous comptons multiplier les initiatives auprès de nos partenaires pour créer un centre de ressources dédié au multilinguisme. Les projets VIGITERMES (pour le japonais) et C-MANTIC (pour le chinois) nous permettent déjà de traiter automatiquement de significatifs corpus de langues asiatiques.

Les techniques de corpus alignés parallèles et comparables concernent de nombreuses applications présentes et à venir (...) et constituent en tant que telles un axe central de nos recherches technologiques.

Du point de vue applicatif, le projet e-lexiques a montré deux écueils des corpus parallèles : d'une part l'opération de traduction obère la qualité de la langue cible et ne permet pas d'établir des ressources lexicales fiables, d'autre part la non prise en compte du genre des textes lors de la collecte de corpus aboutit à l'établissement de ressources lexicales « fourre-tout » mélangeant langue générale et langue de spécialité. Dès lors, ER-TIM va orienter ses recherches vers la détection automatique des genres, en contexte multilingue, de façon à pouvoir traiter des textes de genre équivalent. Quant au traitement des textes eux-mêmes, ER-TIM s'oriente, pour la production de ressources lexicales, vers une utilisation plus systématique des corpus comparables.