sémantique

Etude du Present Perfect anglais à partir de corpus parallèles

Nom: 
NC
Prénom: 
-
Année: 
2004
Résumé du mémoire: 

L’objectif de ce mémoire est d’étudier un phénomène linguistique qui s’appelle «The Present Perfect Puzzle » à travers l’analyse d’un corpus parallèle anglais – français de 15Mo.

Pour illustrer ce phénomène, rappelons qu’à la différence du Passé composé français, le Present Perfect anglais ne peut pas apparaître avec les adverbes ponctuels. Un alignement de corpus dans les deux langues permettra d’étudier les cas précis de ce phénomène et de déterminer quels groupes d’adverbes peuvent apparaître avec ce temps dans chaque langue.

A l’aide de programmes créés en langage « perl », j’ai normalisé le corpus et j’en ai extrait toutes les phrases contenant plus particulièrement des adverbes temporels, y compris les expressions adverbiales. Le résultat de l’extraction comprend désormais deux fichiers, un pour chaque langue. Les phrases extraites sont alignées dans une interface Access pour permettre l’analyse linguistique proprement dite.

Passage de données non structurées à des données structurées : les relations entre entités nommées

Nom: 
EZZAT
Prénom: 
-
Année: 
2008
Résumé du mémoire: 

Les études et méthodes qui assurent une cohérence entre textes et modèles de représentation du contenu textuel relèvent un enjeu de plus en plus important. Le nombre de travaux en industrie et en Recherche et Développement sur ce sujet en atteste. Avec l'explosion de la numérisation des documents et de leur diffusion avec Internet au sein d'une société désormais dite de l'information ou de la connaissance, la necéssité de répondre à une demande de plus en plus forte dans l'industrie et chez les particuliers se fait sentir.

Le travail présenté ici est d'ordre technique et méthodologique. Il s'agit de détecter les relations sémantiques entre entités nommées par des traitements issus du Traitement Automatique des Langues, sur de larges corpus plus ou moins techniques et de les organiser sous une représentation formelle structurée. Sans exclure les phénomènes linguistiques qui peuvent être génériques à tout type de texte, nous nous appuyons sur une méthodologie qui permet de trouver la réalisation des relations dans un corpus spécifique à un domaine, notamment en se concentrant sur la recherche de marqueurs discriminants. Nous considérons donc qu'il existe une forte dépendance entre les membres du triplets corpus/relation/marqueur.

Syndiquer le contenu