discours

Genres et discours

La demande sociale portant massivement sur les besoins documentaires et traductionnels, les ressources que l’on cherche majoritairement à constituer concernent les terminologies scientifiques et techniques. Jusqu’à une date récente, il était aisé de recueillir un corpus de textes spécialisés, de taille limité, préalablement indexé par des documentalistes avant de mettre en œuvre l’extraction des termes d’un domaine après un rapide typage discursif. Cette approche est révolue.

Etude contrastive des données morphologiques dans les documents médicaux scientifiques et vulgarisés

Nom: 
CHMIELIK
Prénom: 
-
Année: 
2008
Résumé du mémoire: 

Dans ce travail, nous proposons une étude contrastive des documents médicaux catégorisés par trois discours : vulgarisé, étudiant et professionnel. Nous nous intéressons en particulier de savoir s'il existe des traits saillants du niveau morphologique dans ces types de documents.

Le travail est effectué avec des données de trois domaines médicaux : pneumologie, cardiologie et diabète.

Nous appliquons des méthodes du traitement automatique de langue et d'apprentissage supervisé, accompagnées d'une analyse manuelle détaillée et précise. Nos résultats montrent qu'il existe effectivement des traits morphologiques (et lexicaux associés) propres aux discours étudiés.

Qu'il s'agisse des familles morphologiques (leur composition, taille, ...) ou d'algorithmes d'apprentissage, des caractéristiques discursives propres à ces corpus émergent.

Critéres pour la catégorisation automatique des documents numériques

Nom: 
KRIVINE
Prénom: 
-
Année: 
2005
Résumé du mémoire: 

La recherche d'information par mots-clefs, essentiellement basée sur des informations lexicales, n'offre pas une caractérisation  suffisamment efficace des documents retournés.

Afin d'améliorer les performances des systèmes de recherche d'information, l'ingénierie documentaire se tourne vers une approche plus globale du texte, prenant en considération sa dimension sociolinguistique.

La théorie des genres, longtemps réservée au domaine de la littérature, offre des perspectives intéressantes, car les notions de genre et de discours constituent des points d'entrée vers l'identification d'informations pertinentes, autres que thématiques, au sein des textes.

Dans ce mémoire, nous étudions la pertinence de certains de critéres linguistiques et extralinguistiques pour la caractérisation des discours scientifique et vulgarisé russe du Web et les moyens à mettre en oeuvre pour leur acquisition automatique.

Cette étude a été réalisée dans le cadre d'un projet TCAN (Traitement des connaissances et NTIC) du CNRS, sur la Découverte et l'exploration des corpus comparables pour l'accés à l'information multilingue (DECO), débuté en 2004.

Syndiquer le contenu