Mémoires 2020-2021

Impact de l’extraction de texte pour l’identification de la structure d’un document depuis des documents PDF du domaine financier
Auteur : Mei Gan
Année : 2021
Résumé : Le domaine de l’extraction d’informations automatisée de texte à partir de documents PDF est d’une grande importance car le format PDF est toujours l’un des plus populaires pour la représentation et l’échange d’informations, en particulier dans le monde de la finance. En outre, il est également important pour un système d’extraction d’informations à partir de documents financiers de s’assurer de la fiabilité des données extraites. Ce mémoire a donc pour objectif de comparer plusieurs outils de reconnaissance de texte afin d’identifier la structure des documents PDF financiers. Nous présenterons les différents types de documents PDF et les méthodes utilisées pour l’extraction de texte et de détection de la structure. Ensuite, nous nous attarderons sur les évaluations de l’extraction de texte, de la détection de format et de la détection de structure de documents PDF.

Télécharger le mémoire

Étude comparative des expressions polylexicales verbales en français et en chinois : éléments linguistiques, statistiques et TAL
Auteur : Jianying Liu
Année : 2021
Résumé : Ce travail porte sur une étude comparative des expressions polylexicales verbales en français et en chinois. Nous essayons d’abord de valider l’hypothèse sur la non-compositionnalité des expressions polylexicales et les chaînes de coréférence, selon laquelle les composants d’une expression polylexicale verbale sont peu susceptibles d’être repris dans une chaîne de coréférence. Ensuite, en se basant sur les fautes observées pendant l’annotation manuelle, les analyses statistiques des traits et nos connaissances sur la langue chinoise, nous supposons que l’hypothèse se comporte de manière similaire en chinois, et proposons des points à affiner dans l’hypothèse, ainsi que des pistes possibles pour améliorer l’identification automatique des expressions polylexicales verbales en français et en chinois.

Télécharger le mémoire

Analyse de sentiments pour mesurer la perception d’ArcelorMittal sur divers sujets clés
Auteur : Shérérazade Nineb
Année : 2021
Résumé : La réputation des entreprises impacte directement leur pouvoir d’attraction, leur capacité à attirer des talents mais aussi leur croissance. Elles se soucient donc de leur identité en ligne, cherchent à mieux connaître les attentes et critiques que les internautes leur adressent. L’analyse de sentiments met en œuvre des techniques de calculs du Traitement Automatique du Langage Naturel qui répondent à cette problématique. Les travaux de ce mémoire consistent à d’une part fournir une vue d’ensemble des méthodes et outils existants, et d’autre part à démontrer la capacité de ces méthodes à analyser la réputation d’ArcelorMittal sur divers sujets. La première partie de ces travaux a consisté en une analyse du sentiment à l’échelle du document, la seconde partie à l’analyse du sentiment à l’echelle des aspects. Des approches de types lexicon-based, Deep Learning (BERT) et de Topic Modeling ont été mis en œuvre.

Télécharger le mémoire

Étude du comportement des composants d’expressions polylexicales verbales dans les chaînes de coréférence
Auteur : Anaëlle Pierredon
Année : 2021
Résumé : La coréférence et les expressions polylexicales sont deux phénomènes linguistiques importants en traitement automatique des langues et notamment dans des tâches comme la traduction automatique ou encore la fouille de texte. Au cours de ce mémoire, nous chercherons à valider l’hypothèse selon laquelle les composants d’expressions polylexicales ne sont que très peu susceptibles d’être repris dans des chaînes de coréférence, et nous proposerons une façon d’utiliser ces résultats pour tenter d’améliorer les systèmes de résolution de coréférence.

Télécharger le mémoire

Système de traduction automatique neuronale français-mongol : Historique, technologies, mise en place et évaluations
Auteur : Shuai Gao
Année : 2021
Résumé : De nos jours, la traduction automatique (MT) est de plus en plus utilisée, surtout la traduction automatique neuronale, qui a porté la qualité des traductions à un nouveau niveau. Malgré son développement rapide, elle ne fonctionne de manière suffisante que pour des langues principales telles que l’anglais, le français, le chinois et l’espagnol, etc. En ce qui concerne les langues moins parlées ou minoritaires, il n’existe pas beaucoup de recherches sur la MT. Notamment, dans le cas de notre mémoire, pour la paire de langues français-mongol, il n’existe aucune recherche publiée dessus.

Ce mémoire consiste à retracer le travail que nous avons effectué pour la mise en place d’un système de traduction automatique neuronale (NMT) pour la paire de langues français-mongol.
Notre intérêt réside en premier lieu dans la traduction automatique en nous intéressant à son développement et aux dernières technologies. Deuxièmement, nous nous pencherons sur la langue mongole en présentant ses caractéristiques ainsi que les travaux précédents liés à la MT. Ensuite, nous nous emploierons à entraîner, à partir d’un corpus parallèle open-source, des modèles de NMT français-mongol avec l’outil OpenNMT. Finalement, nous effectuerons deux évaluations automatiques et proposerons une méthode d’évaluation humaine, nommée « IFF », ce qui permet de connaître les forces et les faiblesses de notre système par rapport à des moteurs de traduction à usage commercial.

Ce travail entend revitaliser la langue mongole et protéger la diversité de notre ADN culturel en établissant des liens avec d’autres langues principales à l’appui de la NMT.

Télécharger le mémoire

Modélisation d’un système de formes rythmiques pour la transcription automatique de la batterie
Auteur : Martin Digard
Année : 2021

Télécharger le mémoire

Détection automatique de l’innovation lexicale dans des corpus diachroniques
Auteur : Solveig Polder
Année : 2021
Résumé : Le figement lexical est un phénomène central du langage et les expressions figées représentent une importante proportion du lexique de toute langue. Leur détection demeure un des enjeux du TAL. Après avoir effectué un résumé détaillé de l’état de l’art dans ce domaine, ce mémoire présente une méthode non supervisée permettant de détecter la formation de nouvelles expressions figées au sein de corpus diachroniques d’articles de presse en français. On utilisera un modèle LDA (allocation de
Dirichlet latente) pour extraire les expressions les plus représentatives du corpus que l’on considèrera comme des candidats au figement. Puis, partant du principe établi par les linguistes qu’une expression est figée si ses termes n’admettent pas d’être remplacés par des synonymes, nous utiliserons des plongements de mots pour établir une liste d’expressions synonymes pour chaque expression candidate. Enfin, nous calculerons l’évolution au fil du corpus du taux d’apparition d’une expression par rapport à ses « synonymes » (nous dresserons automatiquement pour chaque
candidat une liste de potentiels synonymes en remplaçant les mots de l’expression candidate par des mots dont la représentation en vecteur est similaire).

Télécharger le mémoire

Construction de corpus généralisé composé de verbatim-client pour l’apprentissage automatique
Auteur : Anna Niskovskikh
Année : 2021
Résumé : Le mémoire actuel est dédié à la conception d’un corpus universel à partir de ressources existantes pour améliorer les performances du modèle d’apprentissage automatique réalisé par les ingénieurs afin d’attirer le plus grand nombre de clients possible. Ces ressources, se composant de verbatim transcrits de l’oral, viennent des domaines différents comme la banque, l’assurance, l’épargne et le retail. Les verbatim sont classifiés manuellement par les linguistes et fournis avec leurs matrices élaborées sur mesure pour chaque client. Nous analysons et décrivons ce type particulier de données et définissons un nouveau sens du terme verbatim, tel qu’il se propose au sein de notre travail. Nous réorganisons les données en une nouvelle matrice plus globale de manière à diminuer le nombre de classes et élaborons une méthodologie personnalisée de prétraitement et de normalisation des verbatim pour les préparer à l’étape de l’intégration dans l’outil à la base de l’apprentissage automatique. Nous testons et discutons également certaines méthodes de métriques de similarité du machine learning afin de comparer avec la classification manuelle.

Télécharger le mémoire

Prise en compte de la dimension collocative dans la notation automatique de productions écrites en français langue étrangère
Auteur : Fabienne Auffret
Année : 2021
Résumé : Ce travail s’inscrit dans la continuité de celui de plusieurs personnes, qui ont déjà construit un modèle et ses caractéristiques pour classer des copies de tests de français (pour l’obtention du statut de résident ou de la naturalisation, en France ou au Canada), ceci dans un premier temps jusqu’à un niveau intermédiaire, puis sur l’ensemble des niveaux de langue A1 à C2 du Cadre européen commun de référence pour les langues (Coe, 2001).
De nombreuses études ayant démontré que les collocations au sens large, c’est-à-dire aussi sous leur aspect « collostructions » (collocations qui prennent en compte la structure grammaticale [Stefanowitsch and Gries, 2003], [Paquot, 2018]) permettent de départager entre eux les apprenants de niveau avancé (B2 à C2), nous allons donc créer des caractéristiques qui en sont issues, pour non seulement tenter d’améliorer le modèle existant, mais aussi utiliser des indicateurs pédagogiquement parlants car linguistiquement pertinents ([Valette and Eensoo, 2014] et non pas uniquement distributionnels.

Télécharger le mémoire