Mémoires 2017-2018

Comparaison entre la méthode symbolique et la méthode par apprentissage dans l'efficacité de la détection thématique d'articles de presse


Prénom NOM : Nicolas SCARCELLA

Année: 2018
Mots clés : Machine Learning, Clusterisation, Classification, Etiquetage, Ngrams, Matching
Résumé : Ce mémoire porte sur l’étude de la détection thématique d’articles de presse pour une recherche sur la néologie. L’objet du travail réside dans la confrontation de la méthode symbolique, appuyée sur des listes et un vocabulaire contrôlé, avec la méthode d’apprentissage automatique, basée sur des algorithmes et calculs mathématiques. Ces deux procédures offrent l’analyse binaire visant à doter la machine d’une intelligence artificielle capable de détecter correctement les sujets abordés dans un texte dans le but de localiser les contextes qui aideront, dans un projet de détection de néologismes, à s’approcher de leur sens sémantique. Dans un premier temps, le travail consiste en une réflexion sur le moteur de détection déjà existant puis, dans un second temps, en l’exploration de nouvelles techniques permettant d’optimiser la détection thématique.


Télécharger le mémoire


Variations Phonétiques des Accents de la Langue Italienne


Prénom NOM : Giovanna FAVIA

Année: 2018
Mots clés : variation phonétique, accents, langue italienne, grand corpus, classification automatique, système consonantique, système vocalique
Résumé : Ce mémoire de recherche vise à analyser les variations phonétiques des accents de l’italien contemporain, divisés en trois grandes zones (Nord, Centre et Sud) au sein d’un grand corpus de parole continue et semi-spontanée de journaux radiodiffusés. Les analyses acoustiques étant fondées sur la durée des phonèmes consonantiques d’une part et sur les valeurs des formants des voyelles de l’autre. Pour ce qui concerne la durée des phonèmes consonantiques, l’attention est posée sur les phénomènes de renforcement phono syntaxique et redoublement intervocalique qui se produisent sur toute classe de consonne, à l’exception des fricatives, chez les locuteurs des trois zones considérées. Pour les phonèmes vocaliques, une analyse des triangles vocaliques est menée d’abord, suivie d’une classification automatique des accents des locuteurs. Une dernière étude portera l’attention sur l’importance du genre du locuteur dans un contexte de détection automatique de l’origine.


Télécharger le mémoire


Optimisation d'un réseau de neurones récurrents appliqué à un corpus annoté automatiquement pour la reconnaissance d'entités nommées


Prénom NOM : Sotiria BAMPATZANI

Année: 2018
Mots clés : reconnaissance des entités nommées, règles d’annotation, apprentissage automatique, réseau de neurones récurrents, LSTM
Résumé : La création des outils qui automatisent l’extraction d’informations pertinentes est un besoin qui s’avère crucial pour les entreprises. Dans une démarche prospective de tendance ou de prédiction, une approche à base de dictionnaires se révèle très handicapante pour la détection de notions incluant de nouvelles entités. Afin de détecter une start-up émergente, un acteur en devenir du marché, ces dictionnaires doivent être mis à jour en continu par un sourcing permanent. Effectuer un tel sourcing manuellement est un travail important mobilisant de grandes ressources et donc difficile à tenir dans la durée. Un moyen d’automatiser la constitution de ces dictionnaires est la technologie de l’apprentissage automatique. Dans ce contexte, cette étude porte sur l’optimisation d’un système de reconnaissance d’entités nommées à base d’un réseau de neurones récurrents. Un nombre assez important d’expériences et de différents prétraitements au niveau du corpus, ont été réalisées. L’évaluation et l’analyse des résultats obtenus ont mené à l’établissement d’une typologie d’erreurs et ont surtout été la force motrice pour le choix de différents paramètres du réseau neuronal.