apprentissage automatique

Reconnaissance d’entités nommées dans les tweets

Résumé
Ce travail porte sur la création d’un système de la reconnaissances d’entité nommées (REN) pour les tweets. La REN est un composant crucial pour de nombreuses applications du TAL, tels que traduction automatique et résumé automatique. Cette tâche est un sujet bien étudié dans la communauté du TAL. Néanmoins, la performance des systèmes de la REN conçus pour des textes standard est souvent gravement dégradée sur des tweets. Dans ce mémoire, nous avons proposé un système de la REN pour des tweets qui intègre deux modèles d’apprentissage automatique : le modèle à base d’ingénierie de caractéristiques peut traiter un grand volume de données en temps réel avec un résultat acceptabele et le modèle à base de réseaux de neurones peut produire un résultat de bonne qualité en terme de F mesure. Pour ce dernier, nous avons utiliser le plongement lexical dynamique qui est à l’origne de l’amélioration du résultat.

Prédiction d'une maladie rare : l'amyloïdose cardiaque

Résumé
Notre projet se focalise sur la prédiction de l’amyloïdose cardiaque, une maladie rare difficile à diagnostiquer et pour laquelle il n’existe pas encore de traitement. La détection précoce de maladies permettrait de traiter les symptômes en avance en plus de réduire l’impact de celles-ci. Un des obstacles majeur que l’on trouve lorsqu’on travaille avec des données cliniques est la présence de données personnelles. Cette problématique est largement abordée dans la littérature, qui propose en majorité de traiter ce sujet à travers la reconnaissance d’entités nommées. Pour cette raison, nous effectuons une tâche de désidentification en implémentant les deux méthodologies principales : une approche basée sur les connaissances et une approche guidée par les données. Dans un deuxième temps, nous effectuons la tâche de prédiction, qui repose sur des modèles d’apprentissage automatique. Nous menons à terme deux types de classification. En premier lieu, une classification multiclasse, étant celles-ci l’amyloïdose et d’autres maladies cardiaques rares (F-mesure = 0,636), et dans un deuxième temps, une classification binaire, c’est-à-dire, amyloïdose ou non amyloïdose (F-mesure = 0,782). Les amyloïdoses, étant difficiles à diagnostiquer par les médecins, nous observons dans nos expériences que les prédictions sont aussi complexes à réaliser pour une machine, en particulier pour un apprentissage statistique dans la mesure où il faudrait savoir quels sont les éléments essentiels du diagnostic pour pouvoir fournir à la machine ces connaissances. Même si notre modèle n’atteint pas une grande performance en ce qui concerne la prédiction, le travail réalisé permet d’éclaircir les symptômes et signes les plus fréquents associés à l’amyloïdose cardiaque. Actuellement, il reste difficile de prédire cette maladie, mais les expériences menées pourraient servir comme aide aux médecins afin d’attirer leur attention sur des cas probables d’amyloïdose.

Extraction d’Entités d’Aliments/Médicaments à Partir de Textes Biomédicaux en Français

Résumé
Ce travail s’inscrit dans le cadre du Projet ANR MIAM (Maladies, Interactions Alimentation-Médicaments) dont l'intérêt central concerne l'extraction des informations sur les interactions entre l'alimentation et les médicaments. Ces interactions peuvent conduire à un effet indésirable. Dans ce contexte, l’objectif de notre travail est d’extraire les mentions de médicaments et d'aliments dans les textes biomédicaux, qui est une étape importante voire élémentaire pour permettre une gamme de tâches de fouille de textes en aval. Le point de départ est la constitution d’un corpus français pertinent qui nous permet ensuite d’expérimenter des approches adéquates à la reconnaissances des entités aliments/médicaments. Nous nous appuyons également sur des informations extraites des ressources terminologiques.

Optimisation du processus de recrutement par utilisation de méthodes d’intelligence artificielles

Résumé
Le marché du travail a connu le développement d’un grand nombre de sites d’offres d’emploicomme par exemple LINKEDIN, MONSTER qui ont permis de développer un marché de recrutement en ligne. Notre sujet porte sur le développement d’un outil permettant d’optimiser le temps de traitement des données lors du processus de recrutement. Ceci est en automatisant la présélection et l’évaluation des profils des candidats. L’objectif est de fournir un score de compatibilité entre une offre et chaque candidat, ce score reflète à quel point son profil correspond aux spécifications du poste. Notre travail se concentre sur l’analyse de CVs ainsi que les besoins métier du service de recrutement.

La lisibilité dans le contexte de l'écologie numérique

Résumé
La pollution numérique est une notion qui est peu démocratisée chez les utilisateurs et les concepteurs d'applications, de logiciels et de sites web. Pourtant, l'envoi d'un mail ou une recherche sur un moteur de recherche est source de pollution en consommant de l'énergie. L'écologie numérique est une réponse à cette pollution grâce à des actions permettant de limiter les impacts environnementaux de nos équipements numériques. Nous souhaitons proposer, avec ce mémoire, des outils de traitement automatique des langues dans le contexte de l'écologie numérique. Pour cela, nous nous appuyons sur la bonne pratique de l'éco-conception qui vise à rendre les textes d'un site web les plus accessibles possible. Nous nous intéressons donc à la lisibilité des textes présents sur les sites web en expérimentant sur des clusters obtenus à l'aide d'algorithmes de classification non supervisée.

Prédiction de la difficulté des textes coréens pour les apprenants. Expériences de classification automatique

Résumé
Ce mémoire vise à prédire la difficulté de textes pour les apprenants du coréen. À partir d’un corpus élaboré de manuels destinés à l’enseignement du coréen, nous essayons de définir des variables lexicales et syntaxiques qui peuvent nous permettre de discriminer la lisibilité des textes. Après en avoir établi la liste, nous employons des coefficients de corrélation afin de sélectionner les plus pertinentes. Enfin, à l’aide de plusieurs algorithmes de classification automatique, nous essayons de déterminer le modèle le plus efficace.

Anonymisation des adresses postales dans des documents non-structurés : comparaison des méthodes symboliques et statistiques

Résumé
Le règlement général sur la protection des données est applicable dans l'ensemble des États membres de l'Union européenne depuis le 25 mai 2018. Le principal objectif de ce règlement est d'accroître la protection des personnes concernées par un traitement de leurs données à caractère personnel. Afin de les protéger, il convient donc d'anonymiser toutes données sensibles. La tâche d'anonymisation, qui est souvent liée à la tâche de reconnaissance des entités nommées, est le fil conducteur de ce mémoire. Notre travail se concentre essentiellement sur la comparaison de deux méthodes, une méthode symbolique et une méthode statistique, pour améliorer l'anonymisation des adresses physiques dans des courriels rédigés en anglais.

Optimisation d'un réseau de neurones récurrents appliqué à un corpus annoté automatiquement pour la reconnaissance d'entités nommées

Résumé
La création des outils qui automatisent l’extraction d’informations pertinentes est un besoin qui s’avère crucial pour les entreprises. Dans une démarche prospective de tendance ou de prédiction, une approche à base de dictionnaires se révèle très handicapante pour la détection de notions incluant de nouvelles entités. Afin de détecter une start-up émergente, un acteur en devenir du marché, ces dictionnaires doivent être mis à jour en continu par un sourcing permanent. Effectuer un tel sourcing manuellement est un travail important mobilisant de grandes ressources et donc difficile à tenir dans la durée. Un moyen d’automatiser la constitution de ces dictionnaires est la technologie de l’apprentissage automatique. Dans ce contexte, cette étude porte sur l’optimisation d’un système de reconnaissance d’entités nommées à base d’un réseau de neurones récurrents. Un nombre assez important d’expériences et de différents prétraitements au niveau du corpus, ont été réalisées. L’évaluation et l’analyse des résultats obtenus ont mené à l’établissement d’une typologie d’erreurs et ont surtout été la force motrice pour le choix de différents paramètres du réseau neuronal.

Response Generation in a Dialogue System: Bouncing Back with Word Embeddings

Résumé
Nous nous proposons de réaliser un système de dialogue expérimental robuste doté d'un mécanisme de génération de réponses sans règles linguistiques prédéfinies ni base de connaissances associée. Pour cela, nous nous inspirons d’études mettant en évidence la capacité des plongements lexicaux à encoder des propriétés morphologiques et sémantiques dans la composition de leurs vecteurs (Mikolov et al., 2013 ; Gladkova et al., 2016 ; Drozd et al., 2016 ; Finley et al., 2017). Notre hypothèse est qu’il est possible de générer une réponse sémantiquement pertinente à partir de l'énoncé précédant dans un dialogue. Les plongements lexicaux peuvent alors être considérés comme une modélisation de l'expérience sémantique du chatbot. Aussi avons-nous réalisé un système qui, lorsqu'il reçoit un input humain, analyse la phrase et en extrait les éléments pertinents. Ils sont utilisés pour extraire des plongements lexicaux des unités lexicales sémantiquement liées. Puis, un générateur de phrase prend le relais en prenant deux paramètres : la longueur maximale de la phrase et le mot du début, qui correspond à un des mots extraits des plongements lexicaux. Il en résulte un chatbot poétique, aux réponses parfois surréalistes, qui a toujours son mot à dire.

Classification de tweets politiques. Exploration sur la campagne présidentielle de 2017

Résumé
Très rapidement après sa création en 2006, Twitter est devenu une plateforme pour la conversation politique, servant à la fois d média de communication pour les personnalités politiques, d’espace de discussion entre militants, et de moyen pour n’importe quel citoyen lambda d’essayer de communiquer avec la personnalité politique de son choix. C’est ce dernier aspect de la conversation politique sur Twitter que nous avons traité dans le travail ici présenté. Dans un corpus de réponses à des tweets de candidats à l’élection présidentielle de 2017 postés pendant la campagne, nous avons tenté une classification automatique de leur polarité en comparant différents algorithmes. Parmi les choix que nous avons fait pour créer notre modèle, nous avons notamment essayé d’y intégrer des méta-données offertes par Twitter, afin d’inclure le plus d’informations possibles qui nous serviraient nous-même à comprendre le sens d’un tweet.