Offre de stage - Extraction de concepts par AFC dans des corpus

Contexte

L'analyse formelle de concepts (AFC) (Wille, 1982) est une méthode d'extraction de connaissances à partir de données, qui s'appuie sur le lien entre les objets et leurs attributs. Celle-ci extrait des "concepts", liés les uns aux autres par une relation d'ordre partiel. Cette méthode a l'avantage de proposer un compromis entre l'énumération exhaustive de nombreuses combinaisons d'attributs possibles et une sélection trop naïve de ces attributs, isolément et/ou par régression.

Plusieurs travaux ont déjà abordé ce sujet, dont (Ilieva, Ormandjieva, 2007), (Falk, Gardent, 2010), (Kaytoue, Kuznetsov, Napoli, 2011).

Le stage proposé vise à explorer les utilisations possibles de l'AFC pour l'exploration de données textuelles dans les corpus. Il comportera l'implémentation ou l'utilisation de logiciel pour conduire l'AFC, son exécution sur des corpus, la comparaison qualitative et quantitative avec des algorithmes traditionnels en extraction d'information (TF.IDF) et des algorithmes plus récents de construction d'espaces par méthodes distributionnelles (embeddgins Word2Vec / FastText).

Objectifs principaux

- État de l'art sur l'adaptation de la FCA aux données textuelles
- Formalisation d'une méthode adéquate pour la recherche d'informations
- Implémentation de l'algorithme pour extraire les concepts
- Expérimentations sur des jeux de données
- Évaluation de la couverture, de la complétude, de la précision des concepts
- Comparaison avec des méthodes traditionnelles ou plus récentes
- Utilisation de l'algorithme pour l'exploration de corpus

Profil recherché

- M2 informatique et TAL
- Programmation en python
- Bonne compréhension des méthodes de fouille de données
- Motivation et intérêt pour les problématiques de recherche

Précisions sur l'offre

- Durée du stage : 5 mois à temps plein
- Date de début : mai 2018
- Rémunération : tarif en vigueur (~550€/mois, rbst de 50% navigo)
- Lieu : Inalco, 2 rue de Lille, 75007 Paris

Pour candidater, envoyez votre CV et faites part de vos motivations à Damien Nouvel : damien.nouvel@inalco.fr.

Références

- Ingrid Falk, Claire Gardent (2010). Bootstrapping a Classification of French Verbs Using Formal Concept Analysis.. Interdisciplinary Workshop on Verbs.
- Magda G. Ilieva, Olga Ormandjieva. (2007). Natural Language Processing and Formal Concept Analysis Technologies for Automatic Building of Domain Model.
- Mehdi Kaytoue, Sergei O. Kuznetsov, Amedeo Napoli (2011), Sébastien Duplessis. Mining gene expression data with pattern structures in formal concept analysis. Information Sciences, 181-10.
- Wille, R. (1982) Restructuring lattice theory: an approach based on hierarchies of concepts.