classification

Construction de corpus généralisé composé de verbatim-client pour l’apprentissage automatique

Résumé
Le mémoire actuel est dédié à la conception d’un corpus universel à partir de ressources existantes pour améliorer les performances du modèle d’apprentissage automatique réalisé par les ingénieurs afin d’attirer le plus grand nombre de clients possible. Ces ressources, se composant de verbatim transcrits de l’oral, viennent des domaines différents comme la banque, l’assurance, l’épargne et le retail. Les verbatim sont classifiés manuellement par les linguistes et fournis avec leurs matrices élaborées sur mesure pour chaque client. Nous analysons et décrivons ce type particulier de données et définissons un nouveau sens du terme verbatim, tel qu’il se propose au sein de notre travail. Nous réorganisons les données en une nouvelle matrice plus globale de manière à diminuer le nombre de classes et élaborons une méthodologie personnalisée de prétraitement et de normalisation des verbatim pour les préparer à l’étape de l’intégration dans l’outil à la base de l’apprentissage automatique. Nous testons et discutons également certaines méthodes de métriques de similarité du machine learning afin de comparer avec la classification manuelle.