recherche d’information

Etude sur l’indexation automatique de documents dans un contexte de recherche d’information à caractère sensible

Nom: 
NC
Prénom: 
-
Année: 
2003
Résumé du mémoire: 

L’accroissement incessant des documents pouvant être accessibles aux utilisateurs rend les techniques de Recherche Documentaire (RD) toujours plus perfectibles et souvent exigeantes en ressources linguistiques et en traitements spécifiques. Par ailleurs, il est couramment admis que les outils de TAL pour la Recherche Documentaire requièrent de vastes connaissances linguistiques.

Nous étudierons en première partie, les techniques et méthodes actuelles souvent utilisées dans le domaine de la recherche d’information. Dans une deuxième partie, nous tenterons de montrer l’intérêt d’une lemmatisation tout en discutant les avantages et les inconvénients d’une telle méthode à travers différentes langues indo‑européennes et non indo‑européennes.

Enfin, dans une troisième et dernière partie nous dégagerons les méthodes adaptées à la spécificité du travail de la DST, où nous avons effectué notre stage. Nous présenterons dans une étude de faisabilité, l’enrichissement de l’indexeur Mnogosearch grâce à l’optimisation de la pertinence des requêtes et la recherche d’améliorations linguistiques. Ainsi, nous analyserons les performances linguistiques relevant de la technique de lemmatisation appliquée à un modèle statistique, compte tenu du caractère sensible des documents. Cette étude nous mènera à construire un prototype simple illustrant la méthode choisie.

Approche pour le filtrage de données audio à large vocabulaire

Nom: 
NC
Prénom: 
-
Année: 
2003
Résumé du mémoire: 

Les performances des outils de reconnaissance vocale sur des données à large couverture lexicale permettent d’envisager des traitements automatiques de l’information contenue dans les textes oraux.

Le mémoire décrit une approche de filtrage audio menée au cours d’un stage de 6 mois dans l’entreprise Thales Recherche et Technologie. L’analyse menée sur l’existant et les besoins de l’entreprise a débouché sur la réalisation d’une plate-forme de filtrage audio : RAFT (Realtime Audio Filtering Tool). Elle intègre un système de reconnaissance vocale, Sphinx, et un module de filtrage à l’aide des FSM, librairie d’automates et de transducteurs pondérés. Le mémoire présente la plate-forme et les différents types de filtrage envisagés : à partir de la meilleure transcription, d’un treillis de mots ou d’un treillis de phonèmes.

Évaluation de l’interrogation monolingue d’un moteur de recherche cross-lingue : application pour l’arabe et analyse de la méthodologie.

Nom: 
RAMDANI
Prénom: 
-
Année: 
2006
Résumé du mémoire: 

Dans ce mémoire nous nous intéressons aux moteurs de recherche et plus particulièrement aux moteurs de recherche cross-lingues qui traitent la langue arabe.

Nous décrivons également les méthodologies d’évaluation des systèmes de recherche d’information appliquées lors des campagnes d’évaluation de grande envergure.

Par la suite nous procédons à l’évaluation de l’interrogation monolingue arabe d’un moteur de recherche cross-lingue développé par le LIC2M (Laboratoire d'Ingénierie de la Connaissance Multimédia Multilingue, CEA-LIST), et nous proposons un certain nombre de suggestions pour améliorer les méthodes des campagnes d’évaluation existantes.

Syndiquer le contenu