Grammaires

La segmentation en unités pertinentes et leur étiquetage en catégories morphosyntaxiques constituent les tâches basiques de l’analyse automatique des langues. Dès que l’on travaille sur des fragments de données ou de textes multilingues, des incertitudes surgissent : la simple comparaison physique de lexies en allemand, en anglais et en français révèle l’ampleur des problèmes épistémologiques sous-jacents.

Les études menées de longue main dans nos rangs sur la comparativité des grammaires descriptives se poursuivent, dans le double intérêt de l’enseignement et de la recherche. L’engagement pris dans le programme EVALDA pour l’évaluation de méthodologies d’alignement de textes parallèles illustre bien l’importance de ces questions théoriques et l’intérêt des recherches qui peuvent être menées à l’INaLCO.

La difficulté à définir une approche commune pour l’analyse et l’étiquetage des catégories grammaticales et fonctionnelles des langues et des textes reste un obstacle majeur pour le développement des techniques et des outils du TAL multilingue. Nous comptons apporter notre contribution à la fois par des travaux théoriques et par l’expérience pratique de projets concrets comme SAFIR, PRINCIP, e-lexiques...

Dans le cadre du traitement du japonais, ER-TIM a réalisé une étude sur la fouille de texte (text mining) en japonais, mais également un recensement et une évaluation des outils du TAL japonais aussi bien pour l'analyse morpho-syntaxique (Chasen, Basic, etc.) que pour la normalisation de corpus (Text Mining Tool, Tesseract 2.01). Ce type d'étude, coûteuse en temps, devrait être conduite sur d'autres langues, de façon à faire de l'INaLCO un spécialiste du TAL outillé.