Recherche

自然语言处理曾长时间停留在单语应用,而当下纷繁交错的多语数码文件则给自然语言处理语言学家开阔了的新视野,同时更丰富了其科研前景。这一观念的转变反映在语言处理几个不同的层面, 从文字编码问题到数码文件形式和内容问题。我们的研究正是这些问题一个综合, 即从多学科的角度(语言,信息,文档)来对以上问题进行分析和处理。
因此,我们倡导的研究方案结合形态元素(文件结构,编码)和内容元素 (语义)这两个层面。这两个不可分离的层面既具有重大的理论意义, 又开拓了技术、教学及其他研究的范围。
多语言多媒体数码文件的性质是我们所面对的一项复杂课题, 其实质在于衡量这类文件所具有的应用前景。
问题1:多语现象的关键
1. 文字的编码,转码
该课题是CRIM/TIM科研组成立以来的基础研究之一. INaLCO学院内100种语言的编码、转码需求就足以证明该研究的意义。我们已开发了一些专用的编码/转码程序,包括特别针对阿拉伯语,西里尔语,希腊语以及非洲语言(如EVALDA,ATOS或ALPCU项目)... (阅读更多)
近几年的思考表明,针对多语现象,编码的多重多样性和应用的多样化等问题, 其解决方案在于对对象符号综合表现形式的运用。
数十年在多语种、多类文字背景下的研究,使我们从“文字即图形标志”这一定义发展认识到了另一复杂概念,即把文字作为虚拟对象(所有不同程度的属性)。
在应用方面,CRIM/TIM科研组是以引导多语环境中多媒体软件可移植性评测为目标。科研组已测试了Flash软件对泰米尔语,汉语,格鲁吉亚语,希腊语和阿拉伯语的可移植性。为使INaLCO和CRIM/TIM科研组成为一个公认的多语信息处理专业机构,该经验将被扩展到其他书写系统,并提供在线的结果查阅。
在远程教育项目(ATOS, ALPCU(编辑版本))及移动学习(anglais [at] mobile.fr)项目完成后,CRIM/TIM科研组也希望将这项评估应用到移动学习, 即评估各移动设备的浏览器对不同书写系统的兼容性。目前,这些信息完全被生产商所忽略。科研组希望创建这类资源,这一举动也将使科研组成为多语研究领域一个举足轻重的机构。
2. 多语法和自然语言处理
词汇的适当切割和形态句法类别的标识是自然语言分析的基本操作。当我们处理数据或多语文字片段时,不确定因素就会出现:德语,英语和法语词汇的简单物理对比揭示了隐性认识论问题的广泛性... (阅读更多)
我们对描述性语法可比性的长期研究具有教育和科研双重意义。在EVALDA项目中,为评估平行文本的对齐方法所提出的观点 很好地说明了这些理论问题的重要性和这些可在INALCO进行的科学研究的价值。
确定一个共同的研究方式以便于语言和文本的语法类别和功能类别的分析和标识, 其难度仍是多语自然语言处理工具和技术发展的主要障碍。我们希望通过理论研究和具体项目的实践经验对上述难题作出贡献,实际的项目包括SAFIR, PRINCIP, 电子词典...
在日文处理方面,CRIM/TIM科研组已完成了一项关于日文文本挖掘(text mining)的研究,还对日语自然语言处理工具的进行了清查和评估,其工具包括日语语态句法分析工具(Chasen, Basic, 等)和语料库标准化工具(Text Mining Tool, Tesseract 2.01)。这类费时的研究应延续到其他语种, 这将使INaLCO成为工具化的自然语言处理的专业机构。
3. 语料语言学和多语现象
单语或双语的实践(主要是法语,英语)使语料对齐中语言差别和符号文本差别的影响被低估。多语视角使这种在语言工程中不加区别的方法受到审视,如平行文本的对齐(翻译文本大多来自英语)... (阅读更多)
单语或双语的实践(主要是法语,英语)使语料对齐中语言差别和符号文本差别的影响被低估。多语视角使这种在语言工程中不加区别的方法受到审视,如平行文本的对齐(翻译文本大多来自英语)。现在应就双语和多语文本语料的类型提出的建议以利于双语和多语文本的处理和开发。这也决定了从语料库中获取的数据(如词汇,术语等)的准确度。 在CRIM 进行的工业项目(EDF, CNES...)给了我们充分的机会来证实这些假设。此外,在这些实践中,针对罕见语言的文本,我们已对其语料处理特殊工具的获取的难度进行了评估。
我们与工业研究机构(Xerox集团的Xelda公司)还有大学(Hyperbase,Lexico, Syntex, Acabit...) 的合作使多语环境中所缺乏的功能得以发展。我们期望与我们的合作伙伴拓展这一首创精神以建立一个多语专用资源中心。VIGITERMES(针对日语)项目和C-MANTIC(针对汉语)项目已使我们实现了对亚洲语种的重要语料的自动化处理。
平行语料和可比语料技术涉及多个现在及将开发的应用程序, 因此这也是我们技术研究的重点。
从应用角度来看,e-lexiques 项目显示出了平行语料库的两个陷阱:一是翻译过程降低了目标语言的质量并无法在其基础上建立可靠的词汇资源,再就是在收集语料时没有考虑到文本类别,使得词汇资源的建立 ”无所不包”地混合一般语言和特殊语言。因此,CRIM/TIM科研组将研究转向多语环境中文本类别的自动检测,以便可以处理同类文本。至于文本的处理,为了词汇资源的创建,科研组倾向于可比语料库更具体系的用法。
3. 语言自动处理中的 “对象”表达
刚刚阐述的目标强调了理论思考和对以下信息发展主题的思考: “抽象”符号的表达(对应文字,字形,字素的类别,...); « 链 »(某对象的整体的表达和处理 “语素”(词典中唯一或不进入点)在抽象类别格式下的表达;在对象关系复杂的形式下,同质数据库(词汇,文本或超文本)或异质数据库(文字-图片/ 图表-声音)的表达; 在对象关系复杂的形式下,非树型结构句法和不可投射结构句法的表达。
问题2:数码文件
内容的数码化及其开发的信息化扰乱了内容从创建到阅览的形成和开发环境。语言工程因而面临着一些全新且非常复杂的的问题, 这些问题涉及到了数码化文件(文本)形式及内容的理论和实践。
1. 形式和格式
书纸文本演变到数码文档的过程,产生了符号学中所说的文本形式配置的不稳定性,从而TIM科研组集中了以下技能:数码资源的激增 - 更不必说在多语背景中 – 生成语言信号对象,应先给予该对象一个标识, 然后才可将其看作是某特定程序的合适文本资源(如在词典,信息监控中数据的建设)(阅读更多)
在这方面,我们还将提到ER-TIM科研组在2006年3月参与编写了 «文档和现代特色» (RTP-DOC)。
目前,数码文件表达的发展, 实际上趋向了区分观念,包括物理区分(不同的的文件可能位于网络上不同位置),结构型数据区分(标记符定义中的“文档类型定义, 例如“DTD ”。),结构化文本区分(例如“xml ”格式)和显示区分 (结构的物理实现,例如“xsl”格式)。
尽管融入了语料库语言学的问题,以上难题远远超出其技术层面,特别是与超文本和多媒体(元数据,图像,文字的处理等)相关的。
至于数码文件本身,在网站(社交网站,Web 2.0)及其应用工具(博客,维基)中的新式编辑模式意味着含科学知识在内的知识传播的一次深刻变革。
保证对不同团体(学者,图书馆管理员和档案管理员,出版商)知识创作(杂志,博客,电子书,科技出版物,等等。)的信息监控是TIM科研组的目标之一,另一目标是测试一个以维基(wiki)技术为基础的新式出版模型。
2. 类别与话语
稳定物体(书纸文本)随着空间和时间演变到文件的过程,如倍增变形的敏感文字流, 值得我们重新从类别和语言学方面思考它们的特性(文本和话语中的性别方面)... (阅读更多)
社会需求大量集中在文献资料和翻译领域,使得大多数人以建立有关科学术语和技术术语资源为目的。直到最近,规模有限的专业文本语料容易收集到。这些语料在进行术语提取前,已被档案员通过快速的推理性类型确定方式进行检索。这种做法已经过时。当我们在网页的基础上建立语料库时,如果我们想显示这些文件的特征以便对其进行筛选,网页文本的不一性(摘要,索引,译文,混杂碎片等),附加其来源和作者的鉴定难度,使我们需另寻其法。这些在Princip项目中已面对的问题构成了我们目前科研的首要领域。
对付的方法直接关系到信息过滤关键, 甚至服务于多个应用类别的适当数据的创建。
当前,对创建语义网实践本体论的讨论被认为是同一问题的相对面。简单主义把单文独字当做语言工程的唯一范围,我们将超越这种态度,把文本置于研究的中心。