理论教育 汉语信息处理技术的最新进展

汉语信息处理技术的最新进展

时间:2023-06-15 理论教育 版权反馈
【摘要】:汉语语言文字信息处理包括汉字信息处理和汉语信息处理,是自然语言处理的一个重要组成部分。在汉字信息处理中,有两个问题最引人注目,是汉字的输入问题,二是汉字的排版、印刷问题。汉语切分是汉语信息处理的基础,大多数其他汉语信息处理技术和应用都会在汉语切分的基础上进行,因此汉语切分是汉语语言信息处理技术中开展得最早的研究主题之一。

汉语信息处理技术的最新进展

汉语语言文字信息处理包括汉字信息处理和汉语信息处理,是自然语言处理的一个重要组成部分。汉字信息处理主要指以汉字为处理对象的相关技术,包括汉字字符集的确定、编码、字形描述与生成、存储、输入、输出、编辑、排版以及字频统计和汉字属性库构造等等。在汉字信息处理中,有两个问题最引人注目,是汉字的输入问题,二是汉字的排版、印刷问题。速记专家唐亚伟先生发明的亚伟中文速录机,实现了由手写速记跨越到机械速记的历史性突破,2005年92岁高龄的唐亚伟获得我国中文信息处理领域的最高科学技术奖——钱伟长中文信息处理科学技术奖一等奖。以北京大学王选院士为代表的从事汉字照排和印刷技术研究的老一代专家,在解决巨量汉字字形信息存储和输出等问题中做出了卓越贡献。1981年,第一台汉字激光照排系统“原理性样机”通过鉴定,1985年,激光照排系统在新华社正式运行。

汉语切分是汉语信息处理的基础,大多数其他汉语信息处理技术和应用都会在汉语切分的基础上进行,因此汉语切分是汉语语言信息处理技术中开展得最早的研究主题之一。不同于英语,汉语是以字串的形式出现,词与词之间没有空格,自动识别字串中的词即为汉语切分。不仅仅是在国内、在国际上也有很多学者加入到这个主题的研究中。国际上最有影响的计算语言学联合会ACL(Association of Computational Linguistics)下设的特殊兴趣小组SIGHAN(Special Interest Group of HAN)从2003年开始组织汉语切分技术的国际评测,一直持续到现在。(www.daowen.com)

以冯志伟教授等为代表的计算语言学学者早期在机器翻译研究方面做了大量的工作,并总结出不少宝贵的经验和方法,为后来的计算语言学研究奠定了基础。清华大学的黄昌宁教授领导的计算语言学研究实验室,主要从事基于语料库的汉语理解。近年来,在自动分词、自动建造知识库、自动生成句法规则、自动统计字、词、短语的使用及关联频率方面做了大量的工作并发表了不少极具参考价值的论文。东北大学的姚天顺教授和哈尔宾工业大学的王开铸教授等在计算语言学的语篇理解方面(特别在结合语义方面)的研究进行了有价值的尝试并取得了一定的成绩。中国科学院的黄曾阳先生在进行自然语言理解研究中,经历了长达8年的探索和总结,在语义表达方面归纳出一套具有自己特色的理论,提出了HNC(Hierarchical Network of Concept)概念层次网络理论。它是面向整个自然语言理解的理论框架。这个理论框架是以语义表达为基础,并以一种概念化、层次化和网络化的形式来实现对知识的表达,这一理论的提出为语义处理开辟了一条新路。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈