自然语言处理包括自然语言理解和自然语言生成两个方面。自然语言理解系统把自然语言转化为计算机程序更易于处理和理解的形式。自然语言生成系统则把与自然语言有关的计算机数据转化为自然语言。自然语言处理与自然语言理解的研究内容大致相当,自然语言生成往往与机器翻译等同,设计文本翻译和语音翻译。按照应用领域不同,介绍自然语言处理的几个主要研究方向。
(1)文字识别
文字识别(optical character recognition,OCR)借助计算机系统自动识别印刷体或者手写体文字,把它们转换为可供计算机处理的电子文本。对于文字的识别,主要研究字符的图像识别,而对于高性能的文字识别系统,往往需要同时研究语言理解技术。
(2)语音识别
语音识别(speech recognition)也称为自动语音识别(automatic speech recognition,ASR),目标是将人类语音中的词汇内容转换为计算机刻度的书面语表示。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。
(3)机器翻译
机器翻译(machine translation)研究借助计算机程序把文字或演讲从一种自然语言自动翻译成另一种自然语言,即把一个自然语言的字词变换为另一个自然语言的字词,使用语料库技术可实现更加复杂的自动翻译。
(4)自动文摘
自动文摘(automatic summarization或automatic abstracting)是应用计算机对指定的文章做摘要的过程,即把原文档的主要内容和含义自动归纳,提炼并形成摘要或缩写。常用的自动文摘是机械文摘,根据文章的外在特征提取能够表达该问中心思想的部分原文句子,并把它们组成连贯的摘要。
(5)句法分析
句法分析(syntax parsing)又称自然语言文法分析(parsing in natural language)。它运用自然语言的句法和其他相关知识来确定组成输入句各成分的功能,以建立一种数据结构并用于获取输入句意义的技术。
(6)文本分类
文本分类(text categorization/document classification)有称为文档分类,是在给定的分类系统和分类标准下,根据文本内容利用计算机自动判别文本类别,实现文本自动归类的过程,包括学习和分类两个过程。
(7)信息检索
信息检索(information retrieval)又称情报检索,是利用计算机系统从海量文档中查找用户需要的相关文档的查询方法和查询过程。(www.daowen.com)
(8)信息获取
信息获取(information extraction)主要是指利用计算机从大量的结构化或半结构化的文本中自动抽取特定的一类信息,并使其形成结构化数据,填入数据库供用户查询使用的过程,目标是允许计算费结构化的资料。
(9)信息过滤
信息过滤(information filtering)是指应用计算机系统自动识别和过滤那些满足特定条件的文档信息。一般指根据某些特定要求,对网络有害信息的自动识别,过滤和删除互联网某些敏感信息的过程,主要用于信息安全和防护等。
(10)自然语言生成
自然语言生成(natural language generation)是指将句法或语义信息的内部表示,转换为自然语言符号组成的符号串的过程,是一种从深层结构到表层结构的转换技术,是自然语言理解的逆过程。
(11)中文自动分词
中文自动分词(China word segmentation)是指使用计算机自动对中文文本进行词语的切分。中文自动分词是中文自然语言处理中一个最基本的环节。
(12)语音合成
语音合成(speech synthesis)又称为文语转换(text-to-speech conversion),是将书面文本自动转换成对应的语音表征。
(13)问答系统
问答系统(question answering system)是借助计算机系统对人提出问题的理解,通过自动推理等方法,在相关知识资源中自动求解答案,并对问题作出相应的回答。回答技术与语音技术、多模态输入输出技术、人机交互技术相结合,构成人机对话系统。
此外,自然语言处理的研究方向还有语言教学、词性标注、自动校对及讲话者识别、辨识、验证等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。