乔姆斯基(Chomsky)以有限自动机为工具刻画语言的文法,把有限状态语言定义为由有限状态文法生成的语言,于1956年建立了自然语言的有限状态模型。Chomsky采用代数和集合论,把形式语言定义为符号序列,根据形式文法中所使用的规则集,定义了下列4种形式的文法:
(1)无约束短语结构文法,又称0型文法。
(2)上下文有关文法,又称1型文法。
(3)上下文无关文法,又称2型文法。
(4)正则文法,即有限状态文法,又称3型文法。
型号越高所受约束越多,生成能力就越弱,能生成的语言集就越小,也就是说型号的描述能力就越弱。下面简要讨论这几类文法。
正则文法又称有限状态文法,只能生成非常简单的句子。
正则文法有两种形式:左线性文法和右线性文法。在一部左线性文法中,所有规则必须采用如下形式:
其中A∈Vn,x∈Vn,t∈Vt,即A、B都是单独的非终结符,£是单独的终结符。而在一部右线性文法中,所有规则必须如下书写:
上下文无关文法的生成能力略强于正则文法。在一部上下文无关文法中,每一条规则都采用如下的形式:(www.daowen.com)
其中A∈Vn,x∈V*,即每条产生式规则的左侧必须是一个单独的非终结符。在这种体系中,规则被应用时不依赖于符号A所处的上下文,因此称为上下文无关文法。
上下文有关文法是一种满足以下约束的短语结构文法:对于每一条形式为:
的产生式,y的长度(即符号串y中的符号个数)总是大于或等于x的长度,而且x,y∈V*。例如:AB→CDE是上下文有关文法中一条合法的产生式,但ABC→DE不是。
这一约束可以保证上下文有关文法是递归的。这样,如果编写一个程序,在读人一个字符串后能最终判断出这个字符串是或不是由这种文法所定义的语言中的一个句子。
自然语言是一种与上下文有关的语言,上下文有关语言需要用1型文法描述。文法规则允许其左部有多个符号(至少包括一个非终结符),以指示上下文相关性,即上下文有关指的是对非终结符进行替换时需要考虑该符号所处的上下文环境。但要求规则的右部符号的个数不少于左部,以确保语言的递归性。对于产生式:
当用y替换A时,只能在上下文为a和b时才可进行。
由于上下文无关语言的句法分析远比上下文有关语言有效,因此希望在增强上下文无关语言的句法分析的基础上,实现自然语言的自动理解。ATN就是基于这种思想实现的一种自然语言句法分析技术。
如果不对短语结构文法的产生式规则的两边做更多的限制,而仅要求x中至少含有一个非终结符,那么即成为乔姆斯基体系中生成能力最强的一种形式文法,即无约束短语结构文法。
0型文法是非递归的文法,即无法在读入一个字符串后,最终判断出这个字符串是或不是由这种文法所定义的语言中的一个句子。因此,0型文法很少用于自然语言处理。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。