理论教育 网络信息检索技术解析

网络信息检索技术解析

时间:2023-05-28 理论教育 版权反馈
【摘要】:计算机网络信息检索经历了布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索,并向着智能化方向发展。各种检索技术通过不同的检索算符表达出来。布尔逻辑表达式由布尔算符来连接检索词,以及表示运算优先级的括号组成的一种表达检索要求的算式。它在信息检索系统中应用十分广泛。在许多检索系统中,同时包括有限截词符与无限截词符。

网络信息检索技术解析

计算机网络信息检索经历了布尔检索、向量空间检索、模糊集合检索、概率检索、全文检索,发展到超文本检索,并向着智能化方向发展。

各种检索技术通过不同的检索算符表达出来。

1)检索算符

各个检索系统的检索算符不同,但有的检索算符是各种检索系统所通用的,现将常用的检索算符列于表7-1。

表7-1 常用检索算符

注:检索算符通常不区分大小写;在不同的检索系统中,检索算符各不相同,此表中只列出了一些常用的检索算符表达方式

(1)布尔逻辑算符

布尔检索是最早建立的检索理论,也是检索系统中应用最广泛的检索技术,是最简单、最基本的匹配模式,其理论基础是集合与布尔逻辑。它采用布尔逻辑表达式表达用户的检索要求,并通过一定的算法和实现手段进行检索。布尔逻辑表达式由布尔算符来连接检索词,以及表示运算优先级括号组成的一种表达检索要求的算式。

布尔逻辑算符是用来表达检索词之间的逻辑关系,包括逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)。

①逻辑与AND用于交叉概念或限定关系的组配,可以缩小检索范围,提高查准率。可使用“∗”或“&”来表示。其检索表达式为:“A AND B”或“A∗B”,即检索记录中必须同时包含A词与B词才算命中。例如:“中国∗对外贸易”。

②逻辑或OR用于并列概念的组配,可以扩大检索范围,提高查全率,可使用“+”或“|”来表示。其检索表达式为:“A OR B”或“A+B”,即检索记录中含有A词或者B词中的任何一词即可。例如:“高清晰电视+HDTV”。

③逻辑非NOT用于从原来的检索范围中排除不需要的概念,或影响检索结果的概念。可使用“-”来表示,其检索表达式为:“A NOT B”或“A-B”,即检索记录中包含A词但不含有B词。例如:“能源太阳能”。

一个检索式中如果包含多个逻辑算符,它们的执行顺序通常为:逻辑非、逻辑与、逻辑或,也有的系统按逻辑算符的先后次序执行,但可以用小括号( )改变执行的先后顺序,如(A+B)∗(C+D)即先执行“A与B”“C与D”的逻辑或运算,再执行逻辑与运算。

(2)位置算符

位置算符是用于表示检索词之间的位置关系的算符,大致包括以下4种级别:词级位置算符,其功能是限定检索词的相互位置满足某些条件;子字段或自然句级,其功能是限定检索词在同一子字段或自然句中;字段级,限定检索词在数据库记录的字段范围内;记录级,检索词在数据库的同一记录中。

不同的检索系统规定的位置算符可能不同,现以DIALOG系统提供的位置算符为例进行介绍。

①词级位置算符:包括(W)、(N)算符,表示检索词之间的顺序关系。

W是with的缩写,表示其两侧的检索词必须按前后顺序出现在记录中,且两词之间不允许插入其他词,只可能有空格或一个标点符号。其扩展为(nW),n为自然数,表示其两侧的检索词之间最多可插入n个词。

例如:“microwave(W)radar”,表示radar必须紧跟在microwave之后,中间不允许插入其他词,且位置不能颠倒。“micrwave(3W)radar”表示microwave与radar之间最多可插入3个词,但两词的位置不能颠倒。

N是near的缩写,(N)表示其两侧的检索词位置可以颠倒,在两词之间不能插入其他词。(nN)为其扩展,表示其两侧的检索词之间最多可插入n个词。

例如:“optical(N)fiber”,其检索中的记录可包含“optical fiber”或“fiber optical”。“optical(2N)fiber”,表示optical与fiber之间可插入2个词,其先后顺序可以颠倒。

②子字段级或自然句级:用(S)表示,S为subfield或sentence的缩写。表示其两侧的检索词必须出现在同一子字段中,即一个句子或一个短语中。

例如:microwave(S)radar,即microwave与radar在同一子字段或一个句子中。

③字段级:用(F)表示,F为field的缩写,例如:microwave(F)radar,表示microwave与radar必须有同一个字段中出现。

④记录级:用(C)表示,C为citation的缩写,例如:microwave(C)radar,要求micrawave与radar出现在同一记录中,且对它们的相对位置或次序没有任何限制,其作用与布尔逻辑算符AND相同。

(3)截词符

“截词符”应用在截词检索(Truncation)方法中。截词符又称通配符,不同的检索系统中使用的符号不同,通常用“∗”“?”或“#”来表示。加在检索词的词干或不完整的词型后(或中间),用以表示一组概念相关的词。它在信息检索系统中应用十分广泛。

在西文语言文字中,一个词可能有多种形态,而这些不同的形态,大多只具有语法上的意义,而从用户的角度来看,它们是相同的;同一个词又有英美的不同拼写。在中文文献中,如果两个词的某一部分相同,其内在概念上应有必然的联系,检索时不可忽视。因此,大多数的检索系统都采用截词符的方式减少检索词的输入量,提高检索的效率,并在一定程度上避免漏检。

所谓“截词”是指检索者将检索词在他认为合适的地方截断,截词分为有限截词与无限截词。有限截词是指具体说明截去字符的数量,无限截词则是指截去的字符数不限。在许多检索系统中,同时包括有限截词符与无限截词符。

按照截断的位置来分,截词有以下4种:

①后截词:将截词符放于一个字符串的后面,表示其右面的有限或无限个字符不影响该字符串的检索。例如:采用检索词“acid∗”,可检索出含有“acid”“acids”“acidic”或“acidicty”等词的记录。

②中间截词:将截词符放于一个字符串的中间,表示这个位置上的任意字符不影响该字符串的检索。它对于解决英美不同拼写、不规则的单复数变化等很有。例如:analy?er可表示analyzer和analyser等不同拼写。

③前截词:将截词符放于一个字符串的前面,表示其前面的有限或无限个字符不影响该字符串的检索。例如:“∗computer”可表示“macrocomputer”“minicomputer”“microcomputer”或“computer”等词。

④前后截词:字符串前后都有截词符,检索词与被检索词之间只需任意部分匹配即可。例如:“∗computer∗”或表示“minicomputer”“minicomputers”“microcomputer”“microcomputers”或“computer”等词。

在检索系统中,常使用后截词和中间截词。在使用截词符进行检索时,要注意检索字符串不能太短,不能因截词而改变词意,否则会造成大量误检,使得检索失败。

(4)字段符

“字段符”用于代表字段名称。在计算机检索中,常使用限制检索字段,即指定检索词在记录中出现的字段,以提高检索效率。

限制检索字段通常有两种方式:其一,下拉菜单选择检索字段;其二,输入检索字段符。各个检索系统中,输入检索字段符的方式不同,通常有:

字段符=检索词,例如:au=林为干;

检索词in字段符,例如:radar in ti

计算机检索中,数据库记录中几乎所有字段都可用作检索字段,现将最常用的检索字段列于表7-2。

表7-2 常用检索字段表

2)构造检索式(www.daowen.com)

检索式是检索策略的具体表达,它是将各检索单元(其中最多的是表达主题内容的检索词)之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。

构造检索式分为4步:提取检索词、输入检索词、选择检索字段、组配检索词。

(1)提取检索词

提取检索词是计算机检索成败的关键,信息用户的课题名称及描述语句往往与检索系统中的检索词有一定差距,在信息检索时,需要从课题的名称及描述语句出发,经过切分、删除、替换、补充等步骤,提取出检索词。

①切分:切分就是以词为单位划分句子或词组。例如,我们可将“基于隐马柯夫模式的离线汉字识别系统”切分为“基于|隐|马柯夫|模式|的|离线|汉字|识别|系统”。

词是语义切分的最小单元,也是检索的最小单元。切分必须彻底,必须“到词为止”,比如“羊毛”可切分为“羊|毛”。同时,切分也要适度,不能因切分而改变语义。比如,不能将“计算机”切分“计算|机”,不能将“操作系统”切分为“操作|系统”。

经过切分之后,检索课题转换成为词的集合,而这在一组检索词中,往往只有一个或少数几个词是核心词,是必须使用的关键词,而其他的词是限定这个核心词的。

②删除:在用户给的课题描述语句中,往往有不具有检索意义的虚词及其他关键词,必须删除不需要的词,将语句转换成为关键词的集合。删除包括删除不具有检索意义的虚词及其关键词,不具有检索意义的词有介词连词、助词、副词等虚词及与课题相关度不大的其他关键词。经过删除,词句转换成关键词集合。例如“基于Web的数据库”,经删除后,可转换为:Web|数据库。删除也包括删除过分宽泛和过分具体的限定词:过分宽泛的词没有触及问题的实质,太苛刻、太狭义、过分具体的限制条件则会造成挂一漏万。过分宽泛和过分具体的词均属于不必要的限定词,应加以去掉。删除还包括:删除存在蕴涵关系的可合并词。如果两个词之间存在相互蕴涵的关系,可酌情去掉其中的一个而保留另一个。所谓两个词之间存在相互蕴涵的关系,是指一个词内在地包含有另一个词的含义。

③替换:用户可能使用表达欠佳的词来叙述检索要求,给的词也许模糊、宽泛、狭窄或不可行,这时,可以概念替换法,引入更明确、更具体、更本质、更可行的概念作为替换词代替原有词,或者作为同义词和相关词增加到原来的概念组中同时保留原有词,或用相应的分类号替代关健词。

④补充:

补充还原词组:许多名词是经由词组缩略而成,因些,可以采用与缩略相反的操作——补充还原,导出一个词的来源词组,并将来源词组作为原词的同义词,补充进检索式。例如:

模拟计算机✍模拟计算机+模拟系统∗计算机

Lirad✍lirad+laser radar

补充同义词或相关词:一个概念,往往包含上位词、下位词;在中文中,又有许多同义词,在英语中,一些词有英美的不同拼写,而一些术语又有首字母缩写,在提取检索词,一定要考虑到各种同义词、相关词及同族词。

例如:“毫米波”其英文有:“millimeter wave”与“millimetre wave”的不同拼写,又有MMW的缩写,其下位词有:Ka波段、W波段等。

⑤增加限义词:一词多义是一个普遍现象,例如,“线路”,既可是电子线路,又可是交通线路,为避免一词多义而导致的误检,应适当增加限义词,其方法有两种:用“逻辑乘”增加限定词;用“逻辑非”排除异义词。例如:

线路→线路∗(电子+无线电+…)或

线路→线路-(道路+车辆+…)

(2)输入检索词

在计算机网络检索中,提供了多种检索词的输入方式。包括:直接输入、索引中取词、拷贝输入、利用保存的检索式。

①直接输入:是计算机检索输入中最常用的方法,它是在检索输入框中,逐个字符地输入由单词、词组或已有检索集合号组成的检索式。在任何计算机检索中,都可以使用该方法。但是,如果检索式较复杂,需要输入的检索词较多,在联机检索系统中,由于考虑费用因素,往往采用预先处理好检索式,在联机检索时直接调用检索式的方法。

②索引中选词:大多数检索系统提供从索引中取词的功能。但是联机检索由于费用的原因,一般不采用该方法,而该方法在光盘检索、网络数据库检索时经常使用。当不能准确判断检索用词时,或对检索用词的拼写不清楚时,从索引中提取检索词非常有用。例如,进行著者检索、刊名检索、机构名称检索、文献类型检索时,常采用该输入方法。

③拷贝输入:所谓拷贝输入,是指拷贝已有的检索式中的某些检索词或从检索记录中拷贝所需检索词,再粘贴到检索输入框中,大多数计算机检索系统都提供该输入法,但在联机检索中不常用。光盘检索与网络检索中常使用该方法,尤其是在检索记录中发现一些没有预先考虑到但是又很需要的检索词时,该方法是非常有用的。

④利用保存的检索式:许多计算机检索系统提供保存检索式的功能,在需要时,调用已保存检索式,并可对其进行修改。该方法已普遍用于联机检索与光盘换盘检索中,从而节省了输入检索式的时间。如果对某一课题进行跟踪检索时,该方法尤其有用。

(3)选择检索字段

为提高检索效果,大多数计算机检索都可以使用限定字段的检索方法。在外文计算机机检中,不限定检索字段,往往是在所有字段或基本字段中检索,如果需要限定字段,则选择需要限定的字段,其方法有两种:在检索菜单中选择需要检索的字段检索;也可直接在检索输入框中,输入带有字符段的检索式。在中文计算机机检中,往往必须先选择检索字段,其检索字段并不太多,但大多数提供在“全文”中进行检索。

(4)组配检索词

在选择好检索字段,确定了检索词后,利用系统规定的检索算符将检索词组配起来,才能准确地表达检索意图。

系统规定的检索算符通常包括:布尔逻辑算符、位置算符、截词符、字段符等,各个不同的计算机检索系统,其检索算符不同,因此,在检索前需要熟悉各系统的检索算符。

在同一系统中,采用同样的检索词,但使用不同的检索算符制定的检索式表达的检索策略所得到的检索结果会有所不同。

3)调整检索式

计算机检索交互性较强,在检索的过程中,信息检索者应及时调整检索策略,以提高检索效率。

(1)扩大检索以便提高查全率

当获得的检索结果较少时,需要扩大检索以提高查全率,可采取以下方法来调整检索式:

①选全同义词、相关词,或采用分类号检索,以增加网罗度;

②调整位置算符,由严变松,比如由词级位置算符变为字段级位置算符;

③去掉次要的或者太专指的概念组面,减少AND运算;

④取消某些过严的限制符,如字段限制符等。

(2)缩小检索以便提高查准率

当获得的检索结果较多时,需要缩小检索以便提高查准率,可采用下列方法来调整检索式:

①提高检索提问式的专指度,增加或者换用下位词或专指性较强的自由词;

②调整位置算符,使得约束条件由松变严,比如由字段级位置算符变为词级位置算符;

③增加概念组面,进行AND运算;

④采用字段限制符,将检索词限定在某一指定字段中。

在全新的信息时代,信息就是商品、信息就是财富、信息就是资源、信息就是机会,因此人人都渴望及时获得有用的信息。面对这样一个新知识、新技术不断涌现,知识新陈代谢频繁的世界,想要一劳永逸地获取知识是不可能的。我们只有终身学习,不断地获取和更新知识,才能不被社会所淘汰。要想有效、快速地获取和利用最新信息,就必须掌握信息检索的技能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈