【摘要】:Bag of Words,也叫作“词袋”,在信息检索中,Bag of Words模型假定对于一个文本,忽略其词序和语法、句法,将其仅仅看作是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词语都不受前面句子的影响而独立选择的。在这个模型中,一个文档被表示为一组单词的无序组合,而忽略了语法或者词序的部分。
Bag of Words,也叫作“词袋”,在信息检索中,Bag of Words模型假定对于一个文本,忽略其词序和语法、句法,将其仅仅看作是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词语都不受前面句子的影响而独立选择的。
在这个模型中,一个文档(Document)被表示为一组单词(Word/term)的无序组合,而忽略了语法或者词序的部分。BOW模型在传统NLP(Neuro-Linguistic Programming)领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,这种假设虽然对自然语言进行了简化,便于模型化,但在实际应用过程中,它却有一些不可避免的缺陷,比如:
(1)稀疏性(Sparseness)。对于大词典,尤其是包括了生僻字的词典,文档稀疏性不可避免。(www.daowen.com)
(2)多义词(Polysem)。一词多义在文档中是常见的现象,BOW模型只统计单词出现的次数,而忽略了它们之间的区别。
(3)同义词(Synonym)。同样地,在不同的文档中,或者在相同的文档中,可以有多个单词表示同一个意思。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
有关服务质量管理理论与技术的文章