(一)定义
潜在语义分析又称为潜在语义索引(LSI),是一种使用数学和统计的方法对文本中的词语进行抽取,推断它们之间的语义关系,并建立一个语义索引,而将文档组织成语义空间结构的方法。它的出发点是文档的特征项与特征项之间存在着某种潜在的语义联系,消除词之间的相关性,简化文本向量的目的。
机器学习的主要难点在于“被阐述”的词法和“真正要表达”的语义的区别。产生这个问题的原因主要是:一个单词可能有多个意思和多个用法;同义词和近义词,而且根据不同的语境或其他因素,不同的单词也有可能表示相同的意思。
LSA是处理这类问题的著名技术,其主要思想就是映射高维向量到潜在语义空间,使其降维。LSA的目标就是要寻找到能够很好解决实体间词法和语义关系的数据映射。它通过奇异值分解(Singular Value Decomposition,SVD),把特征项和文档映射到同一个语义空间,对文档矩阵进行计算,提取K个最大的奇异值,以解决同义、近义和多义现象,近似表示原文档。
(二)LSA的优点
①LSA利用潜在的语义结构表示词条和文本,它反映的不再是简单的词条出现频率和分布关系,而是强化的语义关系。
②LSA模型中不仅能够进行传统的词条与词条、文本与文本之间的相似关系分析,而且能够分析词条与文本之间的相似关系,具有更好的灵活性。
③LSA用低维词条、文本向量代替原始的空间向量,可以有效处理大规模的文本库。
④LSA不同于传统的自然语言处理过程和人工智能程序,它是完全自动的。它可以自动地模拟人类的知识获取能力,甚至分类、预测的能力。
(三)LSA的不足
①LSA的核心在于奇异值分解,但是矩阵的SVD因对数据的变化较为敏感,同时缺乏先验信息的植入等而显得过分机械,从而使它的应用受到了一定的限制。(www.daowen.com)
②LSA在进行信息提取时,忽略词语的语法信息(甚至是忽略词语在句子中出现顺序),仍然是一种Bag of Words方法。它不能进行语法分析,忽略了某些事物之间的前后词序之间的关系,无法处理一些有前后顺序的事件对象。
③此外,LSA处理的对象是可见变量(文本集中出现的词语、文本),它不能通过计算得到词语的暗喻含义,以及类比推论含义。
(四)LSA的应用
LSA可以用于以下几个方面:
①在低维语义空间可对文档进行比较,进而可用于文档聚类和文档分类。
②在翻译好的文档上进行训练,可以发现不同语言的相似文档,可用于跨语言检索。
③发现词与词之间的关系,可用于同义词、歧义词检测。
④通过查询映射到语义空间,可进行信息检索。
⑤从语义的角度发现词语的相关性,可用于“选择题回答模型”(Multi Choice Questions Answering Model)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。