• 1.摘要
  • 2.定义
  • 3.应用
  • 4.范例:tf-idf权重
  • 5.优点
  • 6.局限
  • 7.基于及扩展了向量空间模型的模型
  • 8.以向量空间模型为工具的软件
  • 9.进一步参考

向量空间模型

向量空间模型是一个把文本文件表示为标识符(比如索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相关排序。SMART是第一个使用这个模型的信息检索系统。

定义

文档和查询都用向量来表示。

image

image

每一维都对应于一个个别的词组。如果某个词组出现在了文档中,那它在向量中的值就非零。已经发展出了不少的方法来计算这些值,这些值叫做(词组)权重。其中一种最为知名的方式是tf-idf权重(见下面的例子)。

词组的定义按不同应用而定。典型的词组就是一个单一的词、关键词、或者较长的短语。如果将词语选为词组,那么向量的维数就是词汇表中的词语个数(出现在语料库中的不同词语的个数)。

通过向量运算,可以对各文档和各查询作比较。

应用

据文档相似度理论的假设,如要在一次关键词查询中计算各文档间的相关排序,只需比较每个文档向量和原先查询向量(跟文档向量的类型是相同的)之间的角度偏差。

实际上,计算向量之间夹角的余弦比直接计算夹角本身要简单。

image

其中image是文档向量(即右图中的d2)和查询向量(图中的q)的点乘。image是向量d2的模,而 image是向量q的模。向量的模通过下面的公式来计算:

image

由于这个模型所考虑的所有向量都是每个元素严格非负的,因此如果余弦值为零,则表示查询向量和文档向量是正交的,即不符合(换句话说,就是检索项在文档中没有找到)。如果要了解详细的信息可以查看余弦相似性这条目。

范例:tf-idf权重

在Salton,Wong和Yang 提出的传统向量空间模型中,一个词组在文档向量中的权重就是局部参数和全局参数的乘积,这就是著名的tf-idf模型(词频-逆向文档频率)。文档的权重向量d就是image,其中

image

image是词组t在文档d中出现的频率(一个局部参数)