词包

这篇文章介绍了计算机视觉，特别是对象分类（object categorization）中的词包模型。下文中提到的词包模型除非特别说明都是在计算机视觉范围内。这项技术也被称为“bag of features model”。

基本信息

中文名
词包
外文名
bag of features model
概述
计算机视觉
特别
对象分类中的词包模型
词包表示法
作为进一步图像处理的基本步骤

计算机视觉中的词包模型

*来自维基百科

在介绍词包模型前，我们先简单回忆下自然语言处理中的词包模型。词包在自然语言处理中是一项非常流行的代表文档的技术，它忽略了文档中词的顺序。例如，在这个模型下，“a good book”和“book good a”是一样的。词包模型应用基于词典的建模方法，每个文档像一个包（因此忽略了次序），包含了一些来着词典的词。计算机视觉的研究人员用了一个相似的思想来表示图像（这的图像可能特指一个特殊的对象，例如一张汽车的图像）。例如，把一张图像当做一个文档，从图像中提取出来的特征就相当于词（通常还需要一些额外的操作，下面会提到）。词包表示法可以作为进一步图像处理的基本步骤，如对象分类。

基于词包的文本文档表示

我们首先来回忆下自然语言处理中基于词包的文本文档表示。下面是量个简单的文本文档的示例：

“John likes to watch movies.Mary likes too.”

“John also likes to watch football games.”

基于这两个文本文档，我们可以构建一个词典：

Dictionary={1:“John”2:“likes”3:“to”4:“watch”5:“movies”6:“also”7:“football”8:“games”9:“Mary”10:“too”}

这个词典中有10个不同的词。如果使用词典的标记，每个文档可以用一个10维的向量来表示：

“[1,2,1,1,1,0,0,0,1,0]”“[1,1,1,1,0,1,1,1,0,0]”

向量的每一维数值代表了相应的词的个数（这也是直方图表示法）。我们可以看到，这种向量表示法不保持原句子中词的顺序。这种表示法有一些成功的应用，例如latent Dirichlet allocation。

基于词包模型的图像表示

为了用词包模型来表示图像，图像也可以看做一个文档。同样的，图像中的“词”也要定义。然后图像中的词不像文档中是现成的。为了得到图像中的词，通常要经历以下三个步骤，特征检测，特征描述，码本构造。词包模型也可以定义为：基于独立的特征（feature）的的直方图表示。基于内容的图像标记和检索（CBIR）是首先应用这一图像表示技术的。

特征检测

给定一副图像，特征检测就是要提取出图像中的一些片（或者叫区域），这些就认为是基本元素词的候选者。

规则网格

规则网格可能是最简单有效的提取特征的方法。在这种方法中，图像被平均分成一些快。这个方法得到了非常好的自然场景分类的结果。该方法的缺陷就是它基本上没有使用图像本身的内容。

感兴趣点的检测