• 1.摘要
  • 2.基本信息
  • 3.计算机视觉中的词包模型
  • 4.基于词包的文本文档表示

词包

这篇文章介绍了计算机视觉,特别是对象分类(object categorization)中的词包模型。下文中提到的词包模型除非特别说明都是在计算机视觉范围内。这项技术也被称为“bag of features model”。

基本信息

  • 中文名

    词包

  • 外文名

    bag of features model

  • 概述

    计算机视觉

  • 特别

    对象分类中的词包模型

  • 词包表示法

    作为进一步图像处理的基本步骤

计算机视觉中的词包模型

*来自维基百科

在介绍词包模型前,我们先简单回忆下自然语言处理中的词包模型。词包在自然语言处理中是一项非常流行的代表文档的技术,它忽略了文档中词的顺序。例如,在这个模型下,“a good book”和“book good a”是一样的。词包模型应用基于词典的建模方法,每个文档像一个包(因此忽略了次序),包含了一些来着词典的词。计算机视觉的研究人员用了一个相似的思想来表示图像(这的图像可能特指一个特殊的对象,例如一张汽车的图像)。例如,把一张图像当做一个文档,从图像中提取出来的特征就相当于词(通常还需要一些额外的操作,下面会提到)。词包表示法可以作为进一步图像处理的基本步骤,如对象分类。

基于词包的文本文档表示

我们首先来回忆下自然语言处理中基于词包的文本文档表示。下面是量个简单的文本文档的示例:

“John likes to watch movies.Mary likes too.”

“John also likes to watch football games.”

基于这两个文本文档,我们可以构建一个词典:

Dictionary={1:“John”2:“likes”3:“to”4:“watch”5:“movies”6:“also”7:“football”8:“games”9:“Mary”10:“too”}

这个词典中有10个不同的词。如果使用词典的标记,每个文档可以用一个10维的向量来表示:

“[1,2,1,1,1,0,0,0,1,0]”“[1,1,1,1,0,1,1,1,0,0]”

向量的每一维数值代表了相应的词的个数(这也是直方图表示法)。我们可以看到,这种向量表示法不保持原句子中词的顺序。这种表示法有一些成功的应用,例如latent Dirichlet allocation。

基于词包模型的图像表示

为了用词包模型来表示图像,图像也可以看做一个文档。同样的,图像中的“词”也要定义。然后图像中的词不像文档中是现成的。为了得到图像中的词,通常要经历以下三个步骤,特征检测,特征描述,码本构造。词包模型也可以定义为:基于独立的特征(feature)的的直方图表示。基于内容的图像标记和检索(CBIR)是首先应用这一图像表示技术的。

特征检测

给定一副图像,特征检测就是要提取出图像中的一些片(或者叫区域),这些就认为是基本元素词的候选者。

规则网格

规则网格可能是最简单有效的提取特征的方法。在这种方法中,图像被平均分成一些快。这个方法得到了非常好的自然场景分类的结果。该方法的缺陷就是它基本上没有使用图像本身的内容。

感兴趣点的检测