尺度不变特征变换(SIFT)特征提取分析

阅读原文时间：2021年04月21日阅读：1

基本介绍

关于SIFT算法，2004年David Lowe发表在Int. Journal of Computer Vision的经典论文[2]中，对尺度空间(scale space)是这样定义：It has been shown by Koenderink (1984) and Lindeberg (1994) that under a
variety of reasonable assumptions the only possible scale-space kernel is the Gaussian function.Therefore,the scale space of an image is defined as a function L(x, y,delta) that is produced from
the convolution of a variable-scale Gaussian G(x,y,delta), with an input image I(x, y).

因此，一个图像的尺度空间L(x,y,delta)定义为原始图像I (x,y)与一个可变尺度的2-D高斯函数G(x,y,delta) 卷积运算。关于图象处理中的空间域卷积运算，可以参考经典的图像处理教材(如：[5]书中，叙述了如何在离散空间进行运算的例子和说明)。而论文中
delta为希腊字母，具体地含义，请参考论文[2]所述。在此不作介绍。

SIFT算法中，提到了尺度空间，请问什么是尺度和尺度空间呢? 在上述理解的基础上，尺度就是受delta这个参数控制的表示。而不同的L(x,y,delta)就构成了尺度空间(Space ,我理解，由于描述图像的时候，一般用连续函数比较好描述公式，所以，采用空间集合，空间的概念正规一些)，实际上，具体计算的时候，即使连续的高斯函数，都要被离散为（一般为奇数大小）(2*k+1)
*(2*k+1)矩阵，来和数字图像进行卷积运算。

算法描述

SIFT算法主要包括两个阶段，一个是SIFT特征的生成，即从多幅图像中提取对尺度缩放、旋转、亮度变化无关的特征向量；第二阶段是SIFT特征向量的匹配。SIFT方法中的低层次特征提取是选取那些显特征，这些特征具有图像尺度(特征大小)和旋转不变性，而且对光照变化也具有一定程度的不变性。此外，SIFT方法还可以减少由遮挡、杂乱和噪声所引起的低提取概率。整个算法由以下几个部分组成。

1.尺度空间极值检测(Scale-space extrema detection)

这是一个搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。尺度空间是由一原始图像经过不同尺度的高斯模糊所得的一组图像空间定义为：

高斯差分尺度空间是极值点由高斯差分尺度空间确定。而选择高斯差分尺度空间计算极值点是原因有两点；第一、为了容易计算，不同尺度空间相减即可；第二、差分尺度空间和高斯拉普拉斯函数近似相等。高斯金塔及高斯差分金字塔:对于一幅图像I,建立其在不同尺度(scale)的图像，也成为子八度(octave)，这是为了scale-invariant，也就是在任何尺度都能够有对应的特征点，第一个子八度的scale为原图大小，后面每个octave为上一个octave降采样的结果，即原图的1/4(长宽分别减半)，构成下一个子八度(高一层金字塔)。建立如下图所示：

在极值比较的过程中，每一组图像的首末两层是无法进行极值比较的，为了满足尺度变化的连续性，我们在每一组图像的顶层继续用高斯模糊生成了 3
幅图像，高斯金字塔有每组S+3层图像。DOG金字塔每组有S+2层图像.

假设s=3，即每个塔里有3层，则k=21/s=21/3，那么可得Gaussian
Space和DoG Space 分别有3个（s个）和2个（s-1个）分量，在DoG Space中，1st-octave两项分别是σ,kσ; 2nd-octave两项分别是2σ,2kσ.由于无法比较极值，我们必须在高斯空间继续添加高斯模糊项，使得形成σ,kσ,k2σ,k3σ,k4σ。这样就可以选择DoG
space中的中间三项kσ,k2σ,k3σ（只有左右都有才能有极值），那么下一octave中（由上一层降采样获得）所得三项即为2kσ,2k2σ,2k3σ，其首项2kσ=24/3。刚好与上一octave末项k3σ=23/3尺度变化连续起来，所以每次要在Gaussian
Space添加3项，每组（塔）共S+3层图像，相应的DoG金字塔有S+2层图像。

使用LOG能够很好地找到找到图像中的兴趣点，但是计算量很大，所以使用DOG图像的极大极极小值近似寻找特征点DOG算子计算简单是尺度归一化的LOG算子的近似。有关DOG寻找特征点的介绍及方法详见博文【特征提取】DOG算子。

2.关键点定位(Keypoint localization)

在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。通过拟和3-D二次函数以精确确定点的位置和尺度，同时去除低对比度的关键点和不稳定的边缘响应点，以增强匹配稳定性，提高噪声能力。我们对尺度空间DoG函数进行曲线拟合。利用DoG函数在尺度空间定义为：

当比值为负值时直接丢弃，当 (α+β)/ αβ>
(r+1)2/r, throw it out. 在Lowe的文章中，取r＝10。

3.方向确定(Orientation assignment)

基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性。关键点的位置确定了，接下来我们确定关键点的尺度和方向，算出每个关键点的幅度和方向。通过尺度不变性求极值点，可以使其具有缩放不变的性质，利用关键点邻域像素的梯度方向分布特性，我们可以为每个关键点指定方向参数方向，从而使描述子对图像旋转具有不变性，我们通过求每个极值点的梯度来为极值点赋予方向。

图左部分的中央为当前关键点的位置，每个小格代表关键点邻域所在尺度空间的一个像素，利用公式求得每个像素的梯度幅值与梯度方向，箭头方向代表该像素的梯度方向，箭头长度代表梯度模值，然后用高斯窗口对其进行加权运算。图中蓝色的圈代表高斯加权的范围（越靠近关键点的像素梯度方向信息贡献越大）。然后在每4×4的小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，即可形成一个种子点，如图右部分示。此图中一个关键点由2×2共4个种子点组成，每个种子点有8个方向向量信息。这种邻域方向性信息联合的思想增强了算法抗噪声的能力，同时对于含有定位误差的特征匹配也提供了较好的容错性。

当两幅图像的Sift特征向量生成以后，下一步就可以采用关键点特征向量的欧式距离来作为两幅图像中关键点的相似性判定度量。取图1的某个关键点，通过遍历找到图像2中的距离最近的两个关键点。在这两个关键点中，如果次近距离除以最近距离小于某个阙值，则判定为一对匹配点。Lowe实验结果表明：描述子采用4×4×8＝128维向量表征，综合效果最优(不变性与独特性)。计算keypoint周围的16x16的window中每一个像素的梯度，而且使用高斯下降函数降低远离中心的权重。

在每个4*4的1/16象限中，通过加权梯度值加到直方图8个方向区间中的一个，计算出一个梯度方向直方图。这样就可以对每个feature形成一个4*4*8=128维的描述子，每一维都可以表示4*4个格子中一个的scale/orientation. 将这个向量归一化之后，就进一步去除了光照的影响。

4.关键点描述(Keypoint descriptor)

在每个关键点周围的邻域内，在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变化。

首先，确定计算描述子所需的图像区域，描述子梯度方向直方图由关键点所在尺度的模糊图像计算产生。图像区域的半径通过下式计算：

补充概念

1.尺度空间理论****尺度空间理论目的是模拟图像数据的多尺度特征。其基本思想是在视觉信息图像信息处理模型中引入一个被视为尺度的参数, 通过连续变化尺度参数获得不同尺度下的视觉处理信息, 然后综合这些信息以深入地挖掘图像的本质特征。

2. 局部特征提取算法sift SIFT算法由D.G.Lowe 1999年提出，2004年完善总结。后来Y.Ke将其描述子部分用PCA代替直方图的方式，对其进行改进。SIFT算法是一种提取局部特征的算法，在尺度空间寻找极值点，提取位置，尺度，旋转不变量。SIFT特征是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性。独特性好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配。多量性，即使少数的几个物体也可以产生大量SIFT特征向量。可扩展性，可以很方便的与其他形式的特征向量进行联合。

**3.
*什么是局部特征？***局部特征从总体上说是图像或在视觉领域中一些有别于其周围的地方。局部特征通常是描述一块区域，使其能具有高可区分度。局部特征的好坏直接会决定着后面分类、识别是否会得到一个好的结果。局部特征需具备的特性：重复性、可区分性、准确性、数量以及效率、不变性。

4. 描述子生成的细节 以极值点为中心点，并且以此点所处于的高斯尺度sigma值作为半径因子。对于远离中心点的梯度值降低对其所处区域的直方图的贡献，防止一些突变的影响。每个极值点对其进行三线性插值，这样可以把此极值点的贡献均衡的分到直方图中相邻的柱子上

5. PCA-SIFT算法 PCA-SIFT与标准SIFT有相同的亚像素位置，尺度和主方向。但在第4步计算描述子的设计，采用的主成分分析的技术。其特征描述子计算的部分：用特征点周围的41×41的像斑计算它的主元，并用PCA-SIFT将原来的2×39×39维的向量降成20维，以达到更精确的表示方式。它的主要步骤为，对每一个关键点：在关键点周围提取一个41×41的像斑于给定的尺度，旋转到它的主方向；计算39×39水平和垂直的梯度，形成一个大小为3042的矢量；用预先计算好的投影矩阵n×3042与此矢量相乘；这样生成一个大小为n的PCA-SIFT描述子。

6.归一化处理 在求出4*4*8的128维特征向量后，此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响。而图像的对比度变化相当于每个像素点乘上一个因子，光照变化是每个像素点加上一个值，但这些对图像归一化的梯度没有影响。因此将特征向量的长度归一化，则可以进一步去除光照变化的影响。对于一些非线性的光照变化，SIFT并不具备不变性，但由于这类变化影响的主要是梯度的幅值变化，对梯度的方向影响较小，因此作者通过限制梯度幅值的值来减少这类变化造成的影响。

参考资料

[1] David G. Lowe,"Object recognition from local scale-invariant features," International Conference
on Computer Vision,Corfu, Greece (September 1999), pp. 1150-115.

[2] David G. Lowe,"Distinctive image features from scale-invariant keypoints,"International Journal
of Computer Vision, 60, 2 (2004), pp. 91-110.

[3] Scale invariant feature Transform From Wikipedia, the free encyclopedia.

[4] Demo Software:SIFT Keypoint Detctor.

[5]
Rafael C.Gonzalez, Rechard E.Woods at. el , "Digital Image Processing Using MatLab (Second Edition)",Gatesamark Publishing.

扩展链接

[1] SIFT: Scale Invariant Feature Transform .

[2] Scale Invariant Feature Transform Form www. scholarpedia.org.

[3] C语言版源代码 Scale Invariant Feature Transform(SIFT).

手机扫一扫

移动阅读更方便

你可能感兴趣的文章