科学是靠intuition、logic、experience、trick逐渐构筑的。
做科研可以站在巨人的肩膀上,很多idea可以相互借鉴。
目录
- 引言
- scale-space extrema detection
- accurate keypoint localzation
- orientation assignment
- keypoint descriptor
- object recognition
- conclusion
引言
这篇文章发布在IJCV 2004年,全文一共28页,是CV界引用最多(4w+)的文章之一。SIFT全称scale invariant feature transform,即是尺寸不变性特征转换。它可以将图像数据转化成与尺寸无关的本地特征。该特征很稳定,图像尺寸、旋转角度、纺射曲折、视角变化、噪音以及光照变化对该特征的影响都比较小。
这篇文章主要讲两个事情:如何提取SIFT descriptor以及如何利用它做object recognition。
scale-space extrema detection
关键点检测的第一步是找到它们在不同物体视野情况下都不变的位置和大小。要想找到对尺寸无关的特征,可以在很多不同尺寸的图像中寻找稳定的共同特征,这就是尺度空间的来源(scale space)。图像的尺度空间就是由一组经过不同参数的高斯滤波后的图像矩阵构成。
Marr Hildreth在谈到Laplacian of Gaussian filter时谈到:
Zero crossings that coincide over several scales are physically significant.
同时,实验也表明,尺寸正则化后的LoG中的极值是最稳定的图像特征。
因此计算LoG应该可以获得SIFT特征。LoG可以理解为图像矩阵的二阶导数,但是计算二阶导数代价大,因此作者提出一种逼近的方式(DoG,difference of Gaussian)来得到LoG。
下面是这种逼近方式的理论基础:
在物理世界中,经过对一些现象的研究,科学家发现:
而根据导数的定义:
所以我们可以得到DoG与LoG的关系:
这样做的好处是用只需要做减法的DoG代替了求导的LoG。
下面作者给出计算DoG的方法: