0%

注意力机制源于对人类视觉的研究。人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。在计算机视觉领域,该机制被引入来进行视觉信息处理。

2014年NiNNet用较少参数就取得了Alexnet的效果,开启了对卷积结构的探索。受此启发,GoogLeNet引入了一种能够产生稠密的数据的网络结构,既能增加神经网络表现,又能保证计算资源的使用效率。GoogLeNet及其后续系列模型表明了把图像不同尺度的信息进行融合可以得到图像更好的表征。

LeNet可以说是CNN的开端,麻雀虽小,但五脏俱全,卷积层、池化层、全连接层,这些都是现代CNN网络的基本组件。而AlexNet是另一个具有历史意义的网络结构,它的成功表示了深度学习重回历史舞台。

卷积网络前面的卷积层捕捉图像局部、细节信息,有小的感受野,即输出图像的每个像素只利用输入图像很小的一个范围。后面的卷积层感受野逐层加大,用于捕获图像更复杂,更抽象的信息。经过多个卷积层的运算,最后得到图像在各个不同尺度的抽象表示。

制作全景图需要用到图像拼接技术,也就是将数张有重叠部分的图像(可能是不同时间、不同视角或者不同传感器获得的)拼成一幅无缝的高分辨率图像的技术。

在日常生活中经常会遇到因为拍摄时拍的不好,导致拍出来的图片歪歪扭扭的,为此需要用到图像矫正技术。

所谓关键点匹配是指寻找两幅图像之间的特征像素点的对应关系,从而确定两幅图像的位置关系。