计算机视觉
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 人眼基本视觉特性

在人类对人脑的研究过程中发现了人眼具有很多视觉特性,而注意选择机制是其中尤为重要的特性,近年来深度学习的发展遇到一定的瓶颈,而其中的注意选择机制则异军突起,为深度学习打开了一个广阔的空间。人的视觉系统以分层的多通道信息处理为主要特征,它以在时间域和空间域逐级整合的方式实现视觉信息在视觉通路中的传播,完成对景物的概念化抽象。然而,在处理过程中,人脑对外界信息并不会一视同仁,而是表现出选择特性。这有两方面的原因:第一,可用资源的限制,由于脑的容积是有限的,远低于感觉器官所提供的信息总量,这在视觉系统尤为重要(据估计,人的视网膜所提供的信息量大约是在每秒108~109位,而大脑皮层细胞的总数仅为108~109个),这是通常所说的信息处理中的瓶颈效应。因此,要实时地处理全部信息是不可能的,视觉系统采取的策略是有所选择地对一部分信息进行处理。第二,由于外界环境信息并不全部都重要,因此大脑只需对部分重要的信息做出响应并进行处理即可。

视觉皮层神经元对视觉刺激的各种静态和动态特征都具有高度选择性,包括方位/方向选择性、空间频率选择性、速度选择性、双眼视差选择性、颜色选择性。

方位/方向选择性:视觉皮层细胞只有当刺激线条或边缘处在适宜的方位角并按一定的方向移动时,才表现出最大兴奋(最佳方位或最佳方向)。以细胞的放电频率相对于刺激方位和运动方向做成直方图,可以显示该细胞的方位和方向调谐特性。

空间频率选择性:正弦波调制的光栅是视觉实验中经常使用的刺激图形。用这种刺激图形的主要优点是便于对视觉反应的时空特性进行定量的数学分析。每个视觉皮层细胞都有一定的空间频率调谐。在同一皮层区内,不同细胞也有不同的空间频率选择性。

速度选择性:视觉皮层细胞对移动图形的反应比对静止的闪烁图形要强得多。每个皮层细胞不仅对运动的方向有选择性,而且要求一定的运动速度。只有当刺激图形在适宜的方向上以一定速度移动时,细胞反应才达到最大,这个速度称为该细胞的最佳速度。当移动速度高于或低于最佳速度时,反应都会减小。

双眼视差选择性:与外侧膝状体细胞不同,大部分视觉皮层细胞接受双眼输入。因此,每个细胞在左、右视网膜上都有一个感受野,这一对感受野在视网膜上的位置差(相对于注视点)称为“视差”。若左、右感受野与注视点的距离差为零,则表示该点正好在注视平面上;若两个感受野都向额侧偏离,则表示该细胞的调谐距离(最佳距离)比注视点远;若两个感受野向鼻侧偏离,则意味着该细胞的调谐距离比注视点近。

颜色选择性:同视网膜和外侧膝状体神经元一样,皮层细胞也具有颜色选择性。与皮层下的单颉颃式感受野不同,视觉皮层细胞的颜色感受野具有双颉颃式结构。例如,对于R-G(红—绿)型感受野来说,其颜色结构可能有两种形式。感受野中心可能被绿敏视锥细胞的输入兴奋,同时被红敏视锥细胞输入抑制,或者相反。外周对颜色的反应性质正好与中心相反。因此,双颉颃式感受野通过中心的颜色颉颃能分辨红色和绿色,通过中心与外周之间的相互作用能使红—绿对比的边缘得到增强。对于B-Y(蓝—黄)型感受野,情况也一样。

1.2.1 色彩空间

色彩是指人眼能根据光的不同频率而产生的不同感受。人眼能够识别色彩的原因是因为有能够吸收光的不同波长范围的三种视锥细胞,而这三种视锥细胞能辨别红色、绿色和蓝色这三种颜色。我们知道把红色、绿色和蓝色搭配在一起可以生成不同色彩的颜色,这就是一个色彩空间,如RGB。另外,色彩空间可以有多种,例如,使用色相、饱和度与明度来呈现一个色彩空间,这种方法被命名为HSI色彩空间。不同的色彩空间对应不同的应用,因此我们可以根据需要选择使用不同的色彩空间,它们之间也可以相互转化。一般情况下,色彩空间覆盖了自然界中绝大部分的颜色空间,这种空间一般称为色域。而根据人类视觉特性设计出来的色彩空间(如RGB空间)是,假定自然界中的颜色都可以被RGB三种颜色表达出来。而实际情况并不是这样,因为色域不是正规的三角形区域,所以由RGB所形成的三角形的色彩空间只是包括了自然界色域空间中的绝大部分区域。不同的RGB颜色空间对应了自然界色域空间中的不同区域。这样,采用不同颜色空间表示的图像,在不同的显示器上可能会呈现出不一样的效果,例如,苹果手机上的图像放到小米手机上观察,会发现其效果与在苹果手机上的效果不一样。具体可参见3.1节的内容。

1.2.2 多通道特性

视觉生理学和心理学实验显示,视觉皮层中的神经元被认为类似一个有方向的带通滤波器,能够在不同频率和方向上进行分解。视觉系统中包含了能够处理空间频率的单元,也称通道。例如,人的黑白视觉的几个倍频的通道存在于30°~60°之间;相似的关于人眼的彩色视觉通道存在于60°~130°之间。这些通道相当于把原始信号划分成子带后再进行处理。因此,在常见的计算机视觉处理中,采用数学变换来处理图像,形成不同频率成分的系数或子带,并进行后续的处理。典型的变换如傅里叶变换,离散余弦变换和离散小波变换,都可以对输入的图像进行频谱的划分处理,从而模拟视觉系统中的这种多通道特性,对不同通道的信号进行不同的处理,如数据压缩就是对高频分量进行粗糙的量化处理。

1.2.3 亮度自适应

人的视觉系统对光的适应范围是很宽的,大致范围约为10-2~106cd/m2。在背景照明不变的情况下,人的视觉的感光范围很窄,它可以根据光的强度来适当调节。当人眼适应某个环境亮度后,人的视觉会产生一个变动,随之调节到一个较小的范围,这就是亮度适应现象。

当人的视觉在适应背景照明不变的情况下,人眼能感知到对黑白色彩的范围缩小了。因此当图像重现时,即使图像重现的亮度与原本的实际景物的亮度不同,也能够保持重现图像和原本的实际图像之间亮度的相对比值,人们就能感觉到同样的真实感觉。

在连续背景下对噪声监测阈值的衡量表明,人类视觉和听觉都具有一定的掩蔽效应,也就是其察觉的亮度或响度对其周围的亮度或响度有掩蔽的效果。在人类视觉模型中,这种阈值衡量是一个非线性函数并依赖于局部的图像特征。一般而言,背景越亮或者越暗,人眼对该区域的敏感程度就越低,这就是亮度掩蔽特性。

1.2.4 对比度敏感度函数

对比度是一种度量亮度相对变化的量,大致可认为,对比度正比于激励信号的相对量度幅度。通常激励信号的颜色、时间频率、空间频率都与人眼对比度的敏感度有关,而对比度敏感函数(CSF)是定量描述这种关系的。当时域频率为零时,人类视觉系统的空间对比度敏感度函数被定义为调制转移函数。调制转移函数的研究指出,人类视觉系统对静止图像的空间频率响应表现为带通特性。因此,空间对比度敏感度可以使用带通滤波器来模拟。归一化后的对比度敏感度函数如图1.4所示。人眼的对比度敏感度不仅存在空间中,而且存在时域上,因此也可以通过简单的时域滤波来实现。

img

图1.4 归一化后的对比度敏感度函数

Kelly通过实验测量了不同频率下的对比度敏感度的数据。公式为

img

其中,fsft分别为激励的空间频率和时间频率。Kelly又发现,CSF可以用两个时空分离的部分线性组合近似逼近,这样可以降低模型的计算复杂度。很多真实模型都是用非线性方式表达的,但绝大部分算法都采用这种线性近似的方式对其进行逼近,或者采用二次逼近。其本质原理就是将原来的非线性函数进行泰勒展开,根据需要取其一阶、二阶直到给定阶数来进行近似。由于这种近似具有很好的收敛性质,因此该方法是解决实际工程问题的通用方法。

1.2.5 视觉掩蔽效应

在对CSF的研究过程中,为了使问题简化,假设视觉激励信号是一个常量或单一的频率信号。在观看图像时,很多激励信号会对人眼产生作用,此时人眼对一个激励的响应不仅受激励信号本身影响,而且同一时刻也会与其他激励信号的影响有关。在一个视觉激励存在的情况下,人类视觉系统会在其他激励影响下改变当前激励的可见阈值,这种现象称为视觉掩蔽效应。

常见的视觉掩蔽效应是19世纪的实验心理学家Ernst Weber在实验过程中发现的,人们能觉察到的背景强度的增量阈值(又称为刚好可区分的差异)与背景强度的比值是一个常量,这个关系就是韦伯定律。公式为

img

其中,ΔI表示增量阈值;I表示刺激的原始强度;k表示等式左侧的比例关系为常量,不会因为I的大小而变化。比值ΔI/I就是韦伯比(Weber Fraction),又称为费克纳比(Fechner Fraction)。

韦伯定律指出刚好可区分的差异(ΔI)与原刺激值的大小的比例是常量。例如,如果你在一个嘈杂的环境中,那么你必须放大音量才能让别人听见你说话,但是在一个非常安静的环境中你只需要耳语就足够了。类似地,当你测量不断变化的背景刚好可区分的增量阈值IΔ时,该阈值ΔI会与原始强度I的大小成正比。