2353
{{thumb}}
0
Eloi Zalczer, François-Xavier Thomas, Laurent Chanas, Gabriele Facciolo and Frédéric Guichard
DXOMARK; 24-26 Quai Alphonse Le Gallo, 92100 Boulogne-Billancourt, France
摘要
随着深度成像已集成到越来越多的消费类设备中,制造商必须应对新的挑战。诸如计算散景和增强现实之类的应用程序需要密集且精确分割深度图才能获得良好的结果。目前很多设备使用多种不同的技术来估算深度图,例如飞行时间传感器,立体相机,结构光传感器,相位检测像素或其它组合。因此,评估深度图的质量变得越来越重要,但是与生成深度图的技术是无关的。我们的工作目标是使用专门设计的图卡提出基于单个场景的最终结果进行评估的方法。我们考虑嵌入在照片中的深度图和RGB图片,这些深度图对于用户不可见,但由专用软件使用。考虑的某些方面是RGB与深度之间的空间对齐,深度一致性以及对纹理变化的稳定性。这项工作还提供了感知评估和自动评估的对比。
图1
导语
在过去的几年中,计算散景以及其它各种基于深度的摄影功能已成为旗舰智能手机的主要卖点。与大多数深度成像技术相比,这些应用对质量的要求不同。散景模拟需要深度图与RGB图片非常精确地对齐,并且很大程度上会受到伪影和分割误差的影响。另一方面,距离评估通常不太重要,并且场景元素的相对深度级别很重要。此外,这些应用程序使用各种类型的深度成像技术,范围覆盖了单图像深度学习到飞行时间传感器。
在本文中,我们提出了深度图的质量评估框架,以此作为摄影应用的一种手段。我们评估的质量的不同方面可以分为两大类:分割和深度一致性。分割问题的示例是边缘偏移或对细节元素的检测不完整。在深度一致性下,我们重新组合了对纹理变化的敏感性,深度评估和深度规则性等方面。
我们的方法基于单个场景,旨在突出显示这些缺陷并使其可以进行测量。该场景包含一个二维图卡和一个背景。我们的测量算法会输出多个指标,大部分是局部指标。我们提出一个功能级别的度量标准,而不是单一的全局评估标准,以使制造商能够准确评估其设备的优缺点。
下一部分将介绍我们设计的测试环境中的主要图卡。剩下的部分将介绍用于我们分析的实验设置和测试协议。最后,我们介绍我们提出的度量标准以及已实现的算法,并将分析结果与感知评估进行对比。
相关工作
在过去的几年中,已经发表了许多有关深度图质量评估的论文。可以区分几种趋势。 Haddad [6]和Kim [11]专注于应用深度图,例如自由视点电视或3D电视,而Koch [12]提出了一组度量标准来评估基于CNN的单图像深度评估技术输出的图像。几篇论文[1,19]提出了基于应用于立体场景下的2D质量度量(PSNR,SSIM,VIF等)的评估方法。其它的,例如Benoit [2],提出了视差失真的局部质量度量。最后,还有很多论文[3、14、13、18、15]提出了神经网络体系结构,从单个图像中提取深度图,使用各种质量指标进行评估。
这些论文的共同点是它们没有充分利用对场景的了解。它们旨在使用真实情况和图像之间的比较,这使得它们可以轻松针对KITTI [4],NYU v2 [17]或Middlebury [16]等数据集进行测试。我们的创新之处在于使用精确已知的实验室设置来针对特定的已知缺陷计算局部度量。
图卡设计
实验设置的主要部分是图卡。我们的目标是设计图卡元素以模仿某些现实生活情况,并突出显示某些特定缺陷。因此,其概念很大程度上基于观察和实验原型。作为起始点,我们使用了图1所示的散景图。该工作旨在进行感官评估,由于不完全了解图卡的几何形状,因此不适合自动测量。但是,它使我们能够观察和分类许多缺陷。
根据这些观察,我们建立了一系列有趣的元素放入新图卡中。从纹理开始,很明显,强烈的纹理变化导致某些设备推断深度变化,即使没有深度变化。这很可能是由某种引导过滤[8]引起的,该过滤导致背景细节出现在深度图中。此外,对于使用立体视觉的设备而言,高度重复的图案非常棘手,而低反射率的表面通常会导致飞行时间或结构光传感器的深度估计出现问题。
在非常靠近的元素(例如手指)周围,分割问题最为明显。在一些微小元素的末端附近也可以看到伪像,这是因为深度传感器的分辨率可能不足,并且滤波算法已经产生了作用。在低对比度区域中,有时无法检测到前景和背景之间的差异,从而突出了背景的重要性。
对于面部检测几乎在智能手机的深度估计过程中普遍使用,因此模拟头部在我们的设置中也是必不可少的元素。有些设备可能会推断出头部下方的身体形状,从而带来一些有趣的缺陷。此外,可以使用各种质量指标进行评估,面部是人体感知最集中的部位,也是微小元素最多的部位。
之所以决定创建一个如图2所示的二维图卡,是因为与3D图卡相比,测量更加容易。以足够的精度更容易了解几何形状,并且避免了遮挡和透视问题。表1中给出了图2中感兴趣区域的图例。图卡的底部仅用作支撑,因此可以在不浪费任何可用空间的情况下进行支撑。该图卡印刷在铝塑板上,这使其坚固且相当平坦。
图2
表1
实验设置
我们的实验设置包括图卡和背景,这样就提供了两种深度。背景的对比度和图案对最终结果有很大影响,尤其是连接或非常靠近前景元素的部分。因此,选择要使用的背景并非易事。我们的第一个想法是使用统一的白色背景,但这对立体设备来说是不公平的,并且与现实生活中的情况完全不同。最后,我们的选择是使用与[7]的bokeh设置相同的背景。
这种背景非常具有挑战性,因为它包含许多微小元素,但是对于每种技术,这又都是公平的,这正是我们主要追求的目标。图案被印在背景幕布上,因此是平坦的。为了确保结果在设备之间是可比的,在每种情况下都使用相同的图像。在拍摄过程中,需要根据设备的焦距来调整从图卡到背景的距离以及从设备到图卡的距离,使用以下公式d2 = (f2/f1)*d1,其中d2是设备与元素之间的新距离,d1是先前的距离,f1和f2是每个设备的焦距。
在拍摄过程中,我们使用两种照明条件:1000 lux的D65光,50 lux的A光。在这两种情况下,在三脚架上拍摄五张照片,每次拍摄都要开启自动对焦。图卡与设备的传感器平行或成小角度(≤10°)放置。
度量和算法
我们工作的目标是提出一些局部指标,而不是一个全局指标。在每种情况下,我们都从一个已知的缺陷开始,并试图找到一个度量该缺陷的量。我们所有的指标都利用对场景的近乎完美的知识来计算相关值。
线性问题
首先,我们需要对场景的真实情况进行准确评估。通过考虑图卡和背景都是平坦的,深度就会变得容易建模。但是,深度图的解释存在很多问题。当前没有深度图编码的标准,并且制造商使用的格式通常没有文件记录。由于绝对距离在此用例中并不重要,因此深度图不会直接与实际距离相关联。从距离到灰度的转换是由未知函数完成的,我们假设该函数严格单调且连续。为了测量精度,我们需要在深度图空间中投影真实情况,并以此评估该函数。
图卡边角处的四个标记使我们即使在复杂的条件下也可以知道其在RGB图像中的位置,使得误差小于两个像素。因此,提取深度图的前景像素变为可能,并将参数模型拟合到真实情况。但是,需要权衡取舍:过于复杂的模型可能会导致过度拟合的风险,并且我们将无法检测到表面上的缺陷;另一方面,另一个极端的解决方案是考虑图卡完全与传感器平行,并为图卡使用单个深度值,但这会在拍摄过程中留出太多的人为误差空间。
合理的解决方案是尝试几种参数模型(例如线性,对数,逆...),因为图卡几乎与传感器平行,我们观察到的变化太小且复杂,无法提取任何有意义的趋势。作为说明,图3显示了沿图卡宽度绘制的灰度图。因此,我们为此拟合选择了简单的线性模型。
图3
为了减少异常值的影响,我们使用稳定的Huber回归距离[9]。该参数模型使我们能够为每个前景像素推断出预期的深度值。这样,我们可以计算每个像素的预期背景值和前景值之间的差异,并使用该差异来调整我们的度量中的阈值。我们将这种差异称为像素动态。在计算区域指标时,我们使用区域中的最大像素动态,并将其称为区域动态。根据编码而言,前景像素的值可能比背景的值(暗)要低(暗),或者相反:此后,我们将假定最低的深度值对应于更靠近相机的位置。
这项工作的唯一全局度量称为误差区域,它对应于像素比例,其中期望值和实际值之间的差异超过像素动态的10%。在裁剪区域上,对背景和前景进行类似计算,以避免由于取景造成的错误。此测量的第二个输出是一个误差图(图4),使用户能够一目了然地看到有问题的区域在哪里。
图4
除此度量外,我们还介绍了平面度误差。它基本上是相同的度量标准,应用于图2图卡的特定部分。这些区域是面部,棋盘(如图5所示)和两个纹理条,使我们能够快速查看哪个部分是最重要的。对设备具有挑战性。
图5
边缘分割
我们将理想边缘定义为背景和前景在深度级别上存在着巨大差异。这种巨大差异应该发生在单个像素上,并与边缘的理想位置完美对齐。我们对于这种情况进行处理的第一步是使用双线性插值法在深度图上应用单应性,以重新对齐目标的四个标记,这意味着图卡的边缘与图像的边缘完全平行。我们选择沿着图卡的边缘(如图6所示)定义十二个感兴趣的区域,每一侧三个。
图6
基于梯度的测量。我们指标的上半部分是基于梯度的指标,是针对边缘的空间特征的。这些度量标准的第一步是使用Sobel [10]滤波器对感兴趣区域的深度图进行卷积。这将准确计算边缘的位置和边缘梯度的值。以此为基准,我们定义以下三个指标。在以下所有公式中,n表示边缘的长度,Xedge表示深度图边缘沿垂直轴的位置。该位置理想的应该是恒定的,因为理想边缘与图像边缘对齐。 Xt是边缘的理想位置,也是恒定的。
像素偏移(PS)度量是检测到的边缘与理想边缘之间的平均距离。它表示为
该指标是平均值,它不能告诉我们这种变化是否是全局的,或者平均值是否受到一些异常值的影响。这是我们下一个度量标准的目的,该度量标准由边缘位置的标准差组成。定义标准差:
最后,我们的第三个空间度量是相对梯度(RG)。 它是对边缘梯度值的度量,而不是其位置。 如前所述,预期行为是背景值和前景值之间的巨大差异。边缘的每个点上的梯度则应等于像素动态。 计算的值是感兴趣区域上的平均结果,表示为像素动态的比例。 图7给出了一些建议指标的直观表示。
图7
基于直方图的测量。我们指标的后半部分是基于先前定义的边缘感兴趣区域中深度值的分布。他们通过对整个感兴趣区域而不是仅沿着主要边缘的深度进行精细分析,这是对前三个模型进行了补充。它们的目的是检测缺陷,例如深度图中出现的背景细节或深度阶跃效果。
我们定义的第一个指标是像素分区(PR)指标。我们首先找到深度值直方图的两个主峰,分别对应于背景值和前景值,然后将直方图乘以以峰为中心的双峰高斯分布。PR度量是此加权直方图的总和除以该区域中像素的总数。高斯窗口的高度为1,这意味着度量不能超过1,并且它们的标准偏差与动态比例成正比。视图表示在图8中。
图8
高斯窗口的使用使只有完美的设备才能获得完美的,等于1的PR,深度变化很小的设备不会受到太大的影响。深度变化越大,PR越低。
该度量可以作为单个指示值很好地使用,但是它并未显示深度图的哪一部分是最有问题的。作为补充,我们还使用两个主峰的平均值作为分离阈值来计算感兴趣区域中的背景和前景标准偏差。
最后一个度量是深度直方图以2为底的熵,定义为,其中pk是对应于归一化直方图的第k个区间的概率。这具有显示所有像素具有相同或不同的深度值的优点,从而使用户能够区分阶梯效应和梯度效应。
镂空位置检测和动态
有关图卡镂空位置的主要指标是动态比例(DP)。由于我们实验设置的背景是平坦的,因此预期的行为是每个镂空位置的值应等于图卡周围的背景值。但是,由于过滤问题和深度传感器的不准确性,在实际的深度图图像中通常不是这种情况。在给定区域上按以下方式计算此度量:
其中为在坐标(i,j)处的深度图的值,是使用先前定义的参数模型确定图卡的最大估计深度,为背景的深度。使用参数模型可以使度量标准对可能出现在镂空位置内部或镂空位置周围的缺陷具有鲁棒性。在某些情况下,设备检测到的镂空位置是较近的而不是较远的,在这种情况下,度量可能为负。
对于渐进式镂空(请参见表1),我们通过轮廓覆盖的方式(CC),可将检测到的镂空面积与理想面积的比例进行测量。根据镂空的大小和它后面的背景元素,设备经常只能检测到镂空的某些部分。使用的阈值是预期背景值和前景值之间的平均值。度量是镂空区域中像素值大于阈值的像素的比例。图9给出了一个例子。
图9
图10
表2
表3
对于两个三角形孔,此度量将不会那么有趣,因为它们的面积要大得多。其中最有趣的方面是,其尖端经常被错误地滤除,如图10中的示例所示。因此,我们定义了“可见高度”度量标准,该度量标准是沿三角形的二等分线的可见像素所占的比例来计算的。
表2总结了建议的度量标准以及目标缺陷。所有指标都是可重复的,没有随机因素。它们对于深度图的分辨率也不变。对基于动态的指标进行了归一化,使其与深度编码不变。
验证和结果
计算指标和感知评估之间的相关系数非常困难,因为我们的指标是局部的,并且专注于深度图的特定特征。我们的工作提供了构建块,可以在这些构建块上设计汇总指标以匹配人类的感知。在当前状态下,它更倾向于用作调整设备的工具,而不是感知质量的评估。尽管如此,获得的结果还是很有用处的。如图5的示例所示,不同技术的优点和缺点很容易看出,它们是由立体设备创造的。由过滤算法引起的许多伪像也很容易测量。表3给出了示例。
当图卡与传感器不完全平行时,我们的测量方式仍然可以使用。我们的测试包括目标围绕着垂直轴倾斜10°的图片。在某些设备上,我们观察到倾斜表面上深度级别仍然平滑,这表明过滤的程度是很高的。我们还会看到不同的分割问题和伪影。
在我们的所有度量中,唯一容易与感知测量相关的度量是误差区域,因为它是全局的。我们使用在散景图上执行的感知分析的所有结果作为参考。使用我们数据库中的七个均匀分布的设备,我们发现了78%的相关性。这些度量在整体上保持了单调性,我们可以预期顶级设备的错误区域值较低。但是,我们的指标对较小的深度变化比感知的测量更为敏感,这也可以解释一些异常值。此外,感知评估考虑了Bokeh的模拟输出图像,该输出图像并不完全依赖于深度图。
结论
我们已经提出了完整的测量协议和客观指标来评估用于相机景深图像的质量。我们的方法基于单个场景,其中包含专门设计的图卡和背景。它被设计为对所有常用技术都具有挑战性,旨在再现和测量一些常见缺陷。使用11个度量标准(大多是局部度量标准)来表征精确定义的感兴趣区域。那些感兴趣的区域位于图卡的边缘,平坦的表面上或镂空位置周围。总共为每个图像计算148个值,从而提供了非常详细的分析。
考虑到我们在用户看不见的深度图上进行工作,因此我们的工作旨在提供一种用于调整设备以及选择硬件和软件组件的工具。在计算散景的情况下,背景模糊模拟依赖于不同的参数,而这些参数是独立于影响深度图的散景质量的。这就解释了将我们的指标与感知评估相关联的难点。但是,关于深度图,结果是相关的。
提出的指标旨在易于理解,并且可以用作将来提取更高级别指标的工作基础。将来,可能会采用统一的深度图格式[5],这将有助于其在设备之间进行比较。
参考文献:
[1] A. Banitalebi-Dehkordi et al. A study on the relationship between depth map quality and the overall 3d video quality of experience. In IEEE 3DTV-CON, 2013.
[2] A. Benoit et al. Quality assessment of stereoscopic images. EURASIP JIVP, 2009.
[3] D. Eigen et al. Depth map prediction from a single image using a multi-scale deep network. In Advances in NIPS, 2014.
[4] A. Geiger et al. Vision meets robotics: The kitti dataset. Int. J. of Robotics Research, 2013.
[5] Google Developers. Encoding depth and confidence. https: //developers.google.com/depthmap-metadata/encoding. [Accessed 19-August-2019].
[6] N. Haddad. Non-reference depth map quality evaluation in immersive video applications. PhD thesis, University of Surrey, 2016.
[7] W. Hauser et al. Image quality benchmark of computational bokeh. Electronic Imaging, 2018.
[8] A. Hosni et al. Fast cost-volume filtering for visual correspondence and beyond. IEEE TPAMI, 2012.
[9] P. J. Huber. Robust estimation of a location parameter. The Annals of Mathematical Statistics, 1964.
[10] N. o. Kanopoulos. Design of an image edge detection filter using the sobel operator. IEEE JSSC, 1988.
[11] D. Kim et al. Depth map quality metric for three-dimensional video. In Stereoscopic Displays and Applications, 2009.
[12] T. Koch et al. Evaluation of cnn-based single-image depth estimation methods. In ECCV, 2018.
[13] B. Li et al. Depth and surface normal estimation from monocular images using regression on deep features and hierarchical crfs. In IEEE CVPR, 2015.
[14] F. Liu et al. Deep convolutional neural fields for depth estimation from a single image. In IEEE CVPR, 2015.
[15] A. Roy and S. Todorovic. Monocular depth estimation using neural regression forest. In IEEE CVPR, 2016.
[16] D. Scharstein and R. Szeliski. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms. Int. J. of Computer Vision, 2002.
[17] N. Silberman et al. Indoor segmentation and support inference from rgbd images. In ECCV, 2012.
[18] P. Wang et al. Towards unified depth and semantic prediction from a single image. In IEEE CVPR, 2015.
[19] J. You et al. Perceptual quality assessment for stereoscopic images based on 2d image quality metrics and disparity analysis. In Int. Workshop Video Process. Quality Metrics Consum. Electron, 2010.
{{CommentDatavv.name+' '+(CommentDatavv.to_user_id!=CommentDatav.user_id?('回复'+CommentDatavv.to_name):'')}}: