吉网

新开发的无镜头相机使用神经网络和变压器以更快地产生更清晰的图像

导读 数码相机通常需要镜头将入射光聚焦在图像传感器上。虽然技术不断改进,允许更紧凑的相机系统,但它们仍然受到物理学的限制。一个镜头只能这...

数码相机通常需要镜头将入射光聚焦在图像传感器上。虽然技术不断改进,允许更紧凑的相机系统,但它们仍然受到物理学的限制。一个镜头只能这么小,镜头和传感器之间的距离也就这么短。这就是“无镜头”相机的用武之地。不受光学设计物理限制的负担,无镜头相机可以小得多。东京工业大学的Masahiro Yamaguchi教授是一篇关于无镜头相机设计新方法的研究论文的合著者,他说:“没有镜头的限制,无镜头相机可以是超微型的,这可以允许超出我们想象的新应用。

无镜头相机本身的想法并不新鲜。我们以前见过它,包括2013年的单像素无镜头相机,以及最近在2017年更小的无镜头相机。无镜头相机由图像传感器和传感器前方的薄掩模组成,用于编码来自给定场景的信息,需要数学重建才能产生详细的图像。虽然带有光学镜头的传统相机使用镜头内的玻璃来实现对焦并立即产生清晰的图像,但无镜头相机则对光进行编码,然后必须将模糊的失焦图像重建为有用的东西。

顾名思义,无镜头相机完全省略了传统的光学镜头。相反,它只包括一个传感器和一个掩模。相机无法将光线聚焦在图像传感器上,因此必须使用编码模式以及有关光如何与掩模和图像传感器相互作用的信息来重建详细的图像。以前的方法已经使用从物理模型派生的算法重建了图像。东京工业大学的研究人员开发的新方法依赖于一种新颖的深度学习系统,从而产生了更好的结果,而不依赖于准确的物理近似。

包括山口教授在内的东京工业大学的一组研究人员创造了一种新的重建技术,该技术有望提高图像质量和显着加快处理速度,这两个问题阻碍了其他一些无镜头相机的发展。

早期的无镜头相机,如贝尔实验室在2013年和加州理工学院在2017年开发的相机,依靠方法来控制照射到图像传感器的光,并对光如何与特定的物理掩模和图像传感器相互作用进行复杂的测量,然后重建图像。如果没有聚焦光线的方法,无镜头相机会捕获模糊的图像,必须使用算法将其重建为更清晰的图像。通过了解光线如何与图像传感器前面的薄掩模相互作用,算法可以解码光信息并重建聚焦场景。但是,解码过程极具挑战性且占用大量资源。除了需要时间之外,生成良好的图像质量还需要完美的物理模型。如果算法基于光如何与掩模和传感器相互作用的不准确近似值,则相机系统将摇摇欲坠。

东京工业大学团队没有使用基于模型的解码方法,而是开发了一种依赖于深度学习的重建方法。使用卷积神经网络(CNN)的现有深度学习方法不足以解决问题。正如 Phys.org 所概述的那样,问题在于“CNN根据相邻的'局部'像素的关系处理图像,而无透镜光学器件通过称为'多路复用'的属性,将场景中的局部信息转换为图像传感器所有像素上的重叠'全局'信息。

在这里,我们可以看到新的无镜头相机。它包括一个图像传感器和一个距离传感器2.5mm的掩模。该面罩是在合成硅板中使用铬沉积制成的。它的孔径尺寸为40×40μm。

这项新研究依赖于一种新颖的机器学习算法。它基于一种名为视觉变压器(ViT)的技术,它有望改善全球推理。正如Phys所写,“该算法的新颖之处在于多级变压器块的结构,这些模块具有重叠的'patchify'模块。这使其能够有效地学习分层表示中的图像特征。因此,所提出的方法可以很好地解决多路复用特性,避免了传统基于CNN的深度学习的局限性,从而实现更好的图像重建。

视觉变压器(ViT)是领先的机器学习技术,由于其多级变压器块的新颖结构与重叠的“修补”模块,因此在全局特征推理方面表现更好。这使其能够有效地学习分层表示中的图像特征,使其能够解决多路复用属性并避免基于CNN的传统深度学习的局限性,从而实现更好的图像重建。

所提出的方法使用神经网络和连接的变压器,有望改善结果。此外,重建误差减少,计算时间更短。该团队认为,该方法可用于实时捕获高质量图像,这是以前的无镜头相机所无法企及的。