苹果考虑为VR提供更好的360度视频拼接方案

美国专利及商标局今天公布了一份苹果专利,与用于全向和多向图片与视频有关的编码技术。早在2017年10月就报道了一份与这一话题相关的专利。当时的专利涉及VR应用的后期制作,而今天的专利Processing of Equirectangular Object Data to Compensate for Distortion by Spherical Projections则涵盖编码方面的技术。

对于今天公布的专利,苹果指出当前的指出编码应用程序没有考虑在处理全向或多向图像时可能出现的图像畸变。这种畸变会导致普通视频编码器无法识别图像内容中的冗余,从而导致编码效率低下。苹果的发明正是为了克服编码效率低下的问题。

为了更好地理解苹果项目的背景,我们可以把目光放在2017年的VR应用后期制作专利。在去年的专利申请中,苹果指出传统的180度或360度视频或图像是以平面格式进行存储,使用等量矩形投影或立方体投影来表示球形空间。如果在传统的编辑应用程序或图形应用程序中编辑这类视频或图像,当视频或图像以圆顶投影,立方体投影进行分发和渲染时,或者在VR头显内进行球形映射时,用户将难以解释最终结果的体验。在平面投影中编辑和操纵图像需要特殊技能和大量的试错。

另外,在用球形合成或编辑图像或视频后,出现后续镜头未对准,或者立体视差点无法以自然方式匹配,这是一种常见的体验。

对于苹果在2017年的发明,其主要是将单视场和立体视场的180度或360度静态图像或视频从主机编辑软件或视觉特效软件传输至相同设备上同时运行的软件上,以等量矩形投影或其他球形投影的方式进行。相同的设备可以持续获取有线或无线头显的方向传感器的方向和位置数据,同时向头显实时渲染这一方向的单视场或立体视场视图。

图5是2017年的专利,说明了3D显示设备呈现一张预览图像。我们看到了视频或图像编辑或图形处理软件程序#501的用户界面,等量矩形投影的球形图像显示在画布#502之上,以及合成或编辑时间线#503

对于今年的苹果专利,他们指出一些现代成像应用程序可以从多个方向捕捉图像数据。一些相机在捕捉图像时会沿着枢轴旋转,这允许相机通过扫视捕捉更多的图像数据,从而扩大有效视场。其他相机则包含多个成像系统,能够在多个不同的视场中捕捉图像数据。在任意一种情况下,相机系统都可以创建一种聚合图像,代表从多个视点捕捉的融合或“拼合”图像数据。

文件指出,视频可以从多个视点捕捉主题或场景,例如令多台相机指向同一地点,或根据最近的行业发展,使用能够录制场景所有方向的球形相机。对于手持式视频,或对于能改变相机位置和视点的图片而言,图像可以提供许多可以合并至场景的额外数据。

苹果写道:“许多现代编码应用程序并不是为处理这种全向或多方向图像内容而设计。”这表明应用程序是假设图像数据属于“平面”或从单个视图捕捉,意味着如此应用程序没有考虑处理可能出现的畸变,因此无法识别图像内容中的冗余,反过来又导致效率低下。

因此,苹果专利的发明人意识到行业需要一种能够处理全向和多向图像内容,同时能限制畸变的编码技术。简而言之,编码器将视频分成像素块,而对于每个像素块,编码器可能将其与参考图片中关于场景的其他数据进行比较。利用对搜索块和参考数据的预测搜索,编码器可以对像素块执行不同的操作,使其看起来更适合于用户。

图1中的系统#100包含至少两个通过网络#130互联的终端。第一个终端#110拥有一个生成多向和全向视频的图像源。这个终端同时包含编码系统和传输系统,用于向第二个终端#120传输编码的多项视频。

例如,第二个终端在本地显示器上显示球形视频,它可以执行视频编辑程序以修改球形视频,或者将球形视频集成到一款应用程序中(如一款VR程序),然后在头显中进行显示,或者存储球形视频供以后使用。

公开的实施例可以应用于笔记本电脑,平板电脑,智能手机,服务器,媒体播放器,VR头显,AR显示器,全息显示器,以及专用的视频会议设备。

图2则与编码系统有关。系统200包含一个图像源,一个图像处理系统,一个视频编码器,一个视频解码器,一个参考图片存储器,一个预测器,以及一对球形变换单元(#270和#280)。

图像源可以生成作为多向图像的图像数据,包含在多个方向上围绕参考点延伸的视场的图像数据。图像处理系统可以根据需要转换来自图像源的图像数据,从而适配视频编码器#230的要求。

视频编码器可以生成输入图像数据的编码表示,这一般是通过利用图像数据中的空间沉余和临时沉余。视频编码器可以输出输入数据的编码表示(在发送或存储时消耗比输入数据更少的带宽)。

如果你进一步深入专利文件,你将发现苹果详细地描述了这个“编码系统”,从专利点#0022一直到专利点#0026。

图3说明了可用于专利实施例的3个图像源。图像源#310和#340都可用于专利披露的实施例。

第一个图像源是相机#310,如图3a所示。其包含单个图像传感器,能够沿枢轴旋转。在操作期间,相机可以沿着预设转动范围(最佳是全360度)捕捉图像内容,并且将捕捉的图像整合成一张360度图像。

捕捉操作可以生成等量矩形图像#320,预定尺寸是M×N像素。可选地,等量矩形图像可以转换成球形投影。

图3b说明了另一种图像源(全向相机#340)的图像捕捉操作。在这个实施例中,相机系统可以执行多向捕捉操作,并输出立方体贴图图片#360,尺寸是M×N像素,其中图像内容根据立方体贴图捕捉#350进行排列。

图3c说明了另一种图像源(鱼眼相机#370)的图像捕捉操作。在这个实施例中,每个透镜系统在不同的180度视场中捕捉数据,表示相对的“半壳”。

相机可以从每个透镜系统中图像拼合中生成图像#380,根据每个半壳视场的对象位置,鱼眼透镜通常会引起畸变。

需要注意的是,苹果每周都提交大量的专利申请,但很少能真正成为产品或服务。专利申请无法确保一个概念能出现在未来的消费者设备中。

专利文件中的概念可能存在一定的前景应用。首先,这可以允许用户通过360度相机录制视频,合理地拼合视频,从选定区域创建剪辑,进行转换,使其看似最初就是通过“平面”相机录制。

第二种前景应用是VR,可用于创建球形视频,以及提供头显用户的平面视图。使用360度相机制作的视频可能是未来VR用户的主要内容来源,但能够修正畸变,伪影的能力将能提高内容的观影质量。