关于高质量 VR 视频的挑战

我们说「虚拟现实」,但是从 VR 头盔中看到的视频品质却如此的不真实。为什么品质这么重要?因为 VR 意图带给你的称之为「空间沉浸感(spatial immersive)」的真实存在感被低品质的视频给彻底摧毁。大部分低品质的视频完全破坏用户的 VR 体验,这是目前这一领域面临的一大挑战。

一个拥有真正感受的体验来源于优秀的叙事技巧和空间沉浸感。优秀的故事叙述能让用户沉浸其中,情感上产生共鸣。就如你在看一本好书或好电影而完全忘记时间的流逝。在 VR 场景中配以相应的画面、声音等因素,让大脑完全被虚拟的场景所说服才能感受到空间沉浸感,我们才能被触动,达到这些因素才能真正称之为虚拟现实。

讲述一个好故事没有指南与速成。但至少我们可以通过拥有优质的视频画面来解决和创造一定的有效的空间沉浸感问题。

现存的很多 360° 体验离真正所谓的「虚拟现实」其实还差一大截。虽然像 Youtube、Facebook 均已经支持 360° 视频,但大部分情况下你只是在电脑上观看环绕影像,或用手机类的简单 Cardboard 方式看看效果,这些简单的观看方式本质上干扰了大脑对于虚拟现实的沉浸感,也完全无法让人长时间的观看视频内容。要能有更好的体验,必须借助于完整的虚拟现实头盔,通过更完善的技术手段,让你感受到空间的存在。

像 Samsung Gear VR 这样的设备拥有动作感测器及更快的响应时间,有更好的沉浸式体验。如果拥有 Oculus Rift 或 HTC Vive 的话,不仅能够充分利用 PC 的 GPU 的性能来更快速的渲染 3D 数据,还能通过更多感测器来跟踪用户身体在物理空间的移动。这二种设备的屏幕都有很高的显示解析度,但是即便如此,播放视频仍然是一大挑战,

即使拥有更佳硬体,视频品质不佳仍然阻碍了沉浸感。其核心难点在于如何在最佳的时间向屏幕放送品质最高的画面。Gear VR 是目前最常用的设备,我们可以通过他的技术指标来看看造成这个原因的问题所在。

VR 视频内容的挑战

当设备的高解析度显示不是问题的时候,其瓶颈在于视频内容本身的低解析度。

文件尺寸:在 Gear VR 中,许多视频内容需要从网路中下载,这些文件通常都很大,如常常大于 1GB,而且在载入到设备中需要花费很多时间,这是第一个难题。

视频品质:第二个也是最大的问题是视频品质本身。即使许多专业的 VR 作品看上去也像是在看90年代的老片,如果是 3D 视频这个问题会更严重。

显然视频内容必须首先用高清设备拍摄,但大部分 VR 显示中仍然不够 高清,其原因在于解析度。

解析度

Gear VR / Galaxy 能支持 UHD 品质的高品质回放,UHD 视频每一帧画面尺寸为 3840x1920, 以 30 秒的帧率播放 (通过降低解析度能获得更高回放帧率)。总体来说 Galaxy 的性能能够胜任播放 4K 视频。但这对于 VR 来说远远不够。

去理解这个原因,我们需要回答二个和解析度关的问题。1) 我们在 Galaxy 中看到的解析度是多少?我们称其为屏幕解析度。2) 在整个 UHD 视频图像的尺寸中,有多少象素被投影到了 VR 头盔中?我们称这个为视野解析度 (field-of-view Resolution)。

Galaxy S6 屏幕解析度为 2560x1440,因此每个眼睛通过 VR 获得的象素为 1280x1440

[补充:Gear VR 会有一定镜头形变,所以实际解析度为 1280x1280,不算差,但达不到所谓 Full HD。但因为其每英寸即有近 500 象素,所以理论上可以让图片足够清晰]

回到视野解析度(field-of-view resolution)这个话题。前面提到 UHD 视频解析度为 3840x1920,但视频最终会形成水平 360° 及垂直 180° 的填充,Gear VR 的视野为 96° 。当我们通过 VR 观看图像的时候,我们实际上只看到一个小方块的区域,当头部转动时,你继续观看另一个方向的小方块区域,这个区域即视野 (field-of-view)。

简单计算可知,每个1度相当于 10.6667象素 (1920 pixels / 180 degress = 106667 pixel / degree)。所以乘以 96 你得到了 1024 象素。

因此我们在 VR 中观看到的象素实际为 1024x1024,但记住屏幕解析度为 1280x1280。这便可知为什么我们看到的图像会有一点模糊。这小方块的图像实际小于显示解析度,同时播放软体上会采用缩放演算法进行拉伸,这便造成了模糊效果。当然、感觉上 20% 的拉伸理论上不会造成太大问题。

更糟糕的 3D

上面谈及的仅仅是普通视频,两眼看到的是同一画面。有时候为了增强临场感,会采用 3D 视频,要求每个眼睛看到的是经过位移的画面来欺骗大脑产生景深感。

每个眼理论上应得到一个独立完整的 360° 影像,因此要求我们两倍于普通画面的象素量。

如果 UHD 视频是 3840x1920。两倍画面即 3840x3840。对于其硬体来说难以支持。因此,必须将这个超高的画面打包进 3840x1920 的帧中,左右眼还必须得到不同的画面,每只眼只有 3840x960 象素,然后再拉伸成完整的 360° 画面。

3D 影像压到 3840 x1920 pixels. 垂直方向只有原大的 50%. 影像来源: Bob Dass – Flickr.

结果造成每个眼睛获得的解析度极小,拉伸 20% 也许不好,但拉伸 150% 的结果是造成更大的解析度损失,无论是上下压缩还是左右压缩,其结果都是损失一半的解析度。

更少量的流媒体

让我们再看流媒体视频如何造成更大的影响。许多在线服务多数采用低于 4K 的解析度因大部分用户的网路带宽无法承受更大量的流媒体数量传输。因为视频从伺服器端播放,服务商会继续压缩视频以获得流畅的播放,通常只有 2048x1024 解析度。如果采用上面的演算法,视野有效象素仅有 540x540。流式 360° 视频产生的画面仅和老式电视的象素(720x480, 720x576)差不多,而且还得拉伸 230% 来进行投影。

即大越好

对于 Galaxy S6 及其它 VR 设备的屏幕显示而言,为了获得高品质视频,提高视野解析度会有显著帮助。用大的视频素材缩小会让画面更平滑、并有效减少噪点和锯齿等生成。

视野解析度能达到 1536x1536 会是一个好的解决方案。这比显示器差不多多出 17% 的尺寸在我们的测试中获得了显著的质量提升。采用前面的演算法,如果我们想在 96° 的视野中显示 1536 象素,我们需要达到 16 象素/度。结果是我们需要一个 5760x2880 的解析度画面。因此我们需要一个近宽度近 6000 象素来显示常规视频。

3D 呢?理想情况当然是显示完整的解析度(或用更智能的演算法来把左右眼数量打包)。简单算的话你需要一个 5760x5760 的画面,几乎是每帧 33万象素。即使是 5G 技术也足够具有挑战。

Pixvana 的解决方案

Pixvana 正在尝试用更聪明的解决方案来应对这个解析度和流媒体问题。完全可以创建特殊的流媒体格式,采用仅 HD 解析度的画面但达到高品质的 VR 视频。例如 Facebook 对他们平台的处理方式是动态流媒体 (Dynamic Streaming) 技术来充分利用带宽。这里可以了解更多此技术。

我们采用另一种优秀的解决方案即基于视野的自适应流媒体(FOVAS)。其一是在观看区域内尝试提供更多的象素信息,在非观看区域提供一些缓冲,当用户的视野转向另一个方向时,快速切换视频流,使得每一个观看区域都拥有最大量的象素数据,从而提高视频质量,降低数据量,这不光有利于现有系统,当未来拥有更高解析度的设备出现时,也能同样有显著影响。其二是根据视频本身的情况,利用更好的视频封装和编码技术。

Pixvana 尝试构建一个开放式系统来帮助内容创作者创建高品质及解析度 VR 视频。诸如系统能够根据用户物理空间的移动、带宽变化及不同设备的硬体差异来推送有差异优化的视频。同时应用于不同的平台,移动设备及桌面。通过此系统,能大幅改善现有 VR 视频的众多品质问题,达到沉浸式体验的目的。


推荐阅读:
相关文章