我们可能仍然认为AR是一种视觉媒介,但苹果再次对整个体验的音频方面进行了研究。继之前研究让音频发出3D声音之后,现在又一直在研究更便捷的方式来实现这一目标。"具有音频和测距组件的音频系统 "是一项新获批的专利,该专利关注的是如何用最少的设备模拟出准确的3D声音。
苹果在专利描述当中表示,在现有的向虚拟空间中观察者重现声音图像方法中,分布在实际空间周围的麦克风必须相互间隔,才能依靠检测到的声音进行声源定位。相应地,这种方法无法使用单一、紧凑的麦克风阵列来进行声源定位,而且这种方法的设备和安装成本会很高。
还有一个问题是,一旦在周围间隔了一整系列的麦克风进行录音,移动它们就会很费时。苹果想要的是一个更简单的系统,同时也适用于便携式录音和播放。这对于苹果AR来说尤为重要,因为音频是让体验感觉真实的关键。虚拟现实和增强现实环境可以包括虚拟声源,即在虚拟空间中的计算机生成的声源。
苹果表示,虚拟空间可以映射到实际空间,例如,用户可以在一个房间里戴上耳机,耳机可以向用户重现一个声音,好像这个声音是用户面前说话的同事声音,即使这个同事实际上是在另一个房间里。为了直观地显示虚拟物体的移动或重新定位,录音必须能够准确地识别源位置。当位置被识别后,录音可以以一种定位的方式向用户重现重现的声音,就像声音来自用户占据的房间中的类似位置一样。
这项专利提出,这些麦克风要辅以苹果所说的 "深度捕捉装置"。当这两者能够检测到一个点云和一个局部声场,而处理器能够从它们的数据中重建一个全局声场时,就可以向用户呈现一个虚拟现实环境。换句话说,无论用什么系统来计算出虚拟同事在你左边五英尺的地方,苹果AR音频都可以播放他们的语音,就好像离你那么近,而且是在那个方向。关键就在于这个深度捕捉设备。该专利不厌其烦地描述了每一种可能的这种设备,但它集中在相机上。
苹果表示,一个摄像头阵列可以是一个具有两个或多个摄像头的立体系统,几个摄像头可以彼此相邻和/或彼此间隔开,并观察同一个空间。每个摄像头可以从不同的有利位置检测同一空间,因此,通过分析来自每个摄像机的图像,可以确定距离摄像头阵列106个不同点和/或图像内物体的距离。当产生声音的物体在视野内向后移动时,例如,远离捕捉设备的位置,系统就可以调整音频信号的延迟和增益,以呈现与虚拟声音在虚拟环境中和用户相对的位置。