查看
在真实环境中追踪包括至少一个camera的移动设备,亦即确定camera姿态(运动)
(
基于视觉的方法常用于计算camera姿态,例如SLAM。其中,可以根据camera捕获的环境的一个或多个图像来计算camera相对于环境的姿态(或运动)。这种基于视觉的方法依赖于捕获的图像,并且需要图像中的可检测视觉特征。
对于为AR开发的各种基于单目视觉的SLAM系统,特别移动手持式AR应用,常见的挑战和限制包括SLAM系统的初始化和度量尺度因子的确定。
大多数SLAM系统必须初始化,而初始化必须通过camera在获取真实环境的两幅图像之间的明显移动来完成。不同的运动要求从两个不同的camera位置捕获两个图像,与到环境的距离相比要具有足够的位移。所以,从零开始手动初始化单目SLAM非常具有挑战性,因为用户无法直观地移动手持设备的camera以实现足够的位移。
另外,正确的比例因子定义了真实的camera姿态和重建环境模型在真实世界中的大小。
针对上述问题,
概括来说,专利描述了在真实环境中追踪包括至少一个camera的移动设备,亦即确定camera姿态(运动)。所述方法步骤包括:接收与由至少一个camera捕获的至少一个图像相关联信息;根据至少一个传感器获取的环境数据或移动系统状态数据,生成真实环境至少一部分的几何模型;并且根据与至少一个图像相关联信息执行追踪过程。专利同时描述了利用至少一个camera提供的图像信息来生成真实环境至少一部分的几何模型。
图3示出了根据本发明实施例的方法的流程图。其中,所述方法基于由移动系统的传感器获取的环境数据生成真实环境的几何模型,并基于生成的环境模型追踪移动设备。
应对环境几何模型的比例因子不确定
通过使用camera拍摄环境中具有已知距离的两点或具有已知物理尺寸的真实对象图像,可以有效地确定将环境模型带入公制比例所需的正确比例因子。例如,可以使用交通信号灯、具有已知3D模型的汽车或其他道路设备来估计比例因子。
在一个实施例中,可以从移动系统和环境之间的距离恢复正确的比例因子。如果捕获两个图像的一个(或两个)camera之间的参考距离已知,则可以确定正确的比例因子。对于立体camera,两个camera中心之间的基线距离可用作参考距离。
如果移动系统在环境中的位置已知,可以确定正确的比例因子。移动系统在环境中的位置可以从GPS或从固定在环境中的传感器确定。
现在参考图1,在给定至少一个camera的情况下,基于由至少一个camera捕获的图像来创建或生成几何模型和/或计算摄像机姿态的过程可以包括特征检测(步骤102或105)、特征描述(步骤102和105)、特征匹配(步骤106)和/或其他步骤,三角测量(步骤107)和可选地(全局)地图细化,其调整三角测量位置和/或相机姿态,和/或从三角测量中移除和/或添加点。
创建几何模型和/或计算camera姿态的过程同时可以基于使用立体camera系统来实现。在一个实施例中,camera的光流可用于生成几何模型或支持模型的生成。
为了重建环境模型,camera可能必须在不同位置拍摄至少两幅图像。例如,在步骤101中,camera在姿态PA处捕获图像IA,然后camera以不同的位移M移动,以在不同于姿态PB的位置的姿态捕获图像IB(步骤103和104)。
可以通过具有高重复性的方法执行特征检测,以识别图像IA和IB中的特征。换句话说,将选择图像中对应于相同物理3D表面的部分作为不同视点、不同旋转和/或照明设置的特征的概率很高。特征通常在尺度空间中提取,即在不同的尺度下提取。因此,每个特征除了其二维位置之外,还具有可重复的比例。另外,可以根据特征周围区域中像素的强度计算可重复方向(旋转),例如作为强度梯度的主导方向。
特征描述是将检测到的图像区域转换为典型特征描述符,所述特征描述符对特定类型的变化具有鲁棒性或不变性。确定特征描述符以实现特征的比较和匹配。常用方法使用计算的特征比例和方向来变换特征描述符的坐标,这提供了旋转和比例不变性。
例如,描述符可以是n维实数向量,其通过连接局部图像强度(例如梯度)的函数的直方图来构造。或者,描述符可以是n维二进制向量。
同时,每个检测到的特征可以(可选地)与相对于环境和/或相对于camera的先前姿态之一的(部分)位置和取向相关联。可以从GPS传感器/接收器、IR或RFID三角测量或通过使用宽带或无线基础设施的定位方法获得位置。方位可以从例如罗盘、加速度计、陀螺仪或重力传感器获得。当camera安装在移动系统中时,可以从移动系统的速度或转向获得相对于camera先前姿态之一的位置和定向。
在一幅图像中可以检测到多个特征。特征匹配是为一个特征集的每个特征找到另一个特征集中具有最相似描述符的特征,并将这两个特征存储为对应(匹配)。例如,给定在图像IA和IB中检测并描述的两个特征集FA和FB,目标是为特征集Fas的每个特征找到具有最相似描述符的特征集FB的一个特征。
参考图2,其示出了具有特征c和特征c的相应描述符d(c)和参考特征r的描述符d(r)的图像CI。
可以通过确定特征集FA中的每个相应特征描述符与特征集FB中的每个各自特征描述符之间的相应相似性度量来实现特征集FA与特征集FB的匹配。图像相似性度量的常见示例包括负或反向平方差和(SSD)、负或反向绝对差和(SAD),(归一化)互相关和互信息。相似性的结果是实数。相似性度量结果越大,两个视觉特征越相似。
特征匹配的最简单方法是通过穷举搜索找到当前特征描述符的最近邻居,并选择相应的参考特征作为匹配。更高级的方法使用描述符域中的空间数据结构来加速匹配。常用方法使用近似近邻搜索,例如通过空间划分数据结构(如kd树)来实现。
特征匹配后,创建特征集FA和特征集FB的特征之间的对应关系。对应可以是2D-2D或2D-3D。基于这些对应关系,确定相对于环境或相对于先前相机姿态之一的相机姿态。在此之后,通常(但可选)有一个(全局)细化步骤,可能重新评估在初始阶段丢弃的对应关系。细化有多种方法和启发式方法。
特征可能没有相关的特征描述符(如SIFT),但可以由图像块表示。特征的比较和匹配可以通过使用诸如平方差和(SSD)、归一化互相关(NCC)、绝对差和(SAD)、互信息(MI)等方法计算图像块之间的差(例如像素强度差)来执行。
ApplePatent|Methodoftrackingamobiledeviceandmethodofgeneratingageometricalmodelofarealenvironmentusingacameraofamobiledevice
名为“Methodoftrackingamobiledeviceandmethodofgeneratingageometricalmodelofarealenvironmentusingacameraofamobiledevice”的苹果专利申请最初在2022年5月提交,并在日前由美国专利商标局公布。