视频
载入播放器…
  • 提供配置文件

  • 主动视觉小组致力于提高计算视觉方面的知识,特别是在运动物体的检测和跟踪领域,以及从校准和部分校准的图像中恢复结构。

    该小组致力于监控、可穿戴和辅助计算、认知视觉、增强现实、人体运动分析、远程操作和导航等应用。
产品组合
  • 智能监控

  • 本研究将活动识别与主动传感相结合。一个特别的重点在于在不同分辨率级别的数据采集过程与主动感知的融合,其中包括更高级别的推理。

    接下来描述的主题集合了视觉跟踪、活动识别和平移/倾斜/缩放设备的智能控制技术,以便能够推理视觉场景,推断因果关系,并检测不寻常或其他有趣的行为。

    头部姿势的行为
    该项目的目的是在监视情况下,从远处的摄像机自动识别人们面对的方向,为更高层次的推理系统提供输入。一个人面对的方向提供了他们凝视方向的良好估计,这可以用来推断人与人之间的熟悉程度或对周围环境的兴趣。它可以被视为缩小了从远处粗略描述人类与通常从近处获得的更详细的肢体运动之间的差距。该工作部分由HERMES资助,位于工作包3和4中。

    主动场景探索
    有效利用资源是本项目的一个基本主题。所涉及的资源是一组从不同视角俯瞰公共区域的摄像机。这些相机是异构的,有不同的控制参数,例如,一些是静态的,一些是平移,倾斜和变焦相机。采用信息理论的方法来选择这些摄像机的最佳监视参数,而最佳监视参数可以通过更高层次的推理或人工操作来定义。目前,这项工作集中在信息论的目标函数和传感器数据融合技术的使用上,以做出明智的决策。

    作为HERMES项目的一部分,目标是建立一个感知/行动循环,具体考虑不同的缩放级别。分布式摄像机系统可以理解为一个抽象的传感器,以更高层次的目标为输入内容。

    一个代理表示的最粗糙的尺度被认为是跟踪代理并注意到它们的轨迹,以及其他的粗糙尺度特征,这将有助于行为和意图识别。然后,目标是生成关于代理本身及其与场景中其他代理和预定义对象的关系的行为和概念描述。

    认知计算机视觉
    最近在视觉跟踪和摄像机控制方面的工作着眼于在贝叶斯网络中使用参数和非参数信念传播进行活动识别所涉及的问题,并开始触及因果关系问题。目前的研究将所有这些领域向前推进。最终的目标是将这些技术结合起来,生产一个平移/倾斜/变焦相机系统,和/或摄像头网络,可以通过对场景的理解,自动从视觉数据推断,以智能的方式分配注意力。

    该主题与欧盟HERMES项目直接相关,该项目是智能视觉监控令人兴奋和与社会相关的领域。该研究的目的是通过开发理解视觉场景的算法和本体论,开发可以被认为展示紧急认知行为的相机系统。

  • 认知计算机视觉

  • 最近在视觉跟踪和摄像机控制方面的工作着眼于在贝叶斯网络中使用参数和非参数信念传播进行活动识别所涉及的问题,并开始触及因果关系问题。目前的研究将所有这些领域向前推进。最终的目标是将这些技术结合起来,生产一个平移/倾斜/变焦相机系统,和/或摄像头网络,可以通过对场景的理解,自动从视觉数据推断,以智能的方式分配注意力。

    该主题与欧盟HERMES项目直接相关,该项目是智能视觉监控令人兴奋和与社会相关的领域。该研究的目的是通过开发理解视觉场景的算法和本体论,开发可以被认为展示紧急认知行为的相机系统。

    在此背景下,基于模糊时间逻辑的解决方案被初步研究,将模糊推理与动作联系起来,试图实时控制平移/倾斜/变焦相机。算法将在一个摄像机节点网络上进行测试,每个节点都配有一个计算机单元,用于本地处理和执行器的低级控制。

    该项目的另一个重要方面是研究认知视觉的新解决方案,重点是智能监控设备。更具体地说,从视频中进行因果推理的研究,并将其与活动识别、视觉跟踪算法、平移/倾斜/缩放设备的主动控制以及其他适用于创建智能视觉监控设备这一广泛问题的技术相结合。
  • 头部姿势的行为

  • 我们已经开发了一种算法,通过使用随机蕨类分类器来估计头部姿势。分类器不是直接测量图像的头部姿势,而是根据头部姿势将图像分类。要使头部姿势估计器在现实环境中有效,它必须能够应对不同的皮肤和头发颜色,以及光线方向、强度和颜色的广泛变化。大多数现有的分类器都容易受到这些变化的影响,为了做出准确的分类,需要不同光照条件组合和皮肤/头发颜色变化的例子。我们所采用的方法有效地学习了观察到的每个新人的皮肤和头发颜色模型,使其在很大程度上不受灯光和视频中人物的个人特征的影响。结果是一个分类器工作在非常低分辨率的视频,头部直径只有10像素。
  • 通过跟踪移动的对象,避免视觉SLAM中移动的异常值

  • 为了在视频速率下工作,单目SLAM构建的映射必然是稀疏的,这使得它们对错误包含移动点和通过临时遮挡删除有效点非常敏感。该系统提供了monoSLAM(单眼同步定位和映射)的并行实现和一个3D对象跟踪器,允许推理移动对象和遮挡。SLAM过程为对象跟踪器提供将对象注册到地图框架的信息,而对象跟踪器允许标记特征,可以是移动对象上的移动特征,也可以是由它们的遮挡边缘创建的伪特征,或者是被对象遮挡的特征。虽然传统的单slam假设一个刚性环境,会降低性能,有时是最终的,当包含移动特征时,组合系统对动态环境更健壮。此外,知道一些静态特征是闭塞的而不是不可靠的,可以避免调用有些繁琐的特征删除过程,随后可能需要不必要的重新初始化,允许闭塞的静态特征的生命周期被延长。

    目标跟踪器是使用哈里斯快速跟踪器的改进版本完成的。目前,辨识和位姿初始化都是手工完成的。视频被用来验证恢复的几何形状,并指出在monoSLAM中包含和避免移动特征对相机姿态的影响。没有目标跟踪器的系统由于移动特征给出了错误的相机姿势,但仍然存活到视频结束。另一方面,带有目标跟踪器的系统通过图像序列估计出更正确的相机姿态。
  • 柏修斯:计算机交互的手部跟踪

  • 这个项目的目的是通过实时解释手部动作和手势,提供一种自然和直观的方式与计算机交互。一种成本有效的非侵入式获取方法是使用摄像机的视觉传感。

    该项目的核心是一种集成了分割、利用简化的手部三维模型估计手部三维姿态以及将姿态参数映射到潜在空间的算法。为了能够在3D中跟踪非刚性铰接对象(如人手),它必须首先能够在3D刚性非铰接对象中跟踪。

    我们一直在研究的算法包括将3D形状信息添加到用于2D刚性物体跟踪的跟踪算法中,该算法由Charles Bibby和Ian Reid在Active Vision Group内部开发,在他们的论文《使用像素- wise posteriers的鲁棒实时视觉跟踪》中。该算法将图像视为一个像素包(像素在图像中的位置被认为是一个随机变量),然后通过使用像素后验(而不是可能性)进化出一个水平集函数。这种方法可以在标准硬件上实时工作。我们正在努力添加一个新的先验:3D对象模型的渲染(适当调整的姿态参数)与图像的分割区域(由水平集函数定义)之间的差异范数。这个区域将向3D物体的投影方向发展。

    虽然上述算法在优化刚体物体的位姿参数时应该有效,但对于获取非刚体、铰接物体的位姿可能太慢。为此,我们正在研究使用高斯过程潜变量模型在高维位姿空间和低维潜空间之间的映射。

    该系统使用定制的3D引擎。在渲染过程中,传统的3D渲染引擎(如OpenGL或DirectX)在转换(旋转、平移和投影)和它们产生的2D投影之前失去了3D点之间的关系。Out引擎能够保持这种关系,并以线框、填充和轮廓模式渲染3D对象,应用Scharr过滤器并在仅几毫秒内计算距离变换。这种级别的性能是通过为NVIDIA CUDA框架开发的并行算法实现的。
  • 场景增强的同步识别与定位

  • 本文开发了一种将单摄像机SLAM (Simultaneous Localization and Mapping)与已有方法相结合的特征识别系统。除了使用标准的显著图像特征建立摄像机环境的在线地图外,它还能够识别和定位场景中已知的平面物体,并将其几何形状纳入世界地图。对这些映射对象的持续测量提高了估计地图的准确性和跟踪系统的鲁棒性。在手持或可穿戴视觉环境下,该系统通过已知物体增强生成地图的能力,增加了地图对操作员的价值,还实现了对用户周围环境的有意义的自动注释。提出的解决方案介于场景分类等地图的高阶丰富和在概率地图中引入线等更高的几何原语之间。目标检测采用SIFT算法。将已知物体的数据库与场景图像进行比较,当发现匹配时,使用单应性计算出物体的3D位置,并以较高的精确度放置在SLAM地图中。

    视频比较了单目SLAM系统运行时使用和不使用物体检测的吐槽屏幕视图。没有目标检测的系统由于特征不足而失去了跟踪,此时视频会减慢速度以突出这一点。物体检测系统继续,在视频的最后,它成功地检测到所有五个物体,并准确地将它们定位在世界上。

  • SLAM中丢失相机的重新定位