视频
加载播放器…
  • 提供配置文件

  • 主动视觉组致力于推进计算视觉方面的知识,特别是在运动物体的检测和跟踪,以及从校准和部分校准图像中恢复结构等领域。

    该小组致力于监控、可穿戴和辅助计算、认知视觉、增强现实、人体运动分析、遥操作和导航等应用。
产品组合
  • 智能监控

  • 本研究将活动识别与主动传感相结合。一个特别的重点在于不同分辨率的数据采集过程与主动感知的融合,其中包括更高级别的推理。

    接下来描述的主题将结合视觉跟踪、活动识别和平移/倾斜/缩放设备的智能控制等技术,以便能够推理视觉场景,推断因果关系,并检测不寻常或其他有趣的行为。

    头部姿势的行为
    该项目的目的是在监控情况下,从远处的摄像头自动识别人们面对的方向,为更高级别的推理系统提供输入。一个人面对的方向提供了一个很好的估计他们凝视的方向,这可以用来推断人与人之间的熟悉程度或对周围环境的兴趣。它可以被视为缩小了从远处对人类的粗略描述和通常从近距离观察获得的更详细的肢体运动之间的差距。该工作部分由HERMES资助,位于工作包3和4中。

    主动场景探索
    有效利用资源是这个项目的一个基本主题。所涉及的资源是一组从不同视角俯瞰公共区域的摄像机。这些相机是异构的,有不同的参数来控制,例如,一些是静态的,一些是平移,倾斜和变焦相机。采用信息论的度量方法来选择摄像机的最佳监控参数,而最佳监控参数可以通过高级推理或人工操作来确定。目前,这项工作集中在信息论的目标函数和传感器数据融合技术的使用上,以做出明智的决策。

    作为HERMES项目的一部分,目标是建立一个感知/行动循环,具体考虑不同的缩放级别。分布式摄像机系统可以理解为一个抽象的传感器,它满足于更高层次的目标作为输入。

    最粗尺度的代理表示被认为是跟踪代理和记录他们的轨迹,以及其他粗尺度的特征,这将是有用的行为和意图识别。然后,目标是生成关于代理本身及其与场景中其他代理和预定义对象的关系的行为和概念描述。

    认知计算机视觉
    最近在视觉跟踪和摄像机控制方面的工作已经研究了贝叶斯网络中使用参数和非参数信念传播的活动识别所涉及的问题,并开始涉及因果关系的问题。目前的研究将所有这些领域都向前推进。最终目标是将这些技术结合起来,产生一个平移/倾斜/变焦摄像机系统和/或摄像机网络,可以通过对场景的理解,自动从视觉数据推断,以智能方式分配注意力。

    该主题与欧盟HERMES项目直接相关,该项目属于智能视觉监控这一令人兴奋且与社会相关的领域。该研究的目的是通过开发用于理解视觉场景的算法和本体,开发可以被认为表现出紧急认知行为的相机系统。

  • 认知计算机视觉

  • 最近在视觉跟踪和摄像机控制方面的工作已经研究了贝叶斯网络中使用参数和非参数信念传播的活动识别所涉及的问题,并开始涉及因果关系的问题。目前的研究将所有这些领域都向前推进。最终目标是将这些技术结合起来,产生一个平移/倾斜/变焦摄像机系统和/或摄像机网络,可以通过对场景的理解,自动从视觉数据推断,以智能方式分配注意力。

    该主题与欧盟HERMES项目直接相关,该项目属于智能视觉监控这一令人兴奋且与社会相关的领域。该研究的目的是通过开发用于理解视觉场景的算法和本体,开发可以被认为表现出紧急认知行为的相机系统。

    在这种情况下,基于模糊时间逻辑的解决方案被初步研究,将模糊推理与行动联系起来,试图实时控制平移/倾斜/变焦摄像机。算法将在一个由摄像机节点组成的网络上进行测试,每个节点都配有一个用于本地处理和执行器低级控制的计算机单元。

    该项目的另一个重要方面是研究认知视觉的新解决方案,重点是智能监控设备。更具体地说,从视频中进行因果推理研究,并将其与活动识别、视觉跟踪算法、平移/倾斜/缩放设备的主动控制以及适用于创建智能视觉监控设备的广泛问题的其他技术相结合。
  • 头部姿势的行为

  • 我们开发了一种算法,通过随机蕨类分类器的新使用来估计头部姿势。分类器不是直接测量图像的头部姿势,而是根据头部姿势将图像分类为组。头部姿态估计器要在现实世界中有效,它必须能够应对不同的皮肤和头发颜色,以及光照方向、强度和颜色的广泛变化。大多数现有的分类器都容易受到这些变化的影响,并且需要具有不同光照条件和皮肤/头发颜色变化组合的示例,以便进行准确的分类。我们所采取的方法有效地学习了观察到的每个新人的皮肤和头发颜色的模型,使其在很大程度上不受光照和视频中人物的个人特征的影响。结果是一个分类器工作在非常低分辨率的视频,头部的直径只有10像素。
  • 通过跟踪移动对象避免视觉SLAM中的移动异常值

  • 为了以视频速率工作,单目SLAM构建的地图必然是稀疏的,这使得它们对错误包含移动点和通过临时遮挡删除有效点非常敏感。该系统提供了monoSLAM(单眼同步定位和映射)的并行实现和3D对象跟踪器,允许对移动对象和遮挡进行推理。SLAM过程为对象跟踪器提供了将对象注册到地图框架的信息,对象跟踪器允许标记特征,无论是移动对象上的移动特征,还是由其遮挡边缘创建的伪特征,或者被对象遮挡的特征。而传统的monoSLAM,假设一个刚性的环境,有时会降低性能,当包含移动特性时,组合系统对动态环境更健壮。此外,已知某些静态特征是闭塞的,而不是不可靠的,可以避免调用有点麻烦的特征删除过程,随后可能需要进行不必要的重新初始化,从而延长被遮挡的静态特征的生命周期。

    目标跟踪器是使用哈里斯快速跟踪器的改进版本完成的。识别和姿态初始化目前都是手工完成的。这些视频是为了验证恢复的几何图形,并指出在monoSLAM中包括和避免移动特征对相机姿态的影响。由于移动特征,没有物体跟踪器的系统会给出不正确的相机姿势,但仍然存在,直到视频结束。另一方面,带有目标跟踪器的系统通过图像序列估计出更正确的相机姿态。
  • 珀尔修斯:计算机交互的追踪手

  • 这个项目的目的是通过实时解释手部动作和手势,提供一种自然而直观的与计算机交互的方式。以非侵入性的方式获得这一成本效益的方法是使用来自摄像机的视觉传感。

    这个项目的核心是一种算法,它集成了分割,通过使用简化的3D手部模型对人手进行3D姿态估计,并将姿态参数映射到潜在空间。为了能够在3D中跟踪一个非刚性铰接对象(如人手),它必须首先能够在3D中跟踪刚性非铰接对象。

    我们一直在研究的算法包括将3D形状信息添加到活跃视觉组内部开发的用于2D刚性物体跟踪的跟踪算法中,该算法由Charles Bibby和Ian Reid在他们的论文《使用Pixel-Wise Posteriors的鲁棒实时视觉跟踪》中开发。该算法将图像视为一袋像素(像素在图像中的位置被认为是一个随机变量),然后通过使用像素级后验(而不是可能性)进化出一个水平集函数。这种方法在标准硬件上实时工作。我们正在努力添加一个新的先验:适当调整姿态参数的3D物体模型的渲染与图像的分割区域之间的差异的范数,由水平集函数定义。这个区域将向3D物体的投影方向发展。

    虽然上面提出的算法在优化刚性物体的姿态参数的情况下应该工作,但对于获得非刚性、铰接的物体的姿态可能太慢。为此,我们正在研究使用高斯过程潜在变量模型在高维姿态空间和低维潜在空间之间的映射。

    该系统使用定制的3D引擎。传统的3D渲染引擎(如OpenGL或DirectX)在渲染过程中会丢失转换(旋转、平移和投影)之前的3D点与它们产生的2D投影之间的关系。Out引擎能够保持这种关系,并在线框、填充和轮廓模式中渲染3D对象,应用沙尔过滤器并在仅几毫秒内计算距离变换。这种级别的性能是使用为NVIDIA CUDA框架开发的并行算法实现的。
  • 用于场景增强的同步识别和定位

  • 开发了一种将单摄像机SLAM(同步定位与映射)与已有的特征识别方法相结合的系统。除了使用标准的显著图像特征来构建相机环境的在线地图外,它还能够识别和定位场景中已知的平面物体,并将其几何形状纳入世界地图。对这些映射对象的持续测量提高了估计地图的准确性和跟踪系统的鲁棒性。在手持或可穿戴视觉环境下,该系统能够通过已知物体增强生成的地图,从而增加地图对人类操作员的价值,还能够对用户周围环境进行有意义的自动注释。所提出的解决方案介于地图的高阶丰富(如场景分类)和努力将更高的几何原语(如线)引入概率地图之间。目标检测采用SIFT。将已知物体的数据库与场景图像进行比较,当找到匹配时,使用单应性计算物体的3D位置,并以较高的精度放置在SLAM地图中。

    视频在吐屏视图中比较单目SLAM系统在有和没有物体检测的情况下运行。没有目标检测的系统由于特征不足而失去跟踪,此时视频将放慢速度以突出这一点。系统继续进行物体检测,在视频的最后,它成功地检测到所有五个物体,并准确地将它们定位在世界上。

  • 在SLAM中重新定位丢失的相机