中 国 科 学 院 计 算 技 术 研 究 所
硕博连读生转博资格论文
基于视频的人体运动捕捉
刘国翌
指导教师 李华 中科院计算所研究员
学科专业名称 计算机应用
论文提交日期 2002.4
基于视频的人体运动捕捉:摘 要
摘 要
本文的主要研究是在国家973项目“数学机械化方法和自动推理平台”(G1998030600)、“奥运科技项目”以及中科院计算所青年创新基金的支持下完成的。
本文系统地总结了当前基于视频的人体跟踪技术的研究进展,对涉及人体跟踪的基础理论和技术难点做出了详尽的讨论。
本文在总结前人工作的基础上,应用图象处理及运动预测等有关跟踪的相关技术,实现了从一段足球比赛视频录像中跟踪多个球员位置。同时本文还从录像中自动提取禁区和球门区的边界线的参数表示,并利用提取结果进行摄像机定标和球员定位。
本文根据“奥运科技项目”的具体要求,针对举重运动项目,搭建了试验各种算法的实验平台,包括基于人体骨架模型的三级跳运动仿真,摄像机定标和基于人体轮廓的定性分析。
关键词:人体运动跟踪,视频捕捉 ,运动建模与分析
I
基于视频的人体运动捕捉:Abstract
Video-Based Human Motion Capture
Liu Guoyi Directed By Li Hua
This report addresses the technique of Video-based Human Motion Capture ,gives a detail survey on the theories and techniques of Video-based Human Motion Capture and discusses the difficulties of motion capture and the possible solutions.
This report also presents the work of tracking players from soccer match videos. Many tracking technique is used in this work, including image processing, mathematical morphology
and Kalman filter to determine players’ positions in the video sequence. A method is presented to implement a quick segmentation and extraction of feature lines from a soccer video. The parameters
of the white lines, which are around penalty area and goal area, are detected automatically.
These parameters can be used to determine the camera parameters, reconstruct the soccer field, and compute the soccer players’ real positions.
In order to prepare the ‘ Technologically Advanced Olympiad’ project, this report discusses a framework of motion analysis on weight lifting. Some tests plants are set up to try various motion capture techniques including a 3D stick model, camera calibration and qualitative analysis on human’s silhouette.
Keywords: human motion capture, motion extraction, motion modeling and analysis
III
基于视频的人体运动捕捉:目 录
目 录
第1章 绪论 .............................................................................................................................. 1
1.1 基于视频的人体运动捕捉技术及其应用 .................................................................. 1 1.2 问题描述和一般的跟踪框架 ...................................................................................... 2 1.3 跟踪问题难点 .............................................................................................................. 3 1.4 今后研究趋势 .............................................................................................................. 4 1.5 对前人所做系统的介绍和分析 .................................................................................. 4
1.5.1 Pfinder 系统 ....................................................................................................... 5 1.5.2 基于twist motion和exponential maps的方法 ...... 错误!未定义书签。 1.5.3 基于元球模型的3维点匹配方法 .................................. 错误!未定义书签。 1.5.4 基于形变块匹配的方法 .................................................. 错误!未定义书签。
第2章 运动跟踪的常用算法及关键技术 ............................................ 错误!未定义书签。
2.1 运动跟踪假设与底层特征提取 ................................................ 错误!未定义书签。 2.2 基于人体模型的运动预测和匹配技术 .................................... 错误!未定义书签。
2.3.1 人体模型的使用 .............................................................. 错误!未定义书签。 2.3.2 基于模型的匹配技术 ...................................................... 错误!未定义书签。 2.3 最小二乘法 ................................................................................ 错误!未定义书签。 2.4 Kalman滤波技术 ....................................................................... 错误!未定义书签。 2.5 EM方法简介 .............................................................................. 错误!未定义书签。 第3章 足球比赛录像中的球员跟踪 .................................................... 错误!未定义书签。
3.1分割看台、球员和白线 ............................................................. 错误!未定义书签。
3.1.1提取看台和球员 ............................................................... 错误!未定义书签。 3.1.2分割白线 ........................................................................... 错误!未定义书签。 3.2 提取球场特征线参数 ................................................................ 错误!未定义书签。
3.2.1 Hough变换的原理 ........................................................... 错误!未定义书签。 3.2.2提取直线参数 ................................................................... 错误!未定义书签。 3.3 球员跟踪 .................................................................................... 错误!未定义书签。 3.4实验结果,存在的问题和改进计划 ......................................... 错误!未定义书签。 第4章 “奥运科技”项目的准备工作和今后的研究方向 ................ 错误!未定义书签。
4.1 实验环境的建立和初步结果 .................................................... 错误!未定义书签。 4.2奥运科技项目运动捕捉的实现设想 ......................................... 错误!未定义书签。 4.3未来工作及研究方向的规划 ..................................................... 错误!未定义书签。
4.3.1 回所以来主要工作 .......................................................... 错误!未定义书签。 4.3.2未来工作计划 ................................................................... 错误!未定义书签。
V
基于视频的人体运动捕捉:目 录
参考文献 .................................................................................................................................... 7 致 谢 ........................................................................................................................................ 8
- VI -
第一章 绪论
第1章 绪论
对视频中的人的运动进行跟踪、自动识别并解释人的行为一直以来都有着许多重要的应用,如自动监视系统,虚拟现实中的人机接口,体育和医学方面的运动分析等等。其中对人体及其组成部分的跟踪是整个系统中的最重要的部分,运动的识别和分析均须在其基础上进行。经过二十余年的发展,当前基于视频的跟踪技术融合了图象处理,计算机视觉,计算机图形学,人工智能以及人体运动学等多学科的理论,成为多学科交叉的一个热门领域。
本章首先综述了基于视频跟踪技术的分类及其在不同领域的应用背景,然后总结当前一些较为成熟的系统框架,同时对当前本领域研究的难点和研究趋势进行分析。最后介绍了国内外的比较成功的跟踪系统以及其对这些系统的一些分析。 1.1 基于视频的人体运动捕捉技术及其应用
人体运动捕捉是指“在某种分辨率下,捕捉大尺度的人体运动的过程”[Gavrila1997],这里所说的大尺度是指头上肢躯干下肢的运动,排除表情和手势等小尺度的动作。市场上比较成熟人体运动捕捉系统有基于电动机械的(Electromechanical),电磁的(Electromagnetic)和特殊光学标志(Retro- reflective Marker)等类型。磁性或者光学的标记被附在人的肢体上,它们的三维轨迹被用来描述目标运动,这些系统是自动的,但是其设备非常笨重,且价格昂贵。随着廉价数字摄像机和高性能家用PC机的普及,基于视频的人体运动捕捉越来越成为研究的热点。
基于视频的人体运动捕捉很多潜在的应用领域,包括自动监视、人机交互接口,人体运动分析,动画、影视中特技制作,基于内容的视频编码等等。
在自动监视的应用中,系统对单个或多个目标进行跟踪,并根据目标的运动特征分析其行为。这种系统可应用于停车场,超市,自动取款机等场所的监视。在本文后面的足球比赛的球员跟踪也可归于这个领域。
跟踪技术也可以作为一种于计算机交互的一种方式,通过对人体头部及肢体的跟踪得到各个身体部分的2维或3维空间的位置变化,并据此识别人体的动作行为,然后驱动或控制其它应用。在这里,跟踪技术可以用作手语识别,游戏接口、虚拟现实、和远程控制,远程会议。例如:在MIT 的媒体实验室STIVE 系统中,人体跟踪技术结合虚拟现实被用来帮助癌症患者。患者通过打太极拳来控制虚拟现实中的白细胞去战胜癌细胞,提高病人战胜癌症的信心[Becker1996]。
人体运动分析主要应用于医学和体育领域。在医学方面,可以利用运动分析对病人进行步态分析。在体育方面,可以通过对运动员的运动分析帮助他们提高运动技能。
- 1 -
第一章 绪论
由于应用的不同,应用对跟踪系统的性能要求也有所不同,主要的性能要求体现在对健壮性、准确性、和速度三个方面的要求。
一般来说系统对环境假设越少时对系统健壮性要求越高。监视一般在不可控制的条件下进行,所以前景背景分离应基于运动,而且一般不使用人体模型。运动分析则是在受控的条件下实现,要求准确地跟踪各个关节点,系统往往使用大量假设。商业系统则一般是通过给身体做记号的方法,再利用偏移量获得骨骼位置。
健壮性 准确性 速度 监视 + - +
1.2 问题描述和一般的跟踪框架
根据Marr的视觉计算理论,视觉是一个信息处理系统,可以分为计算理论、表示与算法、硬件实现三个层次。在计算理论层次要回答视觉系统的目的(输入和输出)和策略。视觉系统的任务就是研究如何建立输入输出之间的关系和约束,如何由二维灰度图象恢复物体的三维信息(形状、位置和姿态)。在表示与算法层次上回答了如何表示输入输出信息,如何实现计算理论所对应的功能的算法,以及如何由一种表示变换成另一种表示[贾云得2000]。
根据Marr的理论,可以将基于视频的人体跟踪系统看作为一个寻找视频与人体运动的对应关系的过程。输入是一个或多个视角的的图象序列,输出是有关人体运动的运动参数。由于不同跟踪系统的输入,输出内容各不相同,所以他们的表示和实现也有所不同。根据不同的假设和对人体的模型的使用方法以及所使用的底层特征可以对此跟踪问题有不同的分类。如基于模型和不基于模型,多摄像机和单摄像机等等。
Marr 将视觉系统分为自下而上分为三个阶段,他将视觉过程表述为一个逐步由底层特征抽象为高级特征的过程[贾云得2000]。然而在人体跟踪这个特定问题中,存在着大量的先验知识可以利用,主要包括人体骨架模型和人体运动模型。所以大多数系统采用了基于人体模型的运动跟踪。通过骨架模型的约束和运动模型的约束来指导从底层特征到较高级的描述人体的运动参数的匹配过程。
文献[Gavrila1997]将人体运动跟踪的过程分为以下四个阶段:初始化(initialization)、跟踪(tracking)、姿态估计(pose estimation)、识别(recognition)。
- 2 -
控制 +/- + + 分析 - + + 表1.1 不同应用的性能要求(引自[Gavrila1997])
第一章 绪论
1.初始化过程包括摄像机定标,获得环境特征、背景模型、人体模型的初始参数(骨骼长度)和模型初始姿态,一般有手工参与。
2.在跟踪阶段中,利用图象分割获得底层特征,并将帧之间的特征进行对应。 3.在姿态估计阶段,底层特征被匹配到人体模型,从而得到人在当前帧的姿态。 4.在识别阶段,系统通过分析结果,得到人体运动的行为状态。
这四个过程并不是一个简单串行的关系,每个阶段的中间结果都可以反馈给上一个阶段,指导前面过程的进行。
本文将研究重点放在第一二三阶段,对于识别过程不作过多讨论。 1.3 跟踪问题难点
计算机视觉虽然经过几十年的研究有了很大的发展,但是由于人们缺乏对人类视觉机理尤其是涉及到人类智能机理方面的认识,计算机视觉和人的视觉还有相当大的差距。一般所说得机器视觉仅能在可控的条件下工作。问题在于计算机缺乏有关环境、人体的等方面的知识。如果是在不可控的条件下,计算机无法甚至无法从单幅照片中判断是否有人存在。
所以在跟踪问题中避开计算机视觉这个经典难题的方法是充分利用有关人体的有关知识,并加上适当的假设,综合多种跟踪方法。
具体到人体跟踪这个问题,涉及到的处理难点有以下几点:
1.在不多加假设的条件下,人与背景的自动分离。这实际是一个分割问题,这个问题至今没能很好的解决。
2.处理遮挡手臂与身体之间的互相遮挡问题。当前的许多系统都假设被跟踪目标不被遮挡,当遮挡发生时,跟踪往往因为失去目标而失败。当前的解决方法包括:当发生遮挡时,利用前后帧的数据计算被遮挡目标的位置。使用多摄像机,当一个摄像机失败时用其它摄像机的数据来跟踪。
3.若四肢与身体的衣服纹理相同,由于缺乏对比度,当手臂与身体相交,无法分离出手臂信息。
4.如何实现无人工干预的自动初始化,并能从错误中自动恢复。很多运动捕捉系统运行的前提条件在录像第一帧中手工初始化人体模型及其姿态,但是这种方法不仅需要人的工作,而且由于手工初始化的信息的影响会随时间逐渐减弱,所以无法避免累积错误和其它干扰。
5.处理错误累积,和光照变化等环境因素的影响,实现长时间的跟踪运动(区别正是由于以上难点,根据所阅读的文献,当前还没有任何一个基于计算机视觉的系统能够跟踪出人体任意的三维运动。然而在商业系统中,包括基于光学标记和一些被动的跟踪系统(基于电磁和机械的)可以做到这一点。 于几秒钟的运动)。
- 3 -
第一章 绪论
1.4 今后研究趋势
通过总结近年的有关文献,今后有关基于视频的人体运动跟踪的研究趋势是: 1.由单摄像机转向多摄像机。根据当前技术水平,利用单摄像机跟踪有无法克服的困难,无法准确地跟踪全部肢体(由于遮挡),无法得到关节点的3维位置(由于单视点无法得到深度)。融合多摄像机之间的数据来克服这些难题是一个很自然的选择。
2.减少过多的假设,或降低对环境,人体的各种, 提高初始化的自动程度。有许多系统在实验环境中得到了很好的效果,但由于加入了许多假设,缺乏使用价值,所以今后的研究工作应该逐渐减少对实验环境的依赖,使系统具有某种环境的自适应性。
3.有效地组合各种数据,使跟踪系统更加健壮(保证长时间的跟踪,不过多的依赖于初始化,消除累积错误的影响,自动从因遮挡,变焦,帧间变化太大失败中恢复) 。根据不同的假设条件,可以从图象中提取不同的特征数据,例如基于颜色分割的图象数据,基于帧间变化的运动数据,基于减背景轮廓数据,并且根据特征的不同采用不同的算法,这些算法有着不同的失败条件,如果能够在有关人体运动知识的指导下组合使用这些数据,将有效地提高系统地健壮性。
4.从语音识别中获得启发,记录并标记大量的训练数据,表示为一些原子语言,利用原子语言把估计问题变为识别问题,训练集合可以用商业系统或图形学方法生成。[Gavrila1997]
5.利用统计理论和机器学习理论对人体运动进行自动建模。 6.使用图形学的相关技术,使用更精细的人体模型。 1.5 对前人所做系统的介绍和分析
根据国内外有关人体运动跟踪的有关文献,大体可以将人体运动跟踪分为底层跟踪,运动捕捉,运动分析等等。国外研究已经有近20年,本节将介绍并分析3篇引用较多且方法较有代表性的文章。它们是
(1) C.R. Wren 等人的“Pfinder: Real- Time Tracking of the Human Body”[Wren1995] (2) C. Bregler等人的 “Video Motion Capture”[Bregler1998]
(3) Ralf Plankers等的 “Tracking and Modeling People in Video Sequences” [Plänkers2001]
在国内基于视频的捕捉研究已经有五六年时间,本节将介绍对以下两个文献。 (4) 胡长波等人的“Human posture recognition using genetic algorithms and Kalman
motion estimation”[Hu2000]
(5)庄越挺等人的“一种基于视频的人体动画骨架提取技术”[庄越挺2000]
- 4 -
第一章 绪论
1.5.1 Pfinder 系统
文献[Wren1995]介绍了MIT媒体实验室的Pfinder 系统。这个系统从95年开始建立,运行于标准的SGI工作站上。Pfinder系统是一个受评价很好的系统,被应用到许多应用程序中,其所用的方法具有相当的代表性。
此系统在单人、复杂的室内场景的前提下,可以从单摄像机的图象序列跟踪人体运动,获得运动模型的椭圆块(blob)表示。
此系统主要思想是利用统计方法对一个静态的背景和动态的前景进行建模。人体模型被描述为多个连接的blob。每个blob是一个连通区域,里面的象素具有相似的颜色和位置,这些点被描述为一个五维随机变量(Y,U,V,x,y)的高斯分布,YUV是YUV颜色模型三个分量,x,y是点的图象坐标。Blob的区域范围用一个support map来描述,support map 是一个椭圆形的区域。背景上的每个点被描述为关于颜色的高斯分布,每个点用颜色向量(Y,U,V)的均值和协方差来描述,背景模型被不断的更新,以适应场景的改变(如某个物体被移动)和照明变化。
当处理一个新图象时,根据每个点的最大后验概率来确定点(x,y)的归属,具体来说首先特征向量到上一帧每个块的Mahalanobis 距离,从而生成当前帧的各个块的support map ,每个象素被归类到某个块或背景的素support map中。让前景象素生长,使之成为一个连通区域,然后每个单独的块在进行生长填充整个前景区域。重新计算每个块的统计信息,并利用卡尔曼滤波来预测下一帧的各个块的位置。
这个系统工作前需要几秒的场景中无人录像来初始化。利用轮廓和颜色信息建立人体的块模型,用提取的轮廓找到头手脚的位置,利用颜色来找到并定义那些原来被遮挡的后来又重新出现的块。系统根据它们的可信度赋予相应的权值组合使用这两种建立模型的方法,以此在跟丢的情况下总是可以在几帧内得到恢复。这个系统被使用为MIT Media Lab的许多应用的前端模块。
分析:系统可以达到实时跟踪(200Mhz SGI,160*120 color 10 frame/s)且适应性强,无需准确初始化和较多的本地特征。系统通过结合使用blob和contour两种特征描述,并将不同的参数设置不同的优先级,使系统更加健壮。
但由于blob模型过于简单,很难应用有关人体的领域知识,且强调实时,没有考虑更多因素,所以从跟踪结果来看,输出仅有头,手,躯干的区别,没有关节点的表示,无法以精确描述人体运动。
- 5 -
基于视频的人体运动捕捉:参考文献
参考文献
[Aggarwal1999] J.K. Aggarwal and Q. Cai. Human Motion Analysis: A Review. Computer
Vision and Image Understanding, 73(3), 1999. pp.441-454
7
基于视频的人体运动捕捉:作者简历
致 谢
首先要感谢的是我的导师李华研究员。在我回所八个多月的时间里,对我
学习和生活的无微不至的指导和关怀使我受益匪浅。渊博的知识,严谨的治学都深深的影响着我。从那里我学到了基本的学习和研究方法,为我今后的研究工作打下坚实基础。在此我向他表示崇高的敬意和衷心的感谢。
我还要感谢杜威,向世明以及其它师兄弟们。无论是在完成此报告期间还是在平常的研究生学习过程中,他们都给予我许多无私的帮助。在与他们的经常的学术讨论中,我从他们那里学到了许多专业知识和应用技巧。所以说如果没有他们的帮助,我无论如何不能取得现在的进步。
最后我要感谢我的父母兄弟这么多年来对我物质和精神上的全力支持,他们对我无私关爱和热情鼓励让我能在求学的道路上始终保持乐观、自信和坚定的步伐。
基于视频的人体运动捕捉:致谢
作者简历
姓名:刘国翌 性别:男 出生日期:1977.10.2 籍贯:吉林
2000.9 -- 现在
中科院计算所硕博连读研究生 北京大学计算机系本科生
1996.9 -- 2000.7
【攻读博士学位期间发表的论文】 1.
【攻读博士学位期间参加的科研项目】
【攻读博士学位期间的获奖情况】 1.
9
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 517ttc.cn 版权所有 赣ICP备2024042791号-8
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务