(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 1021102 A(43)申请公布日 2018.11.30
(21)申请号 201810728026.6(22)申请日 2018.07.05
(71)申请人 盎锐(上海)信息科技有限公司
地址 201703 上海市青浦区沪青平公路
3938号1号楼206(72)发明人 吴跃华
(74)专利代理机构 上海知义律师事务所 31304
代理人 刘峰(51)Int.Cl.
G06K 9/00(2006.01)H04N 13/204(2018.01)G10L 15/26(2006.01)G10L 17/06(2013.01)
权利要求书2页 说明书5页 附图2页
(54)发明名称
3D影像的处理方法及装置
(57)摘要
本发明公开了一种3D影像的处理方法及装置,所述处理装置包括若干3D摄像机以及一处理端,处理端包括一生成模块、一识别模块、一获取模块以及一发送模块,3D摄像机用于获取一空间内多个拍摄目标的3D影像;所述生成模块用于根据同一时刻的3D影像生成3D模型;识别模块用于获取3D模型中一个拍摄目标对应的3D子模型,3D子模型中仅包括一个人脸模型;获取模块用于获取3D子模型转化的目标影像,发送模块用于将目标影像发送至所述目标影像所匹配的终端设备。本发明的3D影像的处理方法及装置能够通过一3D模型影像获取模型影像中单个人物的3D子模型,并将子模型的影像反馈到终端设备上,便于监控以及自动检测目标的行为。
CN 1021102 ACN 1021102 A
权 利 要 求 书
1/2页
1.一种3D影像的处理装置,其特征在于,所述处理装置包括若干3D摄像机以及一处理端,所述处理端包括一生成模块、一识别模块、一获取模块以及一发送模块,
所述3D摄像机用于获取一空间内多个拍摄目标的3D影像;所述生成模块用于根据同一时刻的3D影像生成3D模型;
所述识别模块用于获取3D模型中一个拍摄目标对应的3D子模型,所述3D子模型中仅包括一个人脸模型;
所述获取模块用于获取3D子模型转化的目标影像,所述目标影像为2D图片、2D动画、3D影像或3D动画;
所述发送模块用于将目标影像发送至所述目标影像所匹配的终端设备。2.如权利要求1所述的处理装置,其特征在于,所述处理装置还包括一麦克风,所述处理端还包括一语音模块以及一处理模块,
所述麦克风用于采集所述空间内的语音;
所述语音模块用于通过声纹识别从所述语音中获取第一目标语音及第二目标语音;所述处理模块用于识别第一目标语音中的疑问句并将所述疑问句转化为文字;所述获取模块用于获取目标子模型,所述目标子模型为发出第二目标语音的拍摄目标对应的3D子模型;
所述发送模块用于发送目标子模型的目标影像以及第二目标语音的上一个第一目标语音中疑问句对应的文字至所述目标影像所匹配的终端设备,所述目标影音包括所述第二目标语音。
3.如权利要求2所述的处理装置,其特征在于,所述语音模块用于识别第二目标语音的身份,
所述获取模块用于通过人脸识别技术识别所述身份对应的目标子模型。4.如权利要求1所述的处理装置,其特征在于,所述处理端包括一选取模块,对于每一3D模型,所述选取模块用于以一个人脸模型为中心,在距离所述中心的预设距离位置选取若干物体特征点;
所述识别模块用于根据所述物体特征点在3D模型中截取所述人脸模型的3D子模型;对于一个人脸模型,所述获取模块用于获取所述人脸模型的全部3D子模型,并将所述全部3D子模型按时序排列以生成所述人脸模型对应的3D动画。
5.如权利要求4所述的处理装置,其特征在于,所述处理端还包括一投影模块,所述投影模块用于将3D动画的每一帧投影为2D图片,并将全部2D图片按时序排列以生成所述人脸模型对应的2D动画。
6.一种3D影像的处理方法,其特征在于,所述处理方法通过如权利要求1至5中任意一项所述的处理装置实现,所述处理装置包括若干3D摄像机以及一处理端,所述处理方法包括:
所述3D摄像机获取一空间内多个拍摄目标的3D影像;所述处理端根据同一时刻的3D影像生成3D模型;
所述处理端获取3D模型中一个拍摄目标对应的3D子模型,所述3D子模型中仅包括一个人脸模型;
所述处理端获取3D子模型转化的目标影像,所述目标影像为2D图片、2D动画、3D影像或
2
CN 1021102 A
权 利 要 求 书
2/2页
3D动画;
所述处理端将目标影像发送至所述目标影像所匹配的终端设备。7.如权利要求6所述的处理方法,其特征在于,所述处理装置还包括一麦克风,所述处理方法包括:
所述麦克风采集所述空间内的语音;
所述处理端通过声纹识别从所述语音中获取第一目标语音及第二目标语音;所述处理端识别第一目标语音中的疑问句并将所述疑问句转化为文字;所述处理端获取目标子模型,所述目标子模型为发出第二目标语音的拍摄目标对应的3D子模型;
所述处理端发送目标子模型的目标影像以及第二目标语音的上一个第一目标语音中疑问句对应的文字至所述目标影像所匹配的终端设备,所述目标影音包括所述第二目标语音。
8.如权利要求7所述的处理方法,其特征在于,所述处理方法包括:所述处理端识别第二目标语音的身份,
所述处理端通过人脸识别技术识别所述身份对应的目标子模型。9.如权利要求6所述的处理方法,其特征在于,所述处理方法包括:对于每一3D模型,所述处理端以一个人脸模型为中心,在距离所述中心的预设距离位置选取若干物体特征点;
所述处理端根据所述物体特征点在3D模型中截取所述人脸模型的3D子模型;对于一个人脸模型,所述处理端获取所述人脸模型的全部3D子模型,并将所述全部3D子模型按时序排列以生成所述人脸模型对应的3D动画。
10.如权利要求9所述的处理方法,其特征在于,所述处理方法包括:所述处理端将3D动画的每一帧投影为2D图片,并将全部2D图片按时序排列以生成所述人脸模型对应的2D动画。
3
CN 1021102 A
说 明 书3D影像的处理方法及装置
1/5页
技术领域
[0001]本发明涉及一种3D影像的处理方法及装置。
背景技术
[0002]3D摄像机,利用的是3D镜头制造的摄像机,通常具有两个摄像镜头以上,间距与人眼间距相近,能够拍摄出类似人眼所见的针对同一场景的不同图像。全息3D具有圆盘5镜头以上,通过圆点光栅成像或蔆形光栅全息成像可全方位观看同一图像,可如亲临其境。[0003]第一台3D摄像机迄今3D全部围绕好莱坞重磅大片和重大体育赛事展开。随着3D摄像机的问世,这项技术距离家庭用户又近了一步。在这款摄像机推出以后,我们今后就可以用3D镜头捕捉人生每一个难忘瞬间,比如孩子迈出的第一步,大学毕业庆典等。[0004]3D摄像机通常有两个以上镜头。3D摄像机本身的功能就像人脑一样,可以将两个镜头图像融合在一起,变成一个3D图像。这些图像可以在3D电视上播放,观众佩戴所谓的主动式快门眼镜即可观看,也可通过裸眼3D显示设备直接观看。3D快门式眼镜能够以每秒60次的速度令左右眼镜的镜片快速交错开关。这意味着每只眼睛看到的是同一场景的稍显不同的画面,所以大脑会由此以为其是在欣赏以3D呈现的单张照片。[0005]现有的3D摄像机存在功能单一,应用范围较小的缺陷。发明内容
[0006]本发明要解决的技术问题是为了克服现有技术中3D摄像机存在功能单一,应用范围较小的缺陷,提供一种便于监控以及自动检测目标的行为的3D影像的处理方法及装置。[0007]本发明是通过下述技术方案来解决上述技术问题:[0008]一种3D影像的处理装置,其特点在于,所述处理装置包括若干3D摄像机以及一处理端,所述处理端包括一生成模块、一识别模块、一获取模块以及一发送模块,[0009]所述3D摄像机用于获取一空间内多个拍摄目标的3D影像;[0010]所述生成模块用于根据同一时刻的3D影像生成3D模型;
[0011]所述识别模块用于获取3D模型中一个拍摄目标对应的3D子模型,所述3D子模型中仅包括一个人脸模型;
[0012]所述获取模块用于获取3D子模型转化的目标影像,所述目标影像为2D图片、2D动画、3D影像或3D动画;
[0013]所述发送模块用于将目标影像发送至所述目标影像所匹配的终端设备。[0014]较佳地,所述处理装置还包括一麦克风,所述处理端还包括一语音模块以及一处理模块,
[0015]所述麦克风用于采集所述空间内的语音;
[0016]所述语音模块用于通过声纹识别从所述语音中获取第一目标语音及第二目标语音;
[0017]所述处理模块用于识别第一目标语音中的疑问句并将所述疑问句转化为文字;
4
CN 1021102 A[0018]
说 明 书
2/5页
所述获取模块用于获取目标子模型,所述目标子模型为发出第二目标语音的拍摄
目标对应的3D子模型;
[0019]所述发送模块用于发送目标子模型的目标影像以及第二目标语音的上一个第一目标语音中疑问句对应的文字至所述目标影像所匹配的终端设备,所述目标影音包括所述第二目标语音。[0020]较佳地,所述语音模块用于识别第二目标语音的身份,
[0021]所述获取模块用于通过人脸识别技术识别所述身份对应的目标子模型。[0022]较佳地,所述处理端包括一选取模块,[0023]对于每一3D模型,所述选取模块用于以一个人脸模型为中心,在距离所述中心的预设距离位置选取若干物体特征点;
[0024]所述识别模块用于根据所述物体特征点在3D模型中截取所述人脸模型的3D子模型;
[0025]对于一个人脸模型,所述获取模块用于获取所述人脸模型的全部3D子模型,并将所述全部3D子模型按时序排列以生成所述人脸模型对应的3D动画。[0026]较佳地,所述处理端还包括一投影模块,所述投影模块用于将3D动画的每一帧投影为2D图片,并将全部2D图片按时序排列以生成所述人脸模型对应的2D动画。[0027]本发明还提供一种3D影像的处理方法,其特点在于,所述处理方法通过如上所述的处理装置实现,所述处理装置包括若干3D摄像机以及一处理端,所述处理方法包括:[0028]所述3D摄像机获取一空间内多个拍摄目标的3D影像;[0029]所述处理端根据同一时刻的3D影像生成3D模型;
[0030]所述处理端获取3D模型中一个拍摄目标对应的3D子模型,所述3D子模型中仅包括一个人脸模型;
[0031]所述处理端获取3D子模型转化的目标影像,所述目标影像为2D图片、2D动画、3D影像或3D动画;
[0032]所述处理端将目标影像发送至所述目标影像所匹配的终端设备。[0033]较佳地,所述处理装置还包括一麦克风,所述处理方法包括:[0034]所述麦克风采集所述空间内的语音;
[0035]所述处理端通过声纹识别从所述语音中获取第一目标语音及第二目标语音;[0036]所述处理端识别第一目标语音中的疑问句并将所述疑问句转化为文字;[0037]所述处理端获取目标子模型,所述目标子模型为发出第二目标语音的拍摄目标对应的3D子模型;
[0038]所述处理端发送目标子模型的目标影像以及第二目标语音的上一个第一目标语音中疑问句对应的文字至所述目标影像所匹配的终端设备,所述目标影音包括所述第二目标语音。
[0039]较佳地,所述处理方法包括:
[0040]所述处理端识别第二目标语音的身份,
[0041]所述处理端通过人脸识别技术识别所述身份对应的目标子模型。[0042]较佳地,所述处理方法包括:[0043]对于每一3D模型,所述处理端以一个人脸模型为中心,在距离所述中心的预设距
5
CN 1021102 A
说 明 书
3/5页
离位置选取若干物体特征点;
[0044]所述处理端根据所述物体特征点在3D模型中截取所述人脸模型的3D子模型;[0045]对于一个人脸模型,所述处理端获取所述人脸模型的全部3D子模型,并将所述全部3D子模型按时序排列以生成所述人脸模型对应的3D动画。[0046]较佳地,所述处理方法包括:
[0047]所述处理端将3D动画的每一帧投影为2D图片,并将全部2D图片按时序排列以生成所述人脸模型对应的2D动画。
[0048]在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
[0049]本发明的积极进步效果在于:
[0050]本发明的3D影像的处理方法及装置能够通过一3D模型影像获取模型影像中单个人物的3D子模型,并将子模型的影像反馈到终端设备上,便于监控以及自动检测目标的行为。
附图说明
[0051]图1为本发明实施例1的处理方法的流程图。[0052]图2为本发明实施例2的处理方法的流程图。
具体实施方式
[0053]下面通过实施例的方式进一步说明本发明,但并不因此将本发明在所述的实施例范围之中。[0054]实施例1
[0055]本实施例提供一种3D影像的处理装置,所述处理装置包括若干3D摄像机、一处理端以及一麦克风。
[0056]所述处理端包括一生成模块、一识别模块、一获取模块、一发送模块一语音模块以及一处理模块。
[0057]所述3D摄像机用于获取一空间内多个拍摄目标的3D影像。[0058]所述空间可以是房间、教室、牢房等区域,每一个拍摄目标可以是一个人物。[0059]所述生成模块用于根据同一时刻的3D影像生成3D模型。
[0060]通过对多个3D摄像机获取的3D影像进行拼接能够生成一3D模型。[0061]所述识别模块用于获取3D模型中一个拍摄目标对应的3D子模型,所述3D子模型中仅包括一个人脸模型。
[0062]本实施例通过一个3D模型中提取出仅包含一个人脸模型的3D子模型。[0063]所述获取模块用于获取3D子模型转化的目标影像,所述目标影像为2D图片、2D动画、3D影像或3D动画,本实施例中所述目标影像为3D动画,所述3D动画通过一帧一帧的3D子模型,按照时序排列生成。
[00]所述发送模块用于将目标影像发送至所述目标影像所匹配的终端设备。[0065]利用所述麦克风,本实施例的处理装置能够准确的识别出现场情况以及正在说话的人。
6
CN 1021102 A[0066][0067]
说 明 书
4/5页
所述麦克风用于采集所述空间内的语音;
所述语音模块用于通过声纹识别从所述语音中获取第一目标语音及第二目标语
音;
所述处理模块用于识别第一目标语音中的疑问句并将所述疑问句转化为文字;
[0069]所述语音模块用于识别第二目标语音的身份。
[0070]所述获取模块用于通过人脸识别技术识别所述身份对应的目标子模型。所述目标子模型为发出第二目标语音的拍摄目标对应的3D子模型;
[0071]所述发送模块用于发送目标子模型的目标影像以及第二目标语音的上一个第一目标语音中疑问句对应的文字至所述目标影像所匹配的终端设备,所述目标影音包括所述第二目标语音。
[0072]本实施例的具体应用场景为,将讲课的教师的语音设置为第一目标语音,当教师讲课提问时,回答的学生为第二目标语音,本实施例的处理装置能够将将老师提问的问题以及学生回答的影音传输给家长。[0073]利用上述处理装置,本实施例还提供一种处理方法,包括:[0074]步骤100、所述3D摄像机获取一空间内多个拍摄目标的3D影像;[0075]步骤101、所述处理端根据同一时刻的3D影像生成3D模型;[0076]步骤102、所述麦克风采集所述空间内的语音;[0077]步骤103、所述处理端通过声纹识别从所述语音中获取第一目标语音及第二目标语音;
[0078]步骤104、所述处理端识别第一目标语音中的疑问句并将所述疑问句转化为文字;[0079]步骤105、所述处理端识别第二目标语音的身份。[0080]步骤106、所述处理端通过人脸识别技术识别所述身份对应的目标子模型。[0081]所述目标子模型为发出第二目标语音的拍摄目标对应的3D子模型。[0082]步骤107、所述处理端发送目标子模型的目标影像以及第二目标语音的上一个第一目标语音中疑问句对应的文字至所述目标影像所匹配的终端设备,所述目标影音包括所述第二目标语音。[0083]实施例2
[0084]本实施例与实施例1基本相同,不同之处仅在于:[0085]所述处理端包括一选取模块。[0086]对于每一3D模型,所述选取模块用于以一个人脸模型为中心,在距离所述中心的预设距离位置选取若干物体特征点;
[0087]所述识别模块用于根据所述物体特征点在3D模型中截取所述人脸模型的3D子模型;
[0088]对于一个人脸模型,所述获取模块用于获取所述人脸模型的全部3D子模型,并将所述全部3D子模型按时序排列以生成所述人脸模型对应的3D动画。[00]排列时,由于全部3D子模型均是通过物体特征点获取,相互之间的大小能够匹配,进一步地,将相邻的两3D子模型的物体特征点对准、对齐,提高3D动画的画质。[0090]所述处理端还包括一投影模块,所述投影模块用于将3D动画的每一帧投影为2D图片,并将全部2D图片按时序排列以生成所述人脸模型对应的2D动画。
[0068]
7
CN 1021102 A[0091]
说 明 书
5/5页
相应的,本实施例的处理方法包括:
[0092]步骤200、对于每一3D模型,所述处理端以一个人脸模型为中心,在距离所述中心的预设距离位置选取若干物体特征点;[0093]步骤201、所述处理端根据所述物体特征点在3D模型中截取所述人脸模型的3D子模型;
[0094]步骤202、对于一个人脸模型,所述处理端获取所述人脸模型的全部3D子模型,并将所述全部3D子模型按时序排列以生成所述人脸模型对应的3D动画。[0095]步骤203、所述处理端将3D动画的每一帧投影为2D图片,并将全部2D图片按时序排列以生成所述人脸模型对应的2D动画。
[0096]本实施例的处理方法能够生成实施例1中步骤106的3D子模型,使3D子模型更加保真。
[0097]虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
8
CN 1021102 A
说 明 书 附 图
1/2页
图1
9
CN 1021102 A
说 明 书 附 图
2/2页
图2
10