Oculus分享Lipsync工作原理如何让虚拟角色唇部说话栩栩如生

在今年的Facebook开发者大会上,Oculus展示了音频到面部动画技术的最新进展。这项功能允许我们通过任何语言的口语来实时驱动面部动画。Oculus日前正式宣布,这项技术将在最新的Oculus Lipsync Unity集成更新中向开发者开放。 Oculus Lipsync是一种Unity集成,用于将虚拟角色的唇部动作同步至语音。它主要是离线或实时分析音频输入,然后预测可用于令虚拟角色或非玩家角色(NPC)嘴唇动画化的一组发音嘴形。视觉音素/视素(visual phoneme/viseme)是嘴唇和面部的姿势或表达,其对应于特定的语音(音素)。例如在讨论读唇术时,我们常常使用这个术语,其概念类似于音素,并且是具备可理解度的基本视觉单元。在计算机动画中,我们可以使用视觉音素来制作虚拟角色的动作,令它们看起来像是在说话。 Oculus Lipsync将音频输入映射至一个包含15个视觉音素目标的空间:sil,PP,FF,TH,DD,kk,CH,SS,nn,RR,aa,E,ih,oh和ou。视素描述了在发出相应语音时产生的面部表情。例如,视素sil对应于silent/neutral表达;PP对应于在“popcorn(爆米花)”发音的第一个音节;FF是“fish(鱼)”的第一个音节,诸如此类。选择上述目标是为了给出最大范围的唇部运动,并且支持尽可能多的语言。有关这15个视素及其选择方式的更多信息,请参阅本文最后的文档:Viseme MPEG-4 Standard。尽管本文档包含了视素的参考图像,但Oculus发现艺术家难以从中复制精确的几何图形。为了克服这个问题,Oculus从多个角度制作了一组更高分辨率的视素参考图:Oculus Viseme Reference Images(Oculus视素参考图像)。 当Oculus第一次发布LipSync时,他们专注于支持Facebook Spaces等应用程序。在这种情况下,它用于生成静态唇形张开和闭合的粗略动画。对于这一点,实现方式是使用Lipsync插件来驱动所谓的Texture-Flip风格面部动画,如上面的机器人动图所示。这里每个视素都映射到单个纹理,并且每帧显示最大活动视素的纹理。最近的社交VR发展(包括2018年初的Spaces更新)都使用了更高保真度,基于混合形状的面部模型,而这需要更高质量的面部动画。对于基于混合形状的模型,其需要对相同拓扑的不同几何形状(或混合形状)进行加权组合,并将它们相加以创建动态形状输出。这样的模型不仅需要预测最大活动的视素,而且要求所有视素的权重,从而能够流畅地为模型设置动画,结果如下图所示。为了实现如此高保真的面部动画,Oculus的研究团队采用了一种新颖的方法,将深度学习的进步与人类语音生成的知识结合了起来。 最初通过SDK 1.16.0推出的原版Oculus Lipsync采用一个小而浅薄的神经网络来学习一小段语音音频输入和音素(构成人类语音的声音单位)之间的映射。尽管这个模型在英语方面的效果相当好,但它在其他语言方面效果不佳,而且容易受背景噪音的影响。作为研究和产品之间的合作,Oculus投资了更新的机器学习模型,即时间卷积网络(TCN)。对于时间卷积网络,它们已经能够在其他领域的任务中实现显著更高的性能和稳定性,如视觉和语言。在内部测试中,这种TCN模型能够将英语语音的视素准确度提高30%以上,并且在重口音和大量背景噪音方面优于先前的模型。在Speech Processing社区中,它们被称为声学模型,并且经常用作语音识别管道的输入。 下图描述了一般的TCN架构。这个模型使用过去的low-level音频特征数据流来作为输入,以及在某些情况下(如对于离线应用而言),使用来自“未来”的信息来预测一组视素。可以调整架构的精确参数来优化计算效率和性能,但总体布局属于原样。 Oculus表示,这个全新的优化模型使他们意识到需要大量的努力来制作高质量的视素混合形状,从而驱动富有表现力的虚拟角色面部表情。Oculus的美术和面部姿势专家共同解决了这个问题,并制作了一套新的视素参考图像。借助这些参考图像,Oculus为虚拟角色,以及为演示几何创建了新的面部动画混合形状,具体可通过这个页面进行下载。 在这个版本中,Oculus为开发者提供了利用最先进唇形技术来驱动实时虚拟角色和非玩家角色的能力。这是Oculus和Facebook Reality Labs的研究科学家,机器学习工程师,产品管理,图形艺术家和面部姿势专家的共同努力。Oculus已经更新了Unity插件和演示内容,目标是令Oculus Lipsync更强大,更具表现力,更易于使用。 新浪VR将在未来数日,深度横评VIVE Focus、小米VR一体机、Pico G2、DPVR全景声巨幕影院等4款最新VR一体机热品,从用户角度出发,… 好莱坞高分动画电影《精灵旅社3:疯狂假期》正在全国热映,仅3天票房已过亿,影片由原班人马倾力打造,延续了系列前作的爆笑喜剧… 很高兴看到各种全新VR/AR技术,设备,工具包和平台的不断涌现。但对于开发者来说,这种变化将成为软件,功能和业务优先级的噩梦。 据调查,大约60%-80%截肢者在截肢后的某个时刻会出现“幻肢综合症”。一种不舒服,有时是痛苦的情况,患者感觉自己仍然可以控制“…

Read More

英音炼最强英音之Dan Stevens

  。我们主要通过Downton Abbey中的大表哥了解到了他。最近,大家最为熟悉的可能就是《美女与野兽》里的野兽哥了。不过通篇无论外表还是声音都被电脑处理过,基本上也有YY一下就可以了。他可以说是卷福抖森等人中又一位让米妹们尖叫的英国男人,而她们的耳朵也不知道被怀孕了多少次了。   在《唐顿庄园》里,Dan Stevens用了非常当代的标准英音,与他不分伯仲的则是大表姐了。两人的发音精准度几乎是等同的,令人相当赏心悦目。   留意英音的语速。不要再说语速太快。这个是朗读的速度,可以说是中速或者中等偏快一些而已。同时,要做到发音清晰。   在朗读的时候,注意旁白不用有太明显的感情。感情往往用在对话中。切记不要用中式朗读的方式,将旁白声情并茂并在最后上扬以显得高潮。   《最强英音》系列是欣赏系列,不强制作为社群作业点评范围。不过,大家能够按照这个练习就更棒了。   上课之余,一直有伙伴们问我哪些电视剧中的演员的发音可以模仿,哪些又是带有口音等等。我看了一下现在网上大部分讲发音的订阅号,发现能够自己念的准的已经凤毛麟角,更鲜有能够提供相当精确标准的模仿素材。要知道大部分现代英剧特别是侦探类题材或者都市类题材中都有相当明显的地方口音的特征,不能成为英语学习者较好的示范模仿对象。返回搜狐,查看更多

Read More