MSadTalker: 基于头部运动生成和视觉静默检测的改进风格化音频驱动的单张图像说话人脸动画
DOI:
https://doi.org/10.70695/IAAI202601A8关键词:
说话人脸合成;音频驱动动画;头部运动生成;静默检测;跨语言的鲁棒性摘要
针对风格化音频驱动的单张图像说话人脸动画(SadTalker)中存在的两个关键问题——跨语言语音中的不自然头部运动以及静默期间唇部动作不同步——本文提出了一种改进的SadTalker,命名为MSadTalker。该方法将头部运动生成和基于唇部运动的静默检测模块集成至原始SadTalker框架中。具体而言,采用余弦函数生成自然头部运动,同时通过唇部运动分析实现视觉静默检测。头部运动生成模块通过预设振幅与频率参数,生成稳定且类人的头部旋转动作,有效抑制跨语言场景中的不自然抖动;静默检测机制则通过计算唇部关键点运动的导数并结合阈值判断识别静默区间,从而在静默期间直接抑制不必要的头部与唇部运动,提升端到端同步性与真实感。实验结果表明,MSadTalker在中英文等多语言环境下具备更高的稳定性和鲁棒性,其头部运动轨迹更平滑自然,静默期间姿态保持更稳定。