MSadTalker: 基於頭部運動生成和視覺靜默檢測的改進風格化音頻驅動的單張圖像說話人臉動畫
DOI:
https://doi.org/10.70695/IAAI202601A8關鍵詞:
說話人臉合成;音頻驅動動畫;頭部運動生成;靜默檢測;跨語言的魯棒性摘要
針對風格化音頻驅動的單張圖像說話人臉動畫(SadTalker)中存在的兩個關鍵問題——跨語言語音中的不自然頭部運動以及靜默期間脣部動作不同步——本文提出了一種改進的SadTalker,命名爲MSadTalker。該方法將頭部運動生成和基於脣部運動的靜默檢測模塊集成至原始SadTalker框架中。具體而言,採用餘弦函數生成自然頭部運動,同時通過脣部運動分析實現視覺靜默檢測。頭部運動生成模塊通過預設振幅與頻率參數,生成穩定且類人的頭部旋轉動作,有效抑制跨語言場景中的不自然抖動;靜默檢測機制則通過計算脣部關鍵點運動的導數並結合閾值判斷識別靜默區間,從而在靜默期間直接抑制不必要的頭部與脣部運動,提升端到端同步性與真實感。實驗結果表明,MSadTalker在中英文等多語言環境下具備更高的穩定性和魯棒性,其頭部運動軌跡更平滑自然,靜默期間姿態保持更穩定。