MSadTalker: Modified Stylized Audio-Driven Single Image Talking Face Animation Based on Head Motion Generation and Visual Silence Detection

Yuanlin Wang; Wen He; Qijun Yao; Jichen Yang

doi:10.70695/IAAI202601A8

MSadTalker: 基於頭部運動生成和視覺靜默檢測的改進風格化音頻驅動的單張圖像說話人臉動畫

作者

源霖王廣東技術師範大學作者
文何廣東技術師範大學作者
奇君姚廣東技術師範大學作者
繼臣楊廣東技術師範大學作者

DOI：

https://doi.org/10.70695/IAAI202601A8

關鍵詞：

說話人臉合成；音頻驅動動畫；頭部運動生成；靜默檢測；跨語言的魯棒性

摘要

針對風格化音頻驅動的單張圖像說話人臉動畫（SadTalker）中存在的兩個關鍵問題——跨語言語音中的不自然頭部運動以及靜默期間脣部動作不同步——本文提出了一種改進的SadTalker，命名爲MSadTalker。該方法將頭部運動生成和基於脣部運動的靜默檢測模塊集成至原始SadTalker框架中。具體而言，採用餘弦函數生成自然頭部運動，同時通過脣部運動分析實現視覺靜默檢測。頭部運動生成模塊通過預設振幅與頻率參數，生成穩定且類人的頭部旋轉動作，有效抑制跨語言場景中的不自然抖動；靜默檢測機制則通過計算脣部關鍵點運動的導數並結合閾值判斷識別靜默區間，從而在靜默期間直接抑制不必要的頭部與脣部運動，提升端到端同步性與真實感。實驗結果表明，MSadTalker在中英文等多語言環境下具備更高的穩定性和魯棒性，其頭部運動軌跡更平滑自然，靜默期間姿態保持更穩定。

下载次数

MSadTalker: Modified Stylized Audio-Driven Single Image Talking Face Animation Based on Head Motion Generation and Visual Silence Detection (English)

已發表

2026-03-31

期刊

Vol. 3 No. 1 (2026): AI在IT招聘中的作用

章節

文章

类别

綜述分析

如何引用

王源., 何文., 姚奇., & 楊繼. (2026). MSadTalker: 基於頭部運動生成和視覺靜默檢測的改進風格化音頻驅動的單張圖像說話人臉動畫. 人工智能應用創新, 3(1), 30-38. https://doi.org/10.70695/IAAI202601A8

下载引用

MSadTalker: 基於頭部運動生成和視覺靜默檢測的改進風格化音頻驅動的單張圖像說話人臉動畫

作者

DOI：

關鍵詞：

摘要

下载次数

已發表

期刊

章節

类别

如何引用

語言

Change of Organizing Institution