面向老字号品牌的多模态 AIGC 定制化研究——基于Stable Diffusion 的视觉生成与评估框架
DOI:
https://doi.org/10.70695/IAAI202504A6关键词:
Time-honored Brand; Stable Diffusion; Cultural Feature Embedding; Multimodal Control; Efficient Parameter Fine-Tuning; Reliability Calibration; Visual Generation摘要
为满足老字号品牌视觉设计中文化表达与工程实现的双重需求,本研究提出一种基于 Stable Diffusion 的适应性优化架构。该架构采用文本嵌入(Textual Inversion)技术获取可组合的文化表征单元,借助 LoRA/DreamBooth 参数实现通用风格与专属风格的高效微调。通过集成 ControlNet 与 IP-Adapter,系统实现了布局与风格先验知识的融合,同时采用双通道门控机制实现语义与构图的协同控制。在推理阶段,通过 CFG-Rescale、注意力重加权及温度缩放等方法对提示词遵循度的可靠性进行校准。基于公开多模态数据集及真实品牌场景的大量实验表明,该方法在客观指标与人工评价的一致性方面实现显著提升;鲁棒性测试与组件消融实验证实了方法的稳定性及各组件的必要性,而 A/B 测试则凸显其在成本效益与运行效率方面的显著优势。本研究最终为文化遗产及商业品牌的视觉生成需求提供了一套可复现、可验证的技术方案。