北京信息科技大学计算机学院张乐团队在《数据分析与知识发现》发表论文《大模型特征增强与多层次交叉融合的多模态情感分析方法》,针对多模态情感分析中不同模态情感表达不一致、影响协同决策效果的问题,提出了全新的多模态情感分析方法。该方法借助多模态大语言模型提取模态内辅助情感信息,通过层次化交叉注意力机制挖掘模态间共性与模态内辅助特征,搭配模态注意力加权融合及多单模态融合的损失函数,有效解决了情感语义不一致问题,在公开数据集测试中效果优于对比模型。

随着社交媒体发展,情感分析向多模态转变,但不同模态间的情感语义不一致问题,易引发情感误判,成为多模态情感分析的关键痛点。现有相关方法或过度依赖文本模态,或未平衡模态间共性与模态内辅助情感信息的贡献,难以有效解决该问题。
为此,张乐团队提出了名为FEMF的多模态情感分析方法,构建了两大核心层级。在特征表示层,团队引入多模态大语言模型Gemini,结合BERT、OpenFace、Librosa等工具,分别提取文本、视觉、音频模态的基础特征与隐式、细粒度辅助情感特征,丰富了各模态的情感特征表示;在情感一致性增强层,设计层次化交叉注意力机制,让文本与视觉、音频模态相互引导,强化共性情感语义表达,同时通过模态自注意力机制加权融合模态内特性信息,平衡不同特征的贡献。
团队还创新设计了融合皮尔逊相关系数的损失函数,结合多模态与单模态损失,拉近单模态与多模态情感的关联,进一步缓解模态间情感冲突。实验在CH-SIMS和CMU-MOSI两大公开数据集展开,结果显示FEMF模型在二分类准确率、F1值等核心指标上均优于张量表示、注意力机制、情感语义冲突等类型的对比模型,在CH-SIMS情感不一致数据上,二分类准确率和F1值更是分别提升1.80和1.72个百分点。消融实验也验证了模型各核心模块的有效性。
该研究有效提升了多模态情感分析中情感语义一致性的表达,为解决模态间情感冲突问题提供了新思路。目前模型尚未考虑视频中人物个性化信息的影响,团队后续将聚焦多模态大语言模型微调,进一步优化模型对多模态情感信息的感知能力。