image: Researchers have developed a novel MSA method that improves sentiment detection while reducing computational cost
Credit: Professor Fuji Ren from University of Electronic Science and Technology of China
研究背景
多模态情感分析旨在综合文本、语音与视频等多源信息,理解和判断人的情绪状态,被广泛应用于人机交互、虚拟助手与舆情分析等领域。尽管近年来取得显著进展,但多模态数据的异质性、情感表达的个体差异与语境复杂性,使得现有方法仍面临表征碎片化与对齐粒度单一等挑战。主流方法多通过注意力机制或对比学习进行模态对齐,但往往依赖单一粒度建模,难以兼顾全局语义与情感细节。
研究进展
任福继教授团队围绕“从多粒度模态表征中选取与文本最相关的局部特征”的核心思想,提出了多粒度检索-排序-重建(R3DG)框架。该框架由三模块组成:(1) 多粒度检索与排序模块: 考虑到音频和视频模态在时间维度上存在大量冗余信息,R3DG首先将其划分为不同时间粒度下的局部表征(如5、10、15、20个粒度),并通过自适应池化构建多组候选片段。随后,利用文本模态中的BERT-[CLS] 表征对这些局部表征进行余弦相似度计算与排序,从中选出与文本语义最匹配的若干音、视频局部片段,将其进行自适应融合后,为后续建模提供高相关性输入。(2)信息重建模块:为弥补局部表征可能忽视全局语义的问题,R3DG设计了一个重建模块,最小化重建的局部表征与整体模态表征之间的重建误差,引导模型在关注细节的同时保留整体情感语义。此外,该模块还缓解了局部冗余,提高了局部表征在时间上的均衡分布,从而增强模型对情绪变化的把握能力。(3)多模态融合模块:R3DG将筛选融合后的音频和视频局部表征进行融合,并进一步与文本模态进行联合建模与情感预测,实现多源信息的高效整合。
任福继教授团队在MOSI和UR-FUNNY两个非对齐多模态情感分析数据集上进行了系统实验,并对局部表征选择的频次与相似度分布进行统计分析。被频繁选中的局部表征通常具备更高的余弦相似度,说明其在语义上更加一致、稳定。以MOSI数据集为例,音频模态中索引为0、5、15、30的片段被高频选中,表明语音信号前段在情绪表达中更具信息密度。此外,随着粒度的增加(更细粒度),所选表征的平均相似度有所下降,提示细粒度更利于捕捉情绪细节,但也可能削弱其全局语义一致性。该趋势在视频模态中同样显著,特别是末尾因填充操作引入的信息稀疏区域,被选中的概率与语义相关性显著下降。
该实验结果验证了R3DG的多粒度局部表征策略的有效性与合理性,还揭示了表征选择与信息冗余控制之间的内在联系。通过聚焦于信息密集、语义一致的表征区域,R3DG能够在保证性能的同时有效提升对情感信号的感知能力,体现出良好的通用性。
未来展望
本研究提出的 R3DG 框架突破了传统对齐范式对粒度的限制,提供了一种以“多粒度建模 + 语义相关检索”为核心的新型路径,为多模态情感分析提供了全新建模思路。尽管在极细粒度的情绪建模方面仍有优化空间,但R3DG已展现出优异的鲁棒性与可推广性。未来,任福继教授团队将进一步探索粒度选择与模态融合的动态优化策略,提升模型对复杂、多变情绪状态的感知能力,推动其在真实世界场景中的落地应用。
原文链接:https://doi.org/10.34133/research.0729
Journal
Research
Method of Research
News article
Subject of Research
Not applicable
Article Title
R3DG: Retrieve, Rank, and Reconstruction with Different Granularities for Multimodal Sentiment Analysis
Article Publication Date
2-Jul-2025