弱监督学习 多模态融合 情绪识别 推理提示 伪标签生成
摘要

为解决视频中“隐藏情绪”的自动识别问题,本文提出了一种多模态弱监督框架,并在iMiGUE网球采访数据集上取得了最先进的结果。首先,YOLO 11x逐帧检测并裁剪人物肖像,DINOv2-Base从裁剪区域提取视觉特征。随后,通过集成Chain-of-Thought和Reflection提示(CoT + Reflection),Gemini 2.5 Pro自动生成伪标签和推理文本,作为下游模型的弱监督信号。接着,OpenPose生成137维关键点序列,并增强帧间偏移特征;通常的图神经网络主干被简化为MLP以高效建模三个关键点流的时空关系。超长序列Transformer独立编码图像和关键点序列,其表示与BERT编码的采访转录文本拼接。每种模态首先单独预训练,然后联合微调,伪标记样本合并到训练集中以进一步提升性能。实验表明,尽管存在严重的类别不平衡,所提方法将准确率从先前工作的低于0.6提升至超过0.69,建立了新的公共基准。研究还验证了“MLP化”的关键点主干在此任务中可以匹配甚至超越基于GCN的方法。

AI 推荐理由

论文使用Chain-of-Thought和Reflection提示生成伪标签,涉及推理能力的增强。

论文信息
作者 Yufei Wang, Haixu Liu, Tianxiang Xu, Chuancheng Shi, Hongsheng Xing
发布日期 2026-02-08
arXiv ID 2602.08057
相关性评分 8/10 (高度相关)