当前位置: 首页 > news >正文

长沙建设企业网站关键词优化系统

长沙建设企业网站,关键词优化系统,wordpress拿webshell,临沧网站建设c3sales整理了CVPR2024 Multimodal Representation Learning by Alternating Unimodal Adaptation)论文的阅读笔记 背景MLA框架实验Q1 与之前的方法相比,MLA能否克服模态懒惰并提高多模态学习性能?Q2 MLA在面临模式缺失的挑战时表现如何?Q3 所有模块是否可以有…

整理了CVPR2024 Multimodal Representation Learning by Alternating Unimodal Adaptation)论文的阅读笔记

  • 背景
  • MLA框架
  • 实验
    • Q1 与之前的方法相比,MLA能否克服模态懒惰并提高多模态学习性能?
    • Q2 MLA在面临模式缺失的挑战时表现如何?
    • Q3 所有模块是否可以有效提高性能?
    • Q4 MLA如何改变多模态学习中的模态差距?

背景

  多模态学习集成了来自不同模态的数据,在人工智能中起着关键作用。但是现有的多模态学习方法存在一个普遍的问题,一些模态比其他模态更占优势,模型将针对这些主导模态进行优化,并倾向于忽略其他模态,从而导致次优性能,这被称之为模态懒惰问题。
  图一是模态懒惰问题的概述,虽然多模态联合训练为跨模态交互学习提供了机会,但模型容易饱和,忽略了难以学习但对泛化来说很重要的单模态特征。那么如何解决这种模态懒惰问题,进一步释放多模态学习的潜力,就成为了一个必须要思考的问题。在这里插入图片描述

MLA框架

  为了解决这一挑战,本文提出了一个多模态学习与交替单模态适应的方法,称为MLA。把多模态的传统联合训练方案重新构建到交替的单模态学习框架中,从而将模态之间的干扰最小化。
在这里插入图片描述

  具体地说,MLA中每个模态的预测函数包括一个模态特定的编码器和一个跨所有模态的共享头。在交替单模态学习中,根据每个模态的预测函数交替优化,以消除模态之间的干扰。同时,共享头部跨模态在不同模态之间不断优化,捕获跨模态信息。作者提出单模态交替学习的动机是认为信息较少的模态在与其他模态一起学习时优化不足,这是导致融合表现不佳的原因。
  在这个优化过程中,当遇到一个新的模态时,很容易丢失先前从其他模态学习到的信息,这被称为模态遗忘。为了解决这个问题,MLA为共享头部引入了梯度修改机制,以鼓励模态之间的梯度方向正交化。
  图一(b)是测试阶段,在学习了特定模态编码器和共享头部的权重之后,MLA通过一个测试时动态模态融合机制来整合多模态信息。衡量每个模态的重要性依赖于测量与该模态相关的预测中观察到的不确定性水平。这种机制的动机是这样一个假设:当一种模态在预测中表现出更高的不确定性时,它更容易产生不正确的预测,因此,MLA利用预测不确定性衡量每个模态重要性。熵 e m , r e_{m,r} em,r越高,表明预测的置信度越低,导致聚变过程中的重要权值越小。
在这里插入图片描述

实验

  在实验部分,作者提出了以下几个问题:Q1:与之前的方法相比,MLA能否克服模态懒惰并提高多模态学习性能?Q2: MLA在面临模式缺失的挑战时表现如何?Q3:所有模块是否可以有效提高性能?Q4:MLA如何改变多模态学习中的模态差距。

Q1 与之前的方法相比,MLA能否克服模态懒惰并提高多模态学习性能?

  本文利用一组具有不同任务的五个数据集来评估具有完整模式的学习性能:

  • CREMA-D[6]和Kinetic-Sound (KS)[3]属于音视频数据集的范畴。CREMA-D提供描述各种情绪的音频和视频记录,做情感分类任务。而KS将视频和音频数据结合起来用于对象和动作识别。
  • Food-101[39]和MVSA[25]都是图像-文本数据集。food -101包含超过10万种食物,图片附有相应的文字,进行食物分类任务。MVSA通过使用文本和图像数据,专注于多媒体帖子的情感分类。
  • IEMOCAP[5]是一个音频-图像文本数据集,在自然对话中捕获音频、视觉和文本数据中的情感。
    在这里插入图片描述

  从实验结果中,我们可以观察到。在众多数据集上,除了后期融合之外的方法,优模态和劣模态性能之间的性能差异非常显著。这说明大多数传统的融合方法都面临着模态惰性的挑战。后期融合通过在专门训练对每个模态的编码器在一定程度上减轻了模态惰性,但在集成来自所有模态的信息时,它无法提供令人满意的性能。这种限制是因为它无法有效地捕获跨模式信息。在所有场景中,MLA的表现始终优于所有其他方法。这证明了MLA通过充分利用每个模态的信息和捕获跨模态知识,有效地解决了模态懒惰问题,提高了多模态学习性能

Q2 MLA在面临模式缺失的挑战时表现如何?

  进一步评估缺少模态的数据集的性能,模态缺失被视为模态懒惰的极端情况。对IEMOCAP数据集中的训练和测试数据应用基于百分比的掩码,随机掩盖每个样本的每个模态。
在这里插入图片描述
  我们可以观察到:随着模态缺失率的增加,所有方法的性能都有所下降。这正是我们所期望的,因为与仅使用部分模态数据相比,使用所有模态数据往往会提高性能。MLA在所有缺失率上的表现始终优于其他基线,包括这些后期融合方法和专门为解决缺失模式(例如MMIN)而设计的方法。这些结果突出了MLA在解决模态懒惰挑战方面的有效性,即使在缺少模态学习的极端情况下也很强。

Q3 所有模块是否可以有效提高性能?

在这里插入图片描述
  图三展示了消融实验的结果,其中,HGM是梯度修正,DF是动态融合。通过梯度修正的方法更新共享头权重可以提高仅使用单一模态和多模态信息的性能。这种改善是因为减轻模态遗忘的影响可以更好地整合跨模态信息,有利于单模态和多模态的学习过程。
  使用测试时间动态融合机制可以显著促进多模态学习过程。因为测试时间动态融合考虑了模态预测的不确定性,利用预测不确定性度量测试样例上模态的重要性,使模型能够更准确地融合多模态信息。
  综合两种策略后,MLA表现出最佳性能

Q4 MLA如何改变多模态学习中的模态差距?

在这里插入图片描述
  图二是MLA在KS数据集上的测试准确度的可视化,随着音频或视频训练数据中缺失模态的比例而变化。
  我们可以观察到,MLA中单模态学习的表现不受其他模态缺失的影响。在QMF中,一种模态的缺失会对另一种模态的表现产生负面影响。这些发现表明采用交替优化方法可以有效地解决模态惰性问题。
在这里插入图片描述
  在多模态学习中存在模态间隙,就是不同的模态信息位于嵌入空间内两个完全独立的区域。这种模态差距与模型性能相关,以往的研究表明,增加模态差距可以在某种程度上提高多模态学习中的分类性能。图三将Food101数据集中的文本和视觉模态之间的模态差距可视化,与串联的方法比较,MLA导致了更大的模态差距,这表明不同的模态变得更容易区分,从而导致更强的性能。

http://www.wangmingla.cn/news/42596.html

相关文章:

  • wordpress 伪静态 主题失效徐州网页关键词优化
  • 微信小程序商城源代码慈溪seo
  • 韩国男女真人做视频网站seo搜索优化培训
  • 个人网站建设方案书框架栏目最新国际新闻 大事件
  • 公司做网站还是做阿里好呢baidu com百度一下
  • 经营性网站备案须知自己做网站建设
  • b2b网站计划书seo快速排名网站优化
  • 企业网上年检在网站怎么做网络营销策划书的范文
  • 东昌网站建设公司关于友情链接说法正确的是
  • 手机网站静态模板百度云搜索
  • 怎样会展网站建设湖南关键词优化首选
  • 企业品牌网站建设注意事项关键词优化的五个步骤
  • 网站内外链怎么做百度搜索引擎营销
  • 做网站建设的上市公司有哪些老铁外链工具
  • 关于微网站策划ppt怎么做媒体:北京不再公布疫情数据
  • 有哪些做画册的网站百度关键词优化的意思
  • 什么网站可以接设计方案百度关键词排名靠前
  • 做网站设计的需要什么材料域名注册免费
  • 织梦安装网站后图片搜索引擎下载入口
  • 杭州建设培训中心网站2022近期时事热点素材
  • 织梦cms瀑布流极品美女图片网站源码每天看七个广告赚40元的app
  • 网站设计开发方案账户竞价托管公司
  • 网络代理行为是什么意思关键词优化价格
  • 招工做哪个网站网络事件营销
  • 课程网站建设ppt模板下载seo技术是什么意思
  • php网站开发专员招聘百度app推广方法
  • 昆明网站建设-中国互联互联网运营推广是做什么的
  • 网站开发的框架协议微信搜一搜排名优化
  • 毅冰做外贸是哪个网站青岛百度代理公司
  • 网站建设空间一般多大郑州网络推广专业公司