当前位置: 首页 > news >正文

门户类网站前台免费seo营销优化软件下载

门户类网站前台,免费seo营销优化软件下载,西宁网站建设模板,寺庙建设网站的意义24年5月的论文,上一版就是ReconFusion 目录 一、概述 二、相关工作 1、2D先验 2、相机条件下的2D先验 3、多视角先验 4、视频先验 5、前馈方法 三、Method 1、多视角扩散模型 2、新视角生成 3、3D重建 一、概述 该论文提出一种CAT3D方法,实现…

24年5月的论文,上一版就是ReconFusion

目录

 

一、概述

二、相关工作

1、2D先验

2、相机条件下的2D先验

3、多视角先验

4、视频先验

5、前馈方法

三、Method

1、多视角扩散模型

2、新视角生成

3、3D重建


 

一、概述

        该论文提出一种CAT3D方法,实现单视图,稀疏视图,文本提示生成图像创建3D场景。可以利用多视图扩散模型生成大量一致的新视图,并且用作3D重建的输入,通过有效的并行采样策略生成任何视角下三维一致渲染的3D表示。创新在于将欠约束的3D重建问题首次表述为生成问题,提供更多的视角来实现完全约束下的重建。并且可以实现1分钟生成场景和对象级的逼真结果,在多个benchmarks上,相比以往的SOTA快一个数量级。

9d304a714d0f4b8391e3bdbc6c7fc7d2.png

二、相关工作

1、2D先验

        由于3D数据集相对稀缺,很多3D生成研究都集中在利用从2D图像空间学习到的先验知识。例如,预训练的文本到图像模型可以为文本到3D生成提供强大的生成先验。但是,将这些基于图像的先验知识转化为一致的3D模型目前仍需要一个迭代的蒸馏过程。

2、相机条件下的2D先验

        为了克服文本到图像模型无法精确控制图像姿态的局限性,一些方法尝试训练或微调具有图像和姿态条件的生成模型。这些模型为给定文本和/或输入图像的情况下对象或场景的外观提供了更强的先验。但是,当存在一定的不确定性时,这些方法仍需要昂贵的3D蒸馏过程来解决不同视图之间的不一致性

3、多视角先验

        对多个视图进行建模可以为部分观察的3D内容提供更强的先验。一些方法尝试微调文本到图像模型,以同时生成多个视图。这种方法捕捉了多视图依赖性,从而在3D提取方面实现了更高的质量和效率。

4、视频先验

        视频扩散模型已经展示了生成逼真视频的惊人能力,被认为隐式地推理了3D信息。但是,直接使用现有的视频扩散模型进行3D生成仍然存在挑战,例缺乏精确的相机控制,只能生成平滑和短暂的相机轨迹。一些工作尝试通过微调视频扩散模型来解决这些挑战,但主要集中在3D物体生成,无法处理3D场景、少视角3D重建或物体在上下文中的情况。

5、前馈方法

        另一类研究是学习前馈模型,直接从少量视图输入输出3D表示,无需优化过程。这些方法可以高效地生成3D表示(几秒内),但当时质量通常低于基于图像空间先验的方法。cat3d还是一个老论文。

三、Method

        这个论文的重点是第一个设计出多视图扩散模型的,所以CAT3D也是一个two-step的模型,先通过相机嵌入的MVLDM来生成多视角图像,再基于多视角图像和相机位姿通过NeRF模型来渲染3D模型。

3ad201f7480b4124a6a22df090b2d3b3.png

1、多视角扩散模型

        这个多视角扩散模型可以看成给定参考图像,参考位姿,目标位姿,输出目标图像的模型。

        模型架构类似LDM,论文中提到这是一个文本生成图像的模型,相比于LDM使用时间t作为嵌入,该模型使用相机姿态作为嵌入,将相机光线图concat到输入图像经VAE得到的潜在特征上。

        在下图可以看到输入图像为512*512*3,经过encoder得到64*64*8与相机光线图拼接。

(1)三维自注意力层的使用:在扩散模型中原有的2D自注意力层被膨胀到了3D自注意力层,也就是空间2维加时间1维,其目的是同时输入多张图像作为时间维度,达到了三维的一致性。另外经过这一工作也省去了以往稀疏视图生成中ReconFusion中添加CLIP嵌入和PixelNeRF解码器的需要。

(2)二值掩码:一个二值掩码被连接潜在特征的通道维度上,目的是为了指示输入图像是否被观察到(用于多视角生成)。

(3)FlashAttention:快速训练和采样,并影响对LDM所有权重微调。

f7b324fdc85d499f815d481bcbe5d1bd.png

2、新视角生成

(1)相机轨迹问题:在新视角生成过程中,给定的轨迹越能够覆盖整个场景,那么最后重建的效果越良好。

(2)生成大量合成视图:我的理解就是在稀疏视角下一定可以拟合一个轨迹,那么每个参考视图周围的视点的生成和这个参考视图独立分在一个组里,因为靠近的视图肯定更加相近。如果对于单图像情况,就先生成7个锚定视图能够覆盖整个场景的不同位置,之后基于这八张视图以及周围的视点再次分组,补充周围视点的目标视图。这样可以得到全局的一致性以及附近视图的局部相似性。

3、3D重建

        在ReconFusion使用的Zip-NeRF的基础上,添加了渲染图像与输入图像之间的光感损失LPIPS,强调两者之间的高级语义相似性,而忽略低水平高频细节的潜在不一致性。

四、实验

        稀疏视角输入下的对比。

d5ddb1447ca8400d9e09ac06abacf04c.png

         量化对比。

b13ba9e21de248fdb799bb3ec23ef988.png

        单视角图像输入下对比。

9a06ffe38b74447ca287c97973bd4163.png

 

论文地址:https://arxiv.org/abs/2405.10314

         

 

http://www.wangmingla.cn/news/484.html

相关文章:

  • 网站诊断书怎么做百度旗下13个app
  • 日照建网站电商关键词查询工具
  • 互动网站建设自媒体seo是什么意思
  • 鲜花团购网站建设太原关键词优化报价
  • 陕西网站建设公司找哪家网络营销渠道建设方案
  • j2ee博客网站开发重庆排名seo公司
  • 明星做代言的购物网站0东莞seo关键词
  • 树莓派做网站服务器性能怎么样宁波网站推广大全
  • 威海哪有网站建设视频推广一条多少钱
  • 咖啡网站设计建设wordpress自助建站
  • 网站域名费用怎么做帐网站推广seo教程
  • 网络销售是做网站推广百度搜索排名推广
  • 如果一个网站没有备案网站底部友情链接
  • 个人音乐分享网站源码百度seo关键词排名优化软件
  • seo岗位seo推广方式是什么呢
  • 云盘网站如何做学历提升
  • 廊坊网站设计搜索排行
  • 商标可以做网站吗网站关键词优化的价格
  • 品牌网站建设搭建免费网上申请注册
  • 岷县网站建设地推平台
  • 成都定制网站建设深圳竞价排名网络推广
  • 嘉兴公司网站制作网页设计
  • 成人seo数据统计分析工具有哪些
  • 超大尺寸哔哩哔哩网站百度24小时客服电话136
  • wordpress面打开404百度seo优化教程免费
  • 厦门网站搜索优化企业网络推广网站
  • 多用户电商系统开发北海seo快速排名
  • 山西龙采网站建设合同seo诊断a5
  • 英德市住房城乡建设局网站seo搜索引擎优化5
  • 网站诊断结论如何做网站seo