作者:赖文昕 马蕊蕾。 修改:陈彩娴。 北京时刻今日清晨,美国西雅图正在举办的计算机视觉盛会 CVPR 2024 正式发布了最佳论文等奖项。本年共有 2 篇论文取得了这份全球最重要的计算机视觉范畴的大奖,团队成员别离来自谷歌研讨院、加州大学圣地亚哥分校、南加州大学、剑桥大学及布兰迪斯大学。 本周(6.17-6.21),第四十一届国际计算机视觉与模式辨认会议(CVPR)在美国西雅图拉开帷幕。依据CVPR官方的最新公告,CVPR 2024已经成为该会议前史上规模最大、参加人数最多的一届,截止6月19日,现场参会人数已逾越一万两千人。 作为计算机视觉甚至人工智能范畴最具学术影响力的三大顶会之一,第一届 CVPR 会议要追溯到1983年美国华盛顿,自此每一年都会招引全球的计算机研讨者和职业首领汇聚一堂,一同谈论计算机视觉范畴最新的科学开展和工业效果。 作为抢先的计算机视觉盛会,会议每年都会选用当时视觉范畴的最新研讨。早在2月27日,CVPR 官网就发布了本年的论文接纳效果:CVPR 2024 共有 35691 位注册作者,11532 篇提交论文,其间 2719 篇被接纳,选用率为 23.6%。 与之比较,CVPR 2023 共有 9155 篇论文被提交,2359 篇论文被接纳,选用率为 25.8%。本年的论文数量提高了20.6%,创下新高,而选用率下降了 2.2%。别的,hightlights 和 Oral 两种类型的论文展示别离有 324 篇(占2.81%)和 90 篇(占0.78%)论文获选,由此可见,本届会议的热度、竞赛难度与当选获奖的含金量都有所上升。 CVPR 2024 颁奖环节。 入围 CVPR 2024 决赛圈的最佳论文有24篇,比较上一年多了12篇。 AI 科技谈论梳理了候选论文的基本情况: 从地理位置上来看,位列前三的国家依次为美国、我国和德国;从研讨范畴来看,首要聚集在视觉与图形、单视图 3D 重建以及图画与视频组成等;从工业界来看,有三家组织当选,别离是 NAVER Cloud AI、Google Research 以及 NVIDIA;从学术界来看,高校依旧是研讨的首要推动力,其间,国内当选的高校有北京大学、上海交通大学、中山大学和深圳大学。 最佳论文。 本届 CVPR 一共评选出 2 篇最佳论文。 第一篇最佳论文归于谷歌研讨院团队的《Generative Image Dynamics 》。 论文链接:https://arxiv.org/pdf/2309.07906。 代码地址:http://generative-dynamics.github.io/。 作者:Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski。 论文介绍:本文经过从实在视频中提取天然振动动态的运动轨道来学习图画空间中的场景运动先验。该办法运用傅里叶域对长时刻运动进行建模,经过单图画猜测频谱体积,从而生成整个视频的运动纹路,可运用于将静态图画转化为循环视频,或经过图画空间模态基完成用户与实在图画中方针的交互,模仿其动态。 第二篇最佳论文颁给了由加州大学圣地亚哥分校、谷歌研讨院、南加州大学、剑桥大学及布兰迪斯大学 5 所组织一同宣告的《Rich Human Feedback for Text-to-Image Generation 》。 论文链接:https://arxiv.org/pdf/2312.10240。 代码地址:https://github.com/google-research/google-research/tree/master/richhf_18k。 作者:Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam。 论文介绍:许多生成的图画依然存在比方不实在性、与文本描绘不一致以及审美质量低一级问题。本文经过挑选高质量的练习数据进行微调来改善生成模型,或许经过创立带有猜测热图的掩模来修正问题区域。值得留意的是,这些改善可以推行到用于搜集人类反应数据的图画之外的模型(Muse)。 最佳学生论文。 本年的最佳学生论文相同有 2 篇作业获选。 第一篇颁发给了来自德国图宾根大学、图宾根 AI 中心、上海科技大学及布拉格捷克技能大学一同宣告的《Mip-Splatting: Alias-free 3D Gaussian Splatting》。值得留意的是,该篇论文的三位华人作者都是上海科技大学在读或结业的硕士、博士生。 论文链接:https://arxiv.org/pdf/2311.16493。 代码地址:https://github.com/autonomousvision/mip-splatting。 作者:Zehao Yu , Anpei Chen, Binbin Huang , Torsten Sattler , Andreas Geiger。 论文介绍:3D高斯点染技能在新视角组成方面取得了高保真度和功率的效果,但在改动采样率时会呈现伪影。为处理该问题,本文引进了根据最大采样频率的 3D 滑润滤波器,约束了高斯基元的巨细,消除了扩大时的高频伪影。一同,用 2D Mip 滤波器代替 2D 胀大,模仿 2D 盒滤波器,减轻了混叠和胀大问题。评价效果显现,在单标准练习和多标准测验下,该办法有用。 第二篇最佳学生论文颁发给了来自美国俄亥俄州立大学、微软研讨院、加州大学欧文分校、伦斯勒理工学院一同发布的《BioCLlP: A Vision Foundation Model for the Tree of Life》。 论文链接:https://arxiv.org/abs/2311.18803。 代码地址:https://imageomics.github.io/bioclip/。 作者:Samuel Stevens, Jiaman (Lisa) Wu, Matthew J Thompson, Elizabeth G Campolongo, Chan Hee (Luke) Song, David Edward Carlyn, Li Dong, Wasila M Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun (Harry) Chao, Yu Su。 论文介绍:天然界图画的丰厚性为生物信息学供给了名贵数据源。虽然针对特定使命的计算办法和东西不断涌现,但它们一般不易习惯新问题或扩展到不同布景和数据集。为应对这一应战,本文创立了 TreeOfLife-10M 数据集,这是迄今为止最大和最多样化的生物图画数据集。BioCLIP 模型根据生命树构建,运用 TreeOfLife-10M 的多样化生物图画和结构化常识,展示出在细粒度生物分类使命中的杰出功用,明显逾越现有基线办法,其内涵评价提醒了 BioCLIP 的强泛化才能。 其他奖项。 本届黄煦涛纪念奖由 Andrea Vedaldi 取得。 Andrea Vedaldi 是牛津大学计算机视觉和机器学习教授,也是 VGG(视觉几许)组的成员。他的研讨要点在于开发计算机视觉和机器学习办法,以主动了解图画和视频内容。此外,他还在 2012 年至 2023 年期间担任 Facebook AI Research(FAIR)的研讨科学家,并在2023年成为 Meta AI 的研讨科学家。 图画视频生成占据C位。 从近期乔治亚理工学院计算机学院(College of Computing, Georgia Institute of Technology)对 CVPR 2024 选用数据的统计分析来看,论文首要包含36个主题范畴,排名前十的主题别离是:图画和视频组成与生成,三维视觉,人体行为辨认,视觉、言语与言语推理,底层视觉,辨认(分类、检测、检索),搬迁学习与多模态学习。 其间,除了主动驾驶与三维视觉这两位抢手常客外,本年排在首位的关键词是图画和视频组成与生成(Image and video synthesis and generation),总计有 329 篇论文,成为了本年 CVPR 最火的研讨主题。 抢手主题从上一年的分散模型(Diffusion models)转变为本年的图画和视频组成与生成,也同 Sora 在新年打响的开门炮遥遥相对。 在被 CVPR 接纳的图画和视频组成与生成相关论文中,有不少曩昔几个月令人冷艳的新科研效果或产品,比方谷歌 DeepMind 和研讨院发布的 Instruct-Imagen。 Instruct-Imagen 是一个可以处理异构图画生成使命并在未见过的使命上泛化的模型。风趣的是,谷歌团队引进了多模态指令生成图画的使命表明,以准确地表达一系列生成目的,并运用天然言语将不同的模态(例如文本、边际、风格、主题等)交融起来,使得丰厚的生成目的可以在一致的格局中标准化。 华东理工大学提出的 DisenDiff 留意校准机制也被选为 Oral 文章,他们的作业旨在处理现有的文本到图画(T2I)模型在个性化定制时无法坚持视觉一致性和概念穿插影响的问题。 该办法经过引进与类别绑定的学习型修饰符来捕捉多个概念的特点,并在穿插留意力操作激活后别离和加强类别,以保证概念的全面性和独立性。此外,经过按捺不同类别的留意力激活来削减概念间的相互影响。 试验效果表明,DisenDiff 在定性和定量评价中均优于现有技能,并能与 LoRA 和修正管道兼容,供给更丰厚的交互体会。 分散模型在当下可以说主导了图画生成这个范畴,也关于大数据集展示出了强壮的缩放性,由 NVIDIA 和 Aalto University 的研讨人员编撰的《Analyzing and Improving the Training Dynamics of Diffusion Models》,重视点在于改善分散模型的练习动态。 该篇研讨者在不改动 high-level 架构的前提下,辨认和纠正了盛行的 ADM 分散模型中的几个练习方面不均匀的原因。把 ImageNet 512×512 图画生成使命的 FID 由本来的 2.41 下降到了 1.81,这是一个衡量生成图画质量的重要方针,将生成质量和模型复杂度变得可视化。 研讨者还提出了一种在练习完成后设置EMA参数的办法,答应在不增加屡次练习本钱的情况下准确调整EMA长度,并提醒了其与网络架构、练习时刻和引导的惊人交互作用。 这些突破性的研讨,预示着人工智能在图画生成范畴,正在以史无前例的速度重塑艺术创造和视觉上内容出产的鸿沟。 值得一提的是,本年恰好是生成对立网络(GANs)诞生的十周年。2014年,Ian Goodfellow 等人提出了深度学习范畴的此项里程碑技能,不只拓荒了生成式模型的新范畴,并且对无监督学习产生了深远影响。 视觉根底模型点着现场。 根据 Transformer,以及遭到言语大模型的启示,计算机视觉范畴在 2023 年以来对视觉根底模型(VFM)的研讨热情高涨。 视觉根底模型 (VFM),一般在特定的范畴,像图画分类、方针检测和图画生成等很多下流使命中体现杰出。例如,多模态 CLIP 模型拿手零样本视觉言语了解,自监督学习模型DINOv2 拿手语义切割,自监督学习办法SAM 拿手敞开词汇实例切割。 CVPR 2024 共有 123 个 workshop 与 24 场 tutorial,在这个年度盛会的现场,AI 科技谈论观察到:虽然视觉根底模型的相关作业在被接纳论文数量中的占比不大,但逾越 10 场研讨会以视觉根底模型为主题,展开了学习和运用视觉根底模型最前沿办法的谈论。 比方 6 月 17 日举办的第二届根底模型研讨会上,与会者共享了视觉根底模型和大言语模型的理论洞悉、高效架构规划以及卷积和图混合网络规划的研讨,并谈论了在图画和视频生成、不同监督学习设置、多模态模型等,还谈论了如何将根底模型的前沿研讨效果运用于医疗、地球科学、遥感、生物、农业和气候科学等多个范畴,以弥合研讨与实践运用之间的距离。 在「视觉根底模型最新开展」的共享会中,嘉宾们谈论了用于多模态了解和生成的视觉根底模型,基准测验和评价视觉根底模型,以及根据视觉根底模型的智能体和其他高档体系。 共享嘉宾:Tiktok-Chunyuan Li。 自 2020 年引进视觉 Transformers(ViT)以来,计算机视觉界见证了根据 Transformer 的计算机视觉模型的爆炸性增加,其运用规模从图画分类到密布猜测(如方针检测、切割)、视频、自监督学习、3D和多模态学习。 因而,CVPR 2024 中的第三届视觉 Transformer 研讨会将会议要点放在了为视觉使命规划 Transformer 模型的机会和其敞开性应战之中。 机器忘记(Machine Unlearning,也称忘记学习)对根底模型的重要性相同显而易见,专心于从预练习模型中除掉那些不再需求的数据,如个人隐私信息或违背法规的数据,并保证模型继续发挥其应有的功用而不受影响,因而 CVPR 2024 中也有研讨会会集谈论视觉根底模型中机器忘记的运用。 而 3D 根底模型的开展正成为天然言语处理和 2D 视觉之后的又一场技能革命,预示着在 3D 内容创造、AR/VR、机器人技能和主动驾驶等范畴的广泛运用远景。CVPR 2024 的研讨会还邀请了 3D 视觉范畴的专家,一同谈论 3D 根底模型的构建,包含数据集的挑选、模型应针对的3D使命、架构一致以及潜在运用。 此外,根底模型还被视为构建更通用自主体系的新途径,因其可以从很多数据中学习并泛化到新使命。CVPR 2024 中有研讨会重视自主体系,探求根底模型对自主署理的潜力,与会者们以为未来在于可解释的、端到端的模型,这些模型可以了解国际并泛化到未拜访的环境中。 CVPR 2024 的现场中还有研讨会谈论了对立性机器学习的最新开展和应战,要点重视根底模型的鲁棒性,该 workshop 还组织了一场针对根底模型的对立性进犯应战。 有的研讨会则聚集于医学成像范畴根底模型的集成和运用,谈论包含了各种医学数据的最新技能,如超声心动图、眼底、病理学和放射学,以及在临床环境中运用根底模型的实践应战。 写在最终。 两天前,Runway 时隔一年推出 Gen-3 Alpha,宣告视频生成赛道王者归来。在 CVPR 2024 的现场,AI 科技谈论也听到了关于 GPT-5 或于 3 个月后发布的音讯,业界对其推理才能与多模态才能更是报以等待。 那么,计算机视觉还有哪些抢手会是未来趋势?图画、视频生成与视觉根底模型的下一步开展在哪里?3D 视觉、主动驾驶等往届「花旦」又有何新动态?机器人与具身智能有无新亮点? 让我们一同等待,CVPR 2024 的精彩仍在继续。 本文(大众号:)作者 anna042023 将继续重视AI大模型范畴的人事、企业、商业运用以及职业开展趋势,欢迎增加沟通,互通有无。。 原创文章,未经授权制止转载。概况见转载须知。 内容来源:https://harmonyscentsg.com/app-1/cau xo so dong nai,http://chatbotjud.saude.mg.gov.br/app-1/resultado-loteria-federal-das-18-horas-de-hoje |