Conditional DETR(ICCV 21)

2023-09-21 22:29:02

Conditional DETR(ICCV 21)

Conditional DETR for Fast Training Convergence

加速detr收敛(50 epoch收敛)

DETR收敛慢的原因

DETR训练收敛速度慢,需要500 epochs
DETR的Cross Attention高度依赖content embedding(decoder的输出,可以是self attention的输出)进行定位和预测增加了对高质量的content embeddings的需求,需要很多轮才能学号content embedding,因此增大了训练的难度

Conditional DETR修改点

主要修改了decoder部分,其他部分和原始DETR保持一致

在这里插入图片描述

结构(只画了decoder)

img

  1. cross attention两个换成了concat,原始的是相加
  2. 模块:生成新的参考点

Decoder Cross Attention

Decoder有三种输入: query key value
value是encoder的输出,称其为content embedding
key由encoder的输出t=content embedding +spatial key(空间位置编码,三角函数位置编码或可学习)构成
query由decoder的前一层(self attention)的输出=content query和spatial query(空间位置编码,也就是object query)

conditional:条件空间查询

图右侧加的额外的附加条件是2d坐标embedding

原始的DETR,self-attention的输出作为q,这个q需要同时在和k匹配过程中,查询出k表示的物体和识别出bbox的边界,训练时间按长。

qk计算分两个部分:一个是content计算,一个是position计算
c q ⊤ c k + p q ⊤ p k . {\mathbf{c}_q^\top\mathbf{c}_k+\mathbf{p}_q^\top\mathbf{p}_k}. cqck+pqpk.
补充的条件空间查询(上面的pq,pk):有意把一份空间信息concat到self attention输出上

(s(补充的网络部分),f(self输出))->pq
p s = sinusoidal(sigmoid( s ) ) \mathbf{p}_s=\text{sinusoidal(sigmoid(}\mathbf{s})) ps=sinusoidal(sigmoid(s))
sigmoid之后空间位置编码(三角函数)

算完ps之后和T做运算,算q:
p q = T p s = λ q ⊙ p s \mathbf{p}_q=\mathbf{T}\mathbf{p}_s=\lambda_q\odot\mathbf{p}_s pq=Tps=λqps
T的FFN的输入是上一层decoder的输出,λq的值是经过FFN得到的

ablations-projections T:

在这里插入图片描述

full就是标准矩阵的意思,最后是只训练对角的参数值

参考:

https://www.bilibili.com/video/BV1sj411K7Mj/?spm_id_from=333.788&vd_source=4e2df178682eb78a7ad1cc398e6e154d

更多推荐

软件项目开发的流程及关键点

软件项目开发的流程及关键点graphLRA[需求分析]-->B[系统设计]B-->C[编码开发]C-->D[测试验证]D-->E[部署上线]E-->F[运维支持]在项目开发的流程中,首先是进行需求分析,明确项目的目标和功能要求。接下来是系统设计,制定项目的整体架构和具体实现方案。然后进行编码开发,根据设计方案进行编码实

K-means 聚类算法学习笔记

K-means聚类算法是一种无监督学习算法,用来将nnn个样本点分成kkk类,使得整个数据集的误差平方和SSESSESSE最小。在本例中,样本点是指平面直角坐标系上的点,聚类中心也是平面直角坐标系上的点,而每个点的损失函数则是它到聚类中心的距离。即:找出2个点,使得所有点到这2个点的距离的更小者之和最小。K-means

Vue的详细教程--用Vue-cli搭建SPA项目

🥳🥳WelcomeHuihui'sCodeWorld!!🥳🥳接下来看看由辉辉所写的关于Vue的相关操作吧目录🥳🥳WelcomeHuihui'sCodeWorld!!🥳🥳一.Vue-cli是什么二.安装vue-cli①npminstall-gvue-cli②npminstallwebpack-g三.什么是

Ruoyi-vue项目讲解

@[TOC]若依前后端调用接口解读若依github官方下载地址若依gitee官方下载地址1.验证码时候的前端调用接口调用前端登录界面的时候,调用的是login.vue这个文件中的created函数这里我们查看getCode函数方法可以看到,这里先调用了一个getCodeImg函数,然后接收到后端返回的值之后,再进行相应

Python阴阳历日期转换

阳历转阴(殷)历,阴历转阳历,了解一下阴阳历的转换逻辑、闰月的转换。农历,古时称为夏历,是中国现行的传统历法,属于阴历和阳历的合历,根据月相的变化周期一个月,参考太阳回归年为一年的长度,加入二十四节气与设置闫月平均历年与回归年相适应。--百度百科1.阴阳历偏差计算表参考以下所使用python库中定义的1900~2100

Linux:冯诺依曼系统和操作系统的概念

文章目录冯诺依曼体系结构冯诺依曼体系的理解操作系统操作系统的基本定位操作系统的理解1操作系统的理解2总结本篇主要总结的是操作系统的基本认知和一些概念冯诺依曼体系结构那么上图表示的就是冯诺依曼体系结构,那这个体系结构是什么?为什么要先介绍它?截止目前来说,常见的计算机都是遵循着冯诺依曼体系组成的,可以说有了冯诺依曼体系才

Vue中的表单自动完成与下拉选择器

Vue中的表单自动完成与下拉选择器在现代Web应用程序中,表单是不可或缺的一部分,而表单元素的自动完成和下拉选择器是提高用户体验和数据输入效率的重要工具。Vue.js作为一种流行的前端框架,提供了丰富的工具和组件来实现这些功能。在本文中,我们将探讨如何在Vue中实现表单自动完成和下拉选择器,并提供相应的代码示例。表单自

Python协程(asyncio)(一)协程开发

协程的概念协程是python个中另外一种实现多任务的方式,只不过比线程更小占用更小执行单元(理解为需要的资源)。为啥说它是一个执行单元,因为它自带CPU上下文。这样只要在合适的时机,我们可以把一个协程切换到另一个协程。只要这个过程中保存或恢复CPU上下文那么程序还是可以运行的。通俗的理解:在一个线程中的某个函数,可以在

Redis实战(10)-一条命令在Redis是如何执行的?

RedisServer一旦和某客户端建立连接,就会在事件驱动框架中注册可读事件,对应客户端的命令请求。整个命令处理过程可分阶段:命令解析,processInputBufferAndReplicate命令执行,processCommand结果返回,addReply1命令读取:readQueryFromClient会从客户

JavaScript 设计模式中的 this、call 和 apply(设计模式与开发实践 P3)

文章目录2.1thisthis作为对象的方法this作为普通函数构造器调用call和apply2.2call和apply修正函数中的this模拟bind函数借用其他对象的方法2.1thisjavascript的this总是指向一个对象,且指向的对象基于函数的执行环境动态绑定,而不是函数声明时的环境this作为对象的方法

【校招VIP】前端JS语言之CSS基础属性

考点介绍CSS全称为CascadingStyleSheets,中文翻译为“层叠样式表”,简称CSS样式表,所以称之为层叠样式表(CascadingStylesheet)简称CSS。在网页制作时采用CSS技术,可以有效地对页面的布局、字体、颜色、背景和其它效果实现更加精确的控制。前端JS语言之CSS基础属性-相关题目及解

热文推荐