＜000＞RGB-D Salient Object Detection: A Survey

2023年7月12日上午4:29 • 人工智能 • 阅读 70

RGB-D SOD综述

1. 基于RGB-D SOD的模型。
*
1.1 传统模型与深度模型
1.2 融合模型
1.3 单流与多流模型
1.4 注意模型
2. RGB-D SOD数据集
3. 评价指标
基于RGB-D SOD的模型。

1.1 传统模型与深度模型

从特征提取的角度看：
（1）传统模型：手工特征。中心环绕差异、对比度、背景包围、中心/边界优先、紧凑性或各种显著性度量的组合。模型都严重依赖于启发式手工功能，导致在复杂场景中的通用性有限。

（2）深度模型：深层特征。使用深度神经网络（DNN）来融合RGB-D数据，学习高级表示，以探索RGB图像和深度线索之间的复杂相关性，从而提高SOD性能。

    DF&#xFF1A;&#x7B2C;&#x4E00;&#x4E2A;&#x57FA;&#x4E8E;CNN&#x7684;RGB-D SOD&#x4EFB;&#x52A1;&#x6A21;&#x578B;&#x3002;&#x5C06;&#x4E0D;&#x540C;&#x7684;&#x4F4E;&#x6C34;&#x5E73;&#x663E;&#x8457;&#x6027;&#x7EBF;&#x7D22;&#x96C6;&#x6210;&#x5230;&#x5206;&#x5C42;&#x7279;&#x5F81;&#x4E2D;&#xFF0C;&#x4EE5;&#x6709;&#x6548;&#x5B9A;&#x4F4D;RGB-D&#x56FE;&#x50CF;&#x4E2D;&#x7684;&#x663E;&#x8457;&#x533A;&#x57DF;&#x3002;
    PCF&#xFF1A;&#x63D0;&#x51FA;&#x4E86;&#x4E00;&#x4E2A;&#x4E92;&#x8865;&#x611F;&#x77E5;&#x878D;&#x5408;&#x6A21;&#x5757;&#xFF0C;&#x7528;&#x4E8E;&#x96C6;&#x6210;&#x8DE8;&#x6A21;&#x6001;&#x548C;&#x8DE8;&#x5C42;&#x7279;&#x5F81;&#x8868;&#x793A;&#x3002;&#x5B83;&#x53EF;&#x4EE5;&#x901A;&#x8FC7;&#x660E;&#x786E;&#x4F7F;&#x7528;&#x8DE8;&#x6A21;&#x6001;/&#x5C42;&#x8FDE;&#x63A5;&#x548C;&#x6A21;&#x6001;/&#x5C42;&#x76D1;&#x7763;&#x6765;&#x6709;&#x6548;&#x5229;&#x7528;&#x4E92;&#x8865;&#x4FE1;&#x606F;&#xFF0C;&#x4EE5;&#x51CF;&#x5C11;&#x878D;&#x5408;&#x6A21;&#x7CCA;&#x5EA6;&#x3002;
    CTMF&#xFF1A;&#x91C7;&#x7528;&#x8BA1;&#x7B97;&#x6A21;&#x578B;&#xFF0C;&#x5229;&#x7528;CNN&#x5B66;&#x4E60;RGB&#x56FE;&#x50CF;&#x548C;&#x6DF1;&#x5EA6;&#x7EBF;&#x7D22;&#x7684;&#x9AD8;&#x7EA7;&#x8868;&#x793A;&#xFF0C;&#x540C;&#x65F6;&#x5229;&#x7528;&#x4E92;&#x8865;&#x5173;&#x7CFB;&#x548C;&#x8054;&#x5408;&#x8868;&#x793A;&#x3002;&#x6B64;&#x5916;&#xFF0C;&#x8BE5;&#x6A21;&#x578B;&#x4ECE;&#x6E90;&#x57DF;&#x4F20;&#x8F93;&#x6A21;&#x578B;&#x7ED3;&#x6784;&#xFF08;&#x5373;RGB&#x56FE;&#x50CF;&#xFF09;&#x9002;&#x7528;&#x4E8E;&#x76EE;&#x6807;&#x57DF;&#xFF08;&#x5373;&#x6DF1;&#x5EA6;&#x8D34;&#x56FE;&#xFF09;&#x3002;
    UC-Net&#xFF1A;&#x901A;&#x8FC7;&#x6761;&#x4EF6;&#x53D8;&#x5206;&#x81EA;&#x52A8;&#x7F16;&#x7801;&#x5668;&#xFF08;VAEs&#xFF09;&#x63D0;&#x51FA;&#x4E86;&#x4E00;&#x79CD;&#x57FA;&#x4E8E;&#x6982;&#x7387;RGB-D&#x7684;SOD&#x7F51;&#x7EDC;&#x4E3A;&#x4EBA;&#x7C7B;&#x6CE8;&#x91CA;&#x4E0D;&#x786E;&#x5B9A;&#x6027;&#x5EFA;&#x6A21;&#x3002;&#x5B83;&#x901A;&#x8FC7;&#x5728;&#x5B66;&#x4E60;&#x7684;&#x6F5C;&#x5728;&#x7A7A;&#x95F4;&#x4E2D;&#x91C7;&#x6837;&#xFF0C;&#x4E3A;&#x6BCF;&#x4E2A;&#x8F93;&#x5165;&#x56FE;&#x50CF;&#x751F;&#x6210;&#x591A;&#x4E2A;&#x663E;&#x8457;&#x6027;&#x6620;&#x5C04;&#x3002;&#x8FD9;&#x662F;&#x7B2C;&#x4E00;&#x4E2A;&#x7814;&#x7A76;&#x57FA;&#x4E8E;RGB-D&#x7684;SOD&#x4E2D;&#x7684;&#x4E0D;&#x786E;&#x5B9A;&#x6027;&#x7684;&#x5DE5;&#x4F5C;&#xFF0C;&#x53D7;&#x6570;&#x636E;&#x6807;&#x8BB0;&#x8FC7;&#x7A0B;&#x7684;&#x542F;&#x53D1;&#x3002;&#x8BE5;&#x65B9;&#x6CD5;&#x5229;&#x7528;&#x4E0D;&#x540C;&#x7684;&#x663E;&#x8457;&#x6027;&#x6620;&#x5C04;&#x6765;&#x63D0;&#x9AD8;&#x6700;&#x7EC8;SOD&#x6027;&#x80FD;&#x3002;

1.2 融合模型

（1）早期融合
（a）输入融合：RGB图像和深度图直接集成，形成四通道输入；
（b）早期特征融合：RGB和深度图分别被送入每个独立的网络，它们的低级表示被组合为联合表示，然后被送入后续网络以进行进一步的显著性图预测。

   &#x65E9;&#x671F;&#x878D;&#x5408;&#x4F7F;&#x7528;&#x7B80;&#x5355;&#x7684;&#x4E32;&#x8054;&#x6765;&#x8FDB;&#x884C;&#x8F93;&#x5165;&#x878D;&#x5408;&#x3002;&#x53EF;&#x80FD;&#x5F88;&#x96BE;&#x6355;&#x6349;RGB&#x548C;&#x6DF1;&#x5EA6;&#x89C6;&#x56FE;&#x4E4B;&#x95F4;&#x7684;&#x4E92;&#x8865;&#x4EA4;&#x4E92;&#xFF0C;&#x56E0;&#x4E3A;&#x8FD9;
&#x4E24;&#x79CD;&#x7C7B;&#x578B;&#x7684;&#x4FE1;&#x606F;&#x5728;&#x7B2C;&#x4E00;&#x9636;&#x6BB5;&#x5C31;&#x6DF7;&#x5408;&#x4E86;&#xFF0C;&#x4F46;&#x76D1;&#x63A7;&#x4FE1;&#x53F7;&#x6700;&#x7EC8;&#x8FDC;&#x79BB;&#x6DF7;&#x5408;&#x8F93;&#x5165;&#x3002;&#x5B66;&#x4E60;&#x8FC7;&#x7A0B;&#x5BB9;&#x6613;&#x51FA;&#x73B0;&#x5C40;&#x90E8;&#x6700;&#x4F18;&#xFF0C;
&#x4EC5;&#x5B66;&#x4E60;RGB&#x6216;&#x6DF1;&#x5EA6;&#x7279;&#x5F81;&#xFF0C;&#x56E0;&#x6B64;&#x53EF;&#x80FD;&#x65E0;&#x6CD5;&#x4FDD;&#x8BC1;&#x89C6;&#x56FE;&#x878D;&#x5408;&#x540E;&#x7684;&#x6539;&#x8FDB;&#x3002;&#x6B64;&#x5916;&#xFF0C;&#x5355;&#x72EC;&#x5BF9;RGB&#x548C;&#x6DF1;&#x5EA6;&#x89C6;&#x56FE;&#x8FDB;&#x884C;&#x6DF1;
&#x5EA6;&#x76D1;&#x63A7;&#x662F;&#x4E0D;&#x53EF;&#x884C;&#x7684;&#x3002;&#x8FD9;&#x4F7F;&#x5F97;&#x5B66;&#x4E60;&#x6B63;&#x786E;&#x7684;&#x65B9;&#x5411;&#x53D8;&#x5F97;&#x56F0;&#x96BE;&#x3002;

（2）晚期融合
（a）后期特征融合：采用两个并行网络流分别学习RGB和深度数据的高级特征，将其串联，然后用于生成最终显著性预测。
（b）后期结果融合：使用两个并行网络流来获得RGB图像和深度线索的独立显著性图，然后将两个显著性图串联以获得最终预测图。

    &#x665A;&#x671F;&#x878D;&#x5408;&#x4F7F;&#x7528;&#x4E24;&#x4E2A;&#x5E76;&#x884C;&#x7F51;&#x7EDC;&#x663E;&#x5F0F;&#x63D0;&#x53D6;RGB&#x548C;&#x6DF1;&#x5EA6;&#x7279;&#x5F81;&#x3002;&#x8FD9;&#x786E;&#x4FDD;&#x4E86;RGB&#x548C;&#x6DF1;&#x5EA6;&#x89C6;&#x56FE;&#x90FD;&#x6709;&#x52A9;&#x4E8E;&#x6700;&#x7EC8;&#x51B3;
&#x7B56;&#x3002;&#x6B64;&#x5916;&#xFF0C;&#x5728;&#x8BE5;&#x65B9;&#x6848;&#x4E2D;&#x5E94;&#x7528;&#x7279;&#x5B9A;&#x4E8E;&#x4E2A;&#x4EBA;&#x89C6;&#x56FE;&#x7684;&#x76D1;&#x63A7;&#x975E;&#x5E38;&#x7B80;&#x5355;&#x3002;&#x7136;&#x800C;&#xFF0C;&#x8BE5;&#x65B9;&#x6848;&#x7684;&#x7F3A;&#x70B9;&#x662F;&#x65E0;&#x6CD5;&#x6316;&#x6398;&#x4E24;&#x4E2A;&#x89C6;
&#x56FE;&#x4E4B;&#x95F4;&#x590D;&#x6742;&#x7684;&#x5185;&#x5728;&#x5173;&#x8054;&#xFF0C;&#x5373;&#x9AD8;&#x5EA6;&#x975E;&#x7EBF;&#x6027;&#x7684;&#x4E92;&#x8865;&#x89C4;&#x5219;&#x3002;

＜000＞RGB-D Salient Object Detection: A Survey

（3）多尺度融合：
（a）学习跨模态交互，然后将其融合到特征学习网络中。
（b）融合不同层的RGB图像和深度图的特征，然后将它们集成到解码器网络（例如，跳过连接）中，以生成最终的显著性检测映射。

    &#x4E2D;&#x671F;&#x878D;&#x5408;&#x662F;&#x65E9;&#x671F;&#x878D;&#x5408;&#x548C;&#x665A;&#x671F;&#x878D;&#x5408;&#x7684;&#x8865;&#x5145;&#xFF0C;&#x56E0;&#x4E3A;&#x7279;&#x5F81;&#x63D0;&#x53D6;&#x548C;&#x540E;&#x7EED;&#x878D;&#x5408;&#x90FD;&#x7531;&#x76F8;&#x5BF9;&#x8F83;&#x6DF1;&#x7684;CNN&#x5904;&#x7406;&#x3002;&#x56E0;
&#x6B64;&#xFF0C;&#x53EF;&#x4EE5;&#x4ECE;&#x4E24;&#x79CD;&#x6A21;&#x5F0F;&#x4E2D;&#x5B66;&#x4E60;&#x9AD8;&#x5C42;&#x6982;&#x5FF5;&#xFF0C;&#x5E76;&#x6316;&#x6398;&#x590D;&#x6742;&#x7684;&#x96C6;&#x6210;&#x89C4;&#x5219;&#x3002;&#x540C;&#x65F6;&#xFF0C;&#x4E3A;RGB&#x548C;&#x6DF1;&#x5EA6;&#x6570;&#x636E;&#x6DFB;&#x52A0;&#x989D;&#x5916;&#x7684;
&#x4E2A;&#x4EBA;&#x6DF1;&#x5EA6;&#x76D1;&#x63A7;&#x975E;&#x5E38;&#x7B80;&#x5355;&#x3002;

ICNet&#xFF1A;&#x63D0;&#x51FA;&#x4E86;&#x4E00;&#x4E2A;&#x4FE1;&#x606F;&#x8F6C;&#x6362;&#x6A21;&#x5757;&#xFF0C;&#x4EE5;&#x4EA4;&#x4E92;&#x65B9;&#x5F0F;&#x8F6C;&#x6362;&#x9AD8;&#x7EA7;&#x7279;&#x5F81;&#x3002;&#x5728;&#x8BE5;&#x6A21;&#x578B;&#x4E2D;&#xFF0C;&#x5F15;&#x5165;&#x4E86;&#x8DE8;&#x6A21;&#x6001;&#x6DF1;&#x5EA6;&#x52A0;&#x6743;&#x7EC4;&#x5408;&#xFF08;CDC&#xFF09;&#x5757;&#xFF0C;&#x4EE5;&#x5728;&#x4E0D;&#x540C;&#x5C42;&#x6B21;&#x4E0A;&#x4F7F;&#x7528;&#x6DF1;&#x5EA6;&#x7279;&#x5F81;&#x589E;&#x5F3A;RGB&#x7279;&#x5F81;&#x3002;
DPANet&#xFF1A;]&#x4F7F;&#x7528;&#x95E8;&#x63A7;&#x591A;&#x6A21;&#x5F0F;&#x6CE8;&#x610F;&#xFF08;GMA&#xFF09;GMA&#x6A21;&#x5757;&#x5229;&#x7528;&#x7A7A;&#x95F4;&#x6CE8;&#x610F;&#x673A;&#x5236;&#x63D0;&#x53D6;&#x6700;&#x5177;&#x8FA8;&#x522B;&#x529B;&#x7684;&#x7279;&#x5F81;&#x3002;&#x6B64;&#x5916;&#xFF0C;&#x8BE5;&#x6A21;&#x578B;&#x4F7F;&#x7528;&#x95E8;&#x51FD;&#x6570;&#x63A7;&#x5236;&#x8DE8;&#x6A21;&#x6001;&#x4FE1;&#x606F;&#x7684;&#x878D;&#x5408;&#x7387;&#xFF0C;&#x4ECE;&#x800C;&#x51CF;&#x5C11;&#x4E0D;&#x53EF;&#x9760;&#x6DF1;&#x5EA6;&#x7EBF;&#x7D22;&#x5E26;&#x6765;&#x7684;&#x4E00;&#x4E9B;&#x5F71;&#x54CD;&#x3002;
BiANet&#xFF1A;&#x91C7;&#x7528;&#x591A;&#x5C3A;&#x5EA6;&#x53CC;&#x8FB9;&#x6CE8;&#x610F;&#x6A21;&#x5757;&#xFF08;MBAM&#xFF09;&#x5728;&#x591A;&#x4E2A;&#x5C42;&#x9762;&#x6355;&#x6349;&#x66F4;&#x597D;&#x7684;&#x5168;&#x5C40;&#x4FE1;&#x606F;&#x3002;
JL-DCF&#xFF1A;&#x5C06;&#x6DF1;&#x5EA6;&#x56FE;&#x50CF;&#x89C6;&#x4E3A;&#x5F69;&#x8272;&#x56FE;&#x50CF;&#x7684;&#x7279;&#x4F8B;&#xFF0C;&#x5E76;&#x4F7F;&#x7528;&#x5171;&#x4EAB;CNN&#x8FDB;&#x884C;RGB&#x548C;&#x6DF1;&#x5EA6;&#x7279;&#x5F81;&#x63D0;&#x53D6;&#x3002;&#x5B83;&#x8FD8;&#x63D0;&#x51FA;&#x4E86;&#x4E00;&#x79CD;&#x7D27;&#x5BC6;&#x534F;&#x4F5C;&#x7684;&#x878D;&#x5408;&#x7B56;&#x7565;&#xFF0C;&#x4EE5;&#x6709;&#x6548;&#x5730;&#x7ED3;&#x5408;&#x4E0D;&#x540C;&#x6A21;&#x5F0F;&#x7684;&#x5B66;&#x4E60;&#x7279;&#x5F81;&#x3002;
BBS-Net&#xFF1A;&#x4F7F;&#x7528;&#x5206;&#x652F;&#x4E3B;&#x5E72;&#x7B56;&#x7565;&#xFF08;BBS&#xFF09;&#x5C06;&#x591A;&#x7EA7;&#x7279;&#x5F81;&#x8868;&#x793A;&#x62C6;&#x5206;&#x4E3A;&#x6559;&#x5E08;&#x548C;&#x5B66;&#x751F;&#x7279;&#x5F81;&#xFF0C;&#x5E76;&#x5F00;&#x53D1;&#x6DF1;&#x5EA6;&#x589E;&#x5F3A;&#x6A21;&#x5757;&#xFF08;DEM&#xFF09;&#xFF0C;&#x4ECE;&#x7A7A;&#x95F4;&#x548C;&#x901A;&#x9053;&#x89C6;&#x56FE;&#x63A2;&#x7D22;&#x6DF1;&#x5EA6;&#x5730;&#x56FE;&#x4E2D;&#x7684;&#x4FE1;&#x606F;&#x90E8;&#x5206;&#x3002;

1.3 单流与多流模型

（1）单流模型：通常在输入通道或特征学习部分融合RGB图像和深度信息。

MDSF&#xFF1A;&#x91C7;&#x7528;&#x591A;&#x5C3A;&#x5EA6;&#x533A;&#x5206;&#x663E;&#x8457;&#x6027;&#x878D;&#x5408;&#x6846;&#x67B6;&#x4F5C;&#x4E3A;SOD&#x6A21;&#x578B;&#xFF0C;&#x5176;&#x4E2D;&#x8BA1;&#x7B97;&#x4E09;&#x4E2A;&#x7EA7;&#x522B;&#x7684;&#x56DB;&#x79CD;&#x7C7B;&#x578B;&#x7684;&#x7279;&#x5F81;&#xFF0C;&#x7136;&#x540E;&#x8FDB;&#x884C;&#x878D;&#x5408;&#x4EE5;&#x83B7;&#x5F97;&#x6700;&#x7EC8;&#x663E;&#x8457;&#x6027;&#x56FE;&#x3002;
BED&#xFF1A;&#x5229;&#x7528;CNN&#x4F53;&#x7CFB;&#x7ED3;&#x6784;&#x96C6;&#x6210;SOD&#x7684;&#x81EA;&#x4E0B;&#x800C;&#x4E0A;&#x548C;&#x81EA;&#x4E0A;&#x800C;&#x4E0B;&#x4FE1;&#x606F;&#xFF0C;&#x8FD8;&#x96C6;&#x6210;&#x4E86;&#x591A;&#x79CD;&#x529F;&#x80FD;&#xFF0C;&#x5305;&#x62EC;&#x80CC;&#x666F;&#x5C01;&#x95ED;&#x5206;&#x5E03;&#xFF08;BED&#xFF09;&#x548C;&#x4F4E;&#x5C42;&#x6DF1;&#x5EA6;&#x56FE;&#xFF08;&#x4F8B;&#x5982;&#x6DF1;&#x5EA6;&#x76F4;&#x65B9;&#x56FE;&#x8DDD;&#x79BB;&#x548C;&#x6DF1;&#x5EA6;&#x5BF9;&#x6BD4;&#x5EA6;&#xFF09;&#xFF0C;&#x4EE5;&#x63D0;&#x9AD8;SOD&#x6027;&#x80FD;&#x3002;
PDNet&#xFF1A;&#x4F7F;&#x7528;&#x8F85;&#x52A9;&#x7F51;&#x7EDC;&#x63D0;&#x53D6;&#x57FA;&#x4E8E;&#x6DF1;&#x5EA6;&#x7684;&#x7279;&#x5F81;&#xFF0C;&#x8BE5;&#x7F51;&#x7EDC;&#x5145;&#x5206;&#x5229;&#x7528;&#x6DF1;&#x5EA6;&#x4FE1;&#x606F;&#x6765;&#x8F85;&#x52A9;&#x4E3B;&#x6D41;&#x7F51;&#x7EDC;&#x3002;

（2）多流模型：双流模型由分别处理RGB图像和深度线索的两个独立分支组成，并且通常生成不同的高级特征或显著性图，然后将它们合并在两个流的中间阶段或结束。

1.4 注意模型

引入注意机制来衡量不同区域或领域的重要性。

ASIF-Net&#xFF1A;&#x4F7F;&#x7528;&#x4EA4;&#x7EC7;&#x878D;&#x5408;&#x4ECE;RGB&#x56FE;&#x50CF;&#x548C;&#x6DF1;&#x5EA6;&#x7EBF;&#x7D22;&#x4E2D;&#x6355;&#x83B7;&#x8865;&#x5145;&#x4FE1;&#x606F;&#xFF0C;&#x5E76;&#x901A;&#x8FC7;&#x6DF1;&#x5EA6;&#x76D1;&#x7763;&#x6CE8;&#x610F;&#x673A;&#x5236;&#x5BF9;&#x663E;&#x8457;&#x6027;&#x533A;&#x57DF;&#x8FDB;&#x884C;&#x52A0;&#x6743;&#x3002;
AttNet&#xFF1A;&#x5F15;&#x5165;&#x4E86;&#x6CE8;&#x610F;&#x56FE;&#xFF0C;&#x7528;&#x4E8E;&#x533A;&#x5206;&#x663E;&#x8457;&#x7269;&#x4F53;&#x548C;&#x80CC;&#x666F;&#x533A;&#x57DF;&#xFF0C;&#x4EE5;&#x51CF;&#x5C11;&#x4E00;&#x4E9B;&#x4F4E;&#x8D28;&#x91CF;&#x6DF1;&#x5EA6;&#x7EBF;&#x7D22;&#x7684;&#x8D1F;&#x9762;&#x5F71;&#x54CD;&#x3002;
TANet&#xFF1A;&#x5229;&#x7528;&#x81EA;&#x4E0B;&#x800C;&#x4E0A;&#x548C;&#x81EA;&#x4E0A;&#x800C;&#x4E0B;&#x89C6;&#x56FE;&#x4E2D;&#x7684;RGB&#x56FE;&#x50CF;&#x548C;&#x6DF1;&#x5EA6;&#x56FE;&#xFF0C;&#x5236;&#x5B9A;&#x4E86;&#x4E00;&#x4E2A;&#x591A;&#x6A21;&#x5F0F;&#x878D;&#x5408;&#x6846;&#x67B6;&#x3002;&#x7136;&#x540E;&#xFF0C;&#x5B83;&#x5F15;&#x5165;&#x4E86;&#x4E00;&#x4E2A;&#x901A;&#x9053;&#x5F0F;&#x6CE8;&#x610F;&#x6A21;&#x5757;&#x6765;&#x6709;&#x6548;&#x5730;&#x878D;&#x5408;&#x6765;&#x81EA;&#x4E0D;&#x540C;&#x6A21;&#x5F0F;&#x548C;&#x5C42;&#x6B21;&#x7684;&#x8865;&#x5145;&#x4FE1;&#x606F;&#x3002;

RGB-D SOD数据集

（1）STERE：首先从Flickr、NVIDIA 3D Vision Live和Stereoscopic Image Gallery中收集了1250张立体图像，每个图像中最显著的对象由三个用户注释。然后根据重叠的显著区域对所有带注释的图像进行排序，并选择前1000幅图像构建最终数据集。该领域的第一组立体图像。

（2）GIT：由80幅彩色和深度图像组成，这些图像是在现实家庭环境中使用移动机械手采集的。此外，基于对象的像素级分割对每个图像进行注释。

（3）DES：由135幅室内RGB-D图像组成，由Kinect以640×640的分辨率拍摄。收集该数据集，要求三名用户在每幅图像中标记显著对象，然后将标记对象的重叠区域视为基本真实值。

（4）NLPR：由1000个RGB图像及其相应的深度图组成，这些图像由标准的Microsoft Kinect获得。此数据集包括一系列室外和室内位置，例如办公室、超市、校园、街道等。第一个大规模RGB-D基准数据集。

（5）LFSD：包括使用Lytro光场摄像机采集的100个光场，包括60个室内和40个室外场景。为了标记该数据集，要求三个人手动分割显著区域，然后当三个结果的重叠超过90%时，分割结果被视为基本真实。

（6）NJUD：由1985对立体图像组成，这些图像是从互联网、3D电影和FujiW3立体相机拍摄的照片中收集的。

（7）SSD：使用三部立体声电影构建，包括室内和室外场景。该数据集包含80个样本，每个图像的大小为960×1080。

（8）DUT-RGBD：由800个室内和400个室外场景和相应的深度图组成。该数据集包括几个具有挑战性的因素，即多个或透明对象、复杂背景、类似的前景和背景以及低强度环境。

（9）SIP：由929张带注释的高分辨率图像组成，每张图像中有多个突出人物。在这个数据集中，深度图是使用真正的智能手机（即华为Mate10）捕获的。此外，值得注意的是，该数据集涵盖了各种场景和各种挑战性因素，并使用像素级的真值进行了注释。

; 3. 评价指标

（1）PR（precision-recall）：给定一个显著性图S，我们可以将其转换为二进制掩码（mask），然后通过与地面真实值进行比较来计算精度和召回率。

M &#xFF1A;&#x663E;&#x8457;&#x6027;&#x56FE;S&#x8F6C;&#x5316;&#x4E3A;&#x4E8C;&#x8FDB;&#x5236;&#x63A9;&#x7801;&#xFF1B; G &#xFF1A;&#x771F;&#x503C;&#x56FE;&#xFF1B; |&#xB7;| &#xFF1A;&#x56FE;&#x5185;&#x63A9;&#x7801;&#x7684;&#x603B;&#x9762;&#x79EF;&#x3002;

一种流行的策略：使用一组阈值（即，它从0变为255）对显著性图进行分区。对于每个阈值，我们首先计算一对召回率和准确度分数，然后将它们结合起来，得到描述模型在不同阈值下性能的PR曲线。

（2）F-measure：为了综合考虑精度和召回率，通过计算加权调和平均值，提出了F-measure。

&#x3B2;&#x662F;precision&#x548C;recall&#x4E4B;&#x95F4;&#x7684;&#x6743;&#x91CD;&#xFF0C;&#x8BBE;&#x7F6E;&#x3B2;^2=0.3&#x4EE5;&#x5F3A;&#x8C03;&#x7CBE;&#x5EA6;&#x3002;&#x6211;&#x4EEC;&#x4F7F;&#x7528;&#x4E0D;&#x540C;&#x7684;&#x56FA;&#x5B9A;[0,255]&#x9608;&#x503C;&#x6765;&#x8BA1;&#x7B97;F-measure&#x5EA6;&#x91CF;&#x3002;&#x8FD9;&#x4EA7;&#x751F;&#x4E86;&#x4E00;&#x7EC4;&#x5EA6;&#x91CF;&#x503C;&#xFF0C;&#x6211;&#x4EEC;&#x62A5;&#x544A;&#x4E86;&#x5B83;&#x4EEC;&#x7684;&#x6700;&#x5927;&#x503C;&#x6216;&#x5E73;&#x5747;&#x503C;F&#x3B2;&#x3002;

（3）MAE（mean absolute error）：衡量预测的显著性图S和真值图G之间所有像素的平均像素级绝对误差。

W&#x3001;H&#xFF1A;&#x5206;&#x522B;&#x8868;&#x793A;&#x5730;&#x56FE;&#x7684;&#x5BBD;&#x5EA6;&#x548C;&#x9AD8;&#x5EA6;&#x3002;MAE&#x503C;&#x6807;&#x51C6;&#x5316;&#x4E3A;[0,1]&#x3002;

（4）S-measure：评估区域感知（Sr）和对象感知（So）之间的结构相似性，捕获图像中结构信息的重要性。

&#x3B1;&#x2208; [0,1]&#x662F;&#x4E00;&#x4E2A;&#x534F;&#x8C03;&#x53C2;&#x6570;&#x3002;&#x9ED8;&#x8BA4;&#x8BBE;&#x7F6E;&#x3B1;=0.5&#x3002;

（5）E-measure：基于认知视觉研究提出，用于捕获图像级统计信息及其局部像素匹配信息。

&#x444;FM&#xFF1A;&#x589E;&#x5F3A;&#x5BF9;&#x51C6;&#x77E9;&#x9635;&#x3002;

Original: https://blog.csdn.net/jinmoua/article/details/121573984
Author: jinmoua
Title: ＜000＞RGB-D Salient Object Detection: A Survey

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686930/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

论文阅读 Learning Knowledge Graph Embedding With Heterogeneous Relation Attention Networks

Learning Knowledge Graph Embedding With Heterogeneous Relation Attention Networks 基于异构关系注意…

人工智能 2023年6月1日
0060
卷积神经网络的训练过程,卷积神经网络如何训练

深度神经网络是如何训练的？ Coursera的Ng机器学习，UFLDL都看过。没记错的话Ng的机器学习里是直接给出公式了，虽然你可能知道如何求解，但是即使不知道完成作业也不是问题，…

人工智能 2023年7月13日
0069
SAS的基本使用介绍1（数据集建立与输入输出格式）

SAS的基本使用提前说明：本软件安装较为复杂，而且所占空间很大运行helloworld Data a; File print; Put ‘hello world!’; Run;…

人工智能 2023年6月11日
00335
树莓派4B+ YOLOv5+pytorch1.8+opencv4.3

将Yolov5s部署树莓派4B上自己的过程和遇到的问题先换源，再安装虚拟环境yolov5，参考树莓派4b安装python虚拟环境再安装包，可以参考在树莓派部署Yolov5 树莓派…

人工智能 2023年7月10日
00115
【自动文摘】BART实现finetune及evaluate

文章目录 * – BART介绍 – 下游任务 fine tune BART介绍我最近在看自动文摘相关的预训练模型，BART模型是2019-2020左右提出…

人工智能 2023年5月28日
0082
【Python实战】如果没有音乐，生活就是一个错误 :n首回味无穷的歌，总有一曲深得你心哦~

前言有温度有深度有广度就等你来关注哦~ 哈喽！我是栗子同学，爬虫部分小案例已经可以给大家写啦！有小伙伴儿问我这么久都去哪儿了？当然是学习新知识去啦，黑嘿嘿，很多爬虫的小…

人工智能 2023年6月29日
0088
chatGPT与世界杯的故事：人工智能的双重面对

（本文是 CSDN 的世界杯征文）在本文中，我们将借助chatGPT的智慧，一起探究世界杯与人工智能之间的关系，并展望人工智能在体育领域的应用。同时，我们也将思考人工智能如何影响着…

人工智能 2023年7月28日
0080
python+OpenCV笔记（三十九）：离散傅里叶变换（DFT）

目录一、什么是傅里叶变换二、代码编写：傅里叶变换与逆傅里叶变换【一、OpenCV实现傅里叶变换】【二、OpenCV实现逆傅里叶变换】【三、Numpy实现傅里叶变换】【四…

人工智能 2023年6月22日
0091
视觉目标检测大模型套件detrex-调研

A.写在前面与NLP大模型相比，CV大模型目前还没有一套较为系统的整合方式。个人认为这主要是： 1.CV大模型的各个下游任务之间的差异性较大导致的。 2.可能也与目前CV领域大模…

人工智能 2023年7月9日
0069
Vision Transformer（ViT）PyTorch代码全解析（附图解）

Vision Transformer（ViT）PyTorch代码全解析最近CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来，屠杀了各…

人工智能 2023年6月16日
00104
概率还不会的快看过来《统计学习方法》——第四章、朴素贝叶斯法

作者简介：整个建筑最重要的是地基，地基不稳，地动山摇。而学技术更要扎稳基础，关注我，带你稳扎每一板块邻域的基础。博客主页：七归的博客收录专栏：《统计学习方法》第二版——个人笔记南来…

人工智能 2023年7月26日
0057
Python之初识Pandas

Pandas Pandas的功能Pandas提供了高级数据结构和数据操作工具，它是使Python成为强大而高效的数据处理环境的重要因素之一。 Numpy能够帮助我们处理数值，但是p…

人工智能 2023年7月8日
0094
基于python分析航空公司客户价值《数据挖掘》课程实验报告

一、实验目的 1）了解K-Means 聚类算法在客户价值分析实例中的应用。2）利用pandas快速实现数据z-score(标准差）标准化以及用scikit-learn 的聚类库实现…

人工智能 2023年5月31日
0078
【Spark篇】—SparkSQL初始和创建DataFrame的几种方式

一、前述 1、SparkSQL介绍 Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 SparkSQL支…

人工智能 2023年6月2日
0083
正态分布（高斯分布）、Q函数、误差函数、互补误差函数（定义，意义及互相之间的关系）高斯分布的分布概率反解

1.正态分布参考博客：https://www.cnblogs.com/htj10/p/8621771.html 概率密度函数的意义：理解概率密度函数 – 知乎 (z…

人工智能 2023年6月24日
00116
如何解决过拟合的问题

如何解决过拟合的问题 1. 问题介绍过拟合（overfitting）是指机器学习模型在训练集上表现非常好，但在测试集上表现较差的现象。过拟合通常是由于模型过于复杂，导致模型学习了…

人工智能 2024年1月1日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31