论文阅读笔记：Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input

2023年5月25日上午4:51 • 人工智能 • 阅读 74

文章目录

摘要
一、背景
二、模型
三、实验

论文地址：https://arxiv.org/abs/1804.01452
代码：https://github.com/LiqunChen0606/Jointly-Discovering-Visual-Objects-and-Spoken-Words

纸质笔记，如果你有任何问题，请在评论区指出。

[En]

Paper notes, if you have any questions, please point them out in the comments section.

摘要

本文设计了一个将音频字幕和对应的图像关联的神经网络，通过image-audio retrieval代理任务的学习，也可以实现图像中的声源定位。本文方法不需要监督。在Places 205和ADE20K数据集上进行了实验，实现了把图像中的物体和语音中的文字在语义上联结配对。作者是在raw sensory上实现的：即image pixels 和 speech waveform。

一、背景

论文阅读笔记：Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input

作者想要探究在未经处理的数据上（unaligned、unannotated）能否将语音与视觉联系起来。

作者强调，该方法不使用任何传统的语音识别或转录，也不使用任何目标检测和识别模型，在没有任何监督的情况下实现了图像中对象和语音单词的检测和分割。

[En]

The author emphasizes that this method does not use any traditional speech recognition or transcription, or target detection and recognition model, and realizes the detection and segmentation of objects and speech words in the image without any supervision.

; 二、模型

作者方法和之前方法不同的是，不再将整张图像和语音发音映射起来，而是学习在时间上和空间上分布的表示，实现在每个模态上的直接共同定位。优化目标是ranking-based。

作者使用两个分支分别对图像和音频进行处理。

[En]

The author uses two branches to process images and audio respectively.

对于图像分支，前人工作一般需要预训练VGG，本文不需要，另外只保留到了conv5，去掉了后面的池化等操作。

对于音频和图像相似度的计算，首先是点积

[En]

For the calculation of audio and image similarity, dot product first

可选用的相似性计算：

三、实验

首先进行了查询实验

然后进行了定位实验

还进行了聚类实验

不同损失和网络结构对比

可视化

Original: https://blog.csdn.net/qq_39233881/article/details/121211789
Author: 住在新手村的小木子
Title: 论文阅读笔记：Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512275/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ubuntu搭建Pytorch，就这一篇就够了

第一步：配置镜像源，安装必要环境我在这篇文章中详细写了如何配置清华源更换镜像第二步：安装anaconda 1 进入官网 https://www.anaconda.com/ 2 …

人工智能 2023年6月16日
00113
图像处理中常用的相似度评估指标

导读有时候我们想要计算两张图片是否相似，而用来衡量两张图片相似度的算法也有很多，例如： RMSE、 PSNR、 SSIM、 UQI、 SIFT以及 深&am…

人工智能 2023年6月18日
0074
均值聚类散点图怎么画_深入浅出聚类算法

原创声明：本文为 SIGAI 原创文章，仅供个人学习使用，未经允许，不能用于商业目的。其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版…

人工智能 2023年6月2日
0049
备赛笔记：Opencv学习：直线检测

直线检测一般使用函数HoughLines或HoughLinesP，第二种方法为概率版本Hoygh变换，这个函数是优化版本，计算速度更快 import cv2 import nump…

人工智能 2023年7月20日
0053
一篇看懂所有关于Transformer在翻译任务中的细节

MASK机制 Encoder 模型搭建训练函数原始的句子首先需要转换为词表中的索引，然后进入词嵌入层。举个例子，假如某个时间步长上输入句子为 “I love u”，src_vo…

人工智能 2023年5月31日
0080
详解torch.nn.utils.clip_grad_norm_ 的使用与原理

从上面文章可以看到， clip_grad_norm最后就是对所有的梯度乘以一个 clip_coef，而且乘的前提是 clip_coef一定是小于1的，所以，按照这个情况： clip…

人工智能 2023年7月26日
0042
R语言对dataframe行数据进行筛选（row selection）、筛选数据行、基于条件筛选数据行

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月15日
0072
深度学习之快速实现数据集增强的方法

我们在深度学习训练之前准备数据集的时候，特别是打标注的数据集，需要耗费大量的人力物力打标签，在打完的基础我们还可以直接对数据集进行二次增强，即数据集增强。目录一、常用的数据集…

人工智能 2023年6月23日
0073
目标检测、工业缺陷、图像分割—-深度学习数据集归纳

90+深度学习开源数据集整理｜包括目标检测、工业缺陷、图像分割等多个方向。推文给出了95种深度学习开源数据集。包括了11个方向（小目标检测、目标检测、工业检测、人脸识别、人体姿态估…

人工智能 2023年7月9日
0042
MySQL数据库的多种连接方式及工具

大家好呀！我是猿童学🐵，最近在学习Mysql数据库，给初学者分享一些知识，也是学习的总结，关注我将会不断地更新数据库知识，也欢迎大家指点一二🌹。目录一、MySQl命令行客户端 …

人工智能 2023年7月30日
0052
树莓派挂载exfat和ntfs格式硬盘优盘

树莓派 Linux系统默认可以自动识别到fat32格式的盘，但fat32支持的文件不能大于4G，所以只能将移动硬盘和U盘格式化为NTFS和exFAT这两种格式的，闪迪U盘一般默认格…

人工智能 2023年6月12日
0093
人工智能AI 生成的艺术：从文本到图像

人工智能生成艺术简史首先，让我们把事情弄清楚一点。”人工智能与艺术”一般可以从两个方面来理解：人工智能在分析现有艺术的过程中人工智能在创造新艺术的过程…

人工智能 2023年7月27日
0097
计算机系统的层次结构

计算机系统以硬件为基础，通过配置各种软件来扩充系统功能，形成一个有机组合的复杂计算机系统。数字逻辑层：最底层是由逻辑门组成的逻辑电路，称为数字逻辑层。微程序设计层：这是一个实在…

人工智能 2023年6月29日
00142
图像处理基础_底层视觉之图像滤波和边缘检测

文章目录图像滤波 * 图像滤波器线性滤波器 – 线性移不变系统(LSIS) 卷积* 滤波器* + 平滑滤波器 * 盒式滤波器二项滤波器性质梯度滤波器 * 性质…

人工智能 2023年6月22日
0077
【Pandas详解】聚合运算agg()

聚合运算前言 1. 创建DataFrame对象 2. 单列聚合 3. 多列聚合 4. 多种聚合运算 5. 多种聚合运算并更改列名 6. 不同的列运用不同的聚合函数 7. 使用自定…

人工智能 2023年7月8日
0055
详解OpenCV的视频背景/前景分割(背景建模/前景提取)类cv::BackgroundSubtractorKNN,并利用它实现对道路监控视频前景/背景的提取

cv::BackgroundSubtractorKNN是利用K近邻(K-nearest neigbours)思想实现的背景建模。百度百科对KNN算法的概括如下：邻近算法，或者说K…

人工智能 2023年7月19日
0053

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

论文阅读笔记：Jointly Discovering Visual Objects and Spoken Words from Raw Sensory Input

文章目录

大家都在看