一些关于Image Caption和Visual Storytelling的想法

2023年6月1日下午8:43 • 人工智能 • 阅读 76

这几天在看一篇关于Visual Storytelling的论文，题目为《Knowledge-Enriched Visual Storytelling》。
这篇论文主要是介绍他们提出的一个利用外部知识来生成故事的三阶段框架——KG-Story，简单来说把知识图谱加入到Storytelling的过程中。

一些关于Image Caption和Visual Storytelling的想法

stage1 从每张图片中提取一组单词 stage2 在知识图谱中进行搜素，找出图像中词对之间的潜在关系 stage3 使用故事生成器，利用前两个阶段得到的所有词汇和知识生成故事

; 对比

Image Caption

仅仅是对图片进行描述，目的只是把图片内容描述正确、清楚，一般而言是不带有感情色彩的，其实用到的输入也是5张图片一组，生成5句话，但是其实这5句话就是在分别描述自己的图片内容，不会把两张图进行联系来生成文字。

Visual Storytelling

Visual Storytelling就不一样了，讲故事是需要有前后逻辑和一定的想象力的，对比Image Caption,它的挑战大多了，首先不仅是对图像中的物体进行客观描述，还要找寻图片和图片之间有关联物体的关系，通俗来说，不能简单把5张图片客观翻译出来，而是要联系五张图片的内容，找出之间的关联，再来写故事，就像我们小学的时候看图写话差不多，给你几张图编一段故事。难点在于要让计算机去理解图片内容，并且联系起来，但是这几年也有一些这方面的工作做的不错的，通过各种中间层来进行图片——故事的连接。

一些启发和想法

Image Caption从最初15年开始就有人做了，截止到今天，准确度应该来说已经还可以了，我感觉我很难在指标上去超越之前的一些大厂大牛做的实验效果。看别人也说，这个方向现在并不是很好做，特别是要做出一点成绩来，我也知道自己本身能力很弱。这两年在顶会上出现的这个方向的论文主要是结合了一些应用，比如带有情感特点的描述，或者是针对某种特定应用场景的描述，单单进行准确率的描述意义不大。其实个人认为人类希望看到的图片描述，往往并不简简单单是客观描述，之前看到的一篇带有情感特点的描述论文还蛮有意思。
导师最近给我发的论文也是Visual Storytelling的，其实估计他也希望我做这个方向，这个方向应该算是Image Caption衍生出来的一个方向，类似的还有Vedio Storytelling等。
虽然之前的师兄做的中文Image Caption我最近在复现他的实验，他做的是中文的。我感觉还是Visual Storytelling比较有意思，可以做的空间也比较大，得找一个比较有特色的小点去做才行。

嗯~后面继续看两篇Visual Storytelling的论文，找点开源的实验来看一看，还是在这个方向上好好去做吧，加油呀！

Original: https://blog.csdn.net/lmm_1997/article/details/108961068
Author: 不可多得的好姑娘
Title: 一些关于Image Caption和Visual Storytelling的想法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558423/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像分割模型——segmentation_models_pytorch和albumentations 组合实现多类别分割

文章目录摘要项目结构训练测试完成代码：摘要 segmentation_models_pytorch是一款非常优秀的图像分割库，albumentations 是一款非常优…

人工智能 2023年7月23日
00103
mybatis 单框架实现数据库查询

mybatis 单框架实现数据库查询 1 准备工作 1.1 导入依赖 <dependencies> <dependency> <groupId>…

人工智能 2023年6月29日
0069
图像处理（一）图像灰度化的三种方式

图像处理的第一步操作基本都是进行灰度化，二灰度化的方式都很多种，可以根据自己的具体需要进行参数调整，基本分为四大种，分别为 YUV亮度灰度化、最大值灰度化、平均值灰度化、 Ga…

人工智能 2023年6月18日
0043
动手做个 AI 机器人，帮我回消息

大家好，我是鱼皮，自从做了知识分享，我的微信就没消停过，平均每天会收到几百个消息，大部分都是学编程的朋友向我咨询编程问题。但毕竟我只有一个人，没法所有消息都一个个回复，所以也是很…

人工智能 2023年6月23日
0089
将爬取数据自动地生成表格

import pickleimport pandas as pdimport datetime 读取爬取下来的数据with open(“/Users/data/all_…

人工智能 2023年7月8日
0061
基本参数：axis、skipna

基本参数：axis、skipna import numpy as np1import pandas as pdimport datetime df = pd.DataFrame({…

人工智能 2023年7月7日
0062
ggplot绘制散点图并添加拟合曲线和方程

载入包建完回归模型后想看一下模型的效果，文献中一般都是使用散点图+lm拟合曲线+Rsquared来表示 Cairo包用来导出pdf图片，尝试过多种通过代码保存pdf的方法，最后发…

人工智能 2023年6月16日
0052
理解透C语言一维数组，二维数组这一篇就够啦！

前言💖 作者：龟龟不断向前✨ 简介：宁愿做一只不停跑的慢乌龟，也不想当一只三分钟热度的兔子。👻 专栏：C++初阶知识点👻 工具分享：刷题：牛客网 leetcode 笔记软件：有…

人工智能 2023年6月27日
0084
python获取声音波形的关键特征

; python获取声音波形的关键特征一、声音波形如下 ; 二、特征提取导入音频处理库： pip install librosa pip install numpy pip i…

人工智能 2023年6月28日
0081
CUDA入门教程；Transformer太火不是好事？；探求GPU极限性能的利器｜AI系统前沿动态…

要说 Transformer 有多厉害，比如 OpenAI 重磅推出的 GPT-3，就是基于 Transformer 实现的。至于传播速度方面，短短 5 年，Transformer…

人工智能 2023年6月24日
0067
双目相机下目标三维坐标计算（四）

本文来自公众号：机器人视觉完成双目相机标定以后，获得双目相机的参数矩阵包括左右相机的内参数矩阵、左右相机的畸变系数矩阵、右相机相对于左相机的旋转矩阵与平移矩阵已知左右相机图像中…

人工智能 2023年7月18日
0041
Could not load dynamic library ‘cudart64_110.dll‘； dlerror: cudart64_110.dll not found Ignore above

问题描述 2021-12-11 22:03:37.094666: W tensorflow/stream_executor/platform/default/dso_loader….

人工智能 2023年6月16日
0076
基于树莓派的智能家居设计

文章目录前言一、整体系统框图二、代码部分二、APP客户端 * 1.MainActivity.java 2.NetUtils.java 三、实物展示前言一个简单的小项目，…

人工智能 2023年5月25日
0086
python opencv cv2.putText()显示中文问题

本文章的所有代码和相关文章，仅用于经验技术交流分享，禁止将相关技术应用到不正当途径，滥用技术产生的风险与本人无关。本文章是自己学习的一些记录。开始在做项目想将自己的想法输出显…

人工智能 2023年7月18日
0052
KITTI数据集详解

KITTI数据集详解数据采集车以下图片来自KITTI官网：KITT官方linkKitti的数据采集车，顶上是一个 64线的velodyne激光雷达，前面有四个摄像头分别是cam…

人工智能 2023年6月17日
0084
Jupyter 是什么

1. 先说说 Jupyter 怎么读。虽然我们知道看书不必发声，甚至心里也不要默读，才能读得快。但事实上，当我们不知道一个字的发音时，我们是看不下去的，记不住的。 Jupyte…

人工智能 2023年6月16日
0091

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

一些关于Image Caption和Visual Storytelling的想法

; 对比

Image Caption

Visual Storytelling

一些启发和想法

大家都在看