一些关于Image Caption和Visual Storytelling的想法

这几天在看一篇关于Visual Storytelling的论文,题目为《Knowledge-Enriched Visual Storytelling》。
这篇论文主要是介绍他们提出的一个利用外部知识来生成故事的三阶段框架——KG-Story,简单来说把知识图谱加入到Storytelling的过程中。

一些关于Image Caption和Visual Storytelling的想法

stage1 从每张图片中提取一组单词 stage2 在知识图谱中进行搜素,找出图像中词对之间的潜在关系 stage3 使用故事生成器,利用前两个阶段得到的所有词汇和知识生成故事

; 对比
Image Caption

仅仅是对图片进行描述,目的只是把图片内容描述正确、清楚,一般而言是不带有感情色彩的,其实用到的输入也是5张图片一组,生成5句话,但是其实这5句话就是在分别描述自己的图片内容,不会把两张图进行联系来生成文字。

Visual Storytelling

Visual Storytelling就不一样了,讲故事是需要有前后逻辑和一定的想象力的,对比Image Caption,它的挑战大多了,首先不仅是对图像中的物体进行客观描述,还要找寻图片和图片之间有关联物体的关系,通俗来说,不能简单把5张图片客观翻译出来,而是要联系五张图片的内容,找出之间的关联,再来写故事,就像我们小学的时候看图写话差不多,给你几张图编一段故事。难点在于要让计算机去理解图片内容,并且联系起来,但是这几年也有一些这方面的工作做的不错的,通过各种中间层来进行图片——故事的连接。

一些启发和想法

Image Caption从最初15年开始就有人做了,截止到今天,准确度应该来说已经还可以了,我感觉我很难在指标上去超越之前的一些大厂大牛做的实验效果。看别人也说,这个方向现在并不是很好做,特别是要做出一点成绩来,我也知道自己本身能力很弱。这两年在顶会上出现的这个方向的论文主要是结合了一些应用,比如带有情感特点的描述,或者是针对某种特定应用场景的描述,单单进行准确率的描述意义不大。其实个人认为人类希望看到的图片描述,往往并不简简单单是客观描述,之前看到的一篇带有情感特点的描述论文还蛮有意思。
导师最近给我发的论文也是Visual Storytelling的,其实估计他也希望我做这个方向,这个方向应该算是Image Caption衍生出来的一个方向,类似的还有Vedio Storytelling等。
虽然之前的师兄做的中文Image Caption我最近在复现他的实验,他做的是中文的。我感觉还是Visual Storytelling比较有意思,可以做的空间也比较大,得找一个比较有特色的小点去做才行。

嗯~后面继续看两篇Visual Storytelling的论文,找点开源的实验来看一看,还是在这个方向上好好去做吧,加油呀!

Original: https://blog.csdn.net/lmm_1997/article/details/108961068
Author: 不可多得的好姑娘
Title: 一些关于Image Caption和Visual Storytelling的想法

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/558423/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球