文章题目:《Visual Question Answering: which investigated applications?》
文章引用格式:Silvio Barraa, Carmen Bisognib, Maria De Marsicoc, Stefano Ricciardi. "Visual Question Answering: which investigated applications?". arXiv preprint, arXiv: 2102.10575, 2021.
VQA是一项非常具有挑战的工作,它涉及了计算机视觉和自然语言处理。在看图说话和视频摘要中,语义信息总是完全包含在图像或者动态的视频中,因此语义信息可以用和人类一致的方式进行表达和挖掘。但是在VQA中,同一种媒介中的语义信息,必须与用NLP表示出的问题所暗指的语义进行比较,这加倍了AI相关的工作。近期的一些VQA工作则关注于方法,揭示图像相关的处理或者语言相关的处理,或者是对融合信息的处理。而事实上,大部分工作依赖于使用泛化目的的数据集来评估VQA的各个构建模块。而本文则更多考虑了现实应用的建议,以及相关应用场景的合适的数据集,和VQA研究的一些挑战
一般的VQA框架和涉及到的视觉任务、文本任务如下所示:
尽管现在VQA有很多成果,但是他们都忽略了VQA的现实应用场景(generally neglecting the possible application domains),只有少量文献列举出VQA能做什么,比如帮助盲人与图像进行交互(help blind users to communicate through pictures),吸引消费者在线购物(attract customers of online shopping sites),用图像来吸引学习者进行教育服务(allow learners engaged in educational services to interact with images),帮助分析师在监管数据中概括视觉数据(help the analysts in surveillance data analysis to summarize the available visual data),自动驾驶(autonomous driving),食物图片的智能处理(smart camera processing on food images),能自动解数学题的机器人老师(implementation of robot tutors with the function of automatic math problem solvers),执行一些琐碎的任务比如“在公园中发现一张空的野餐桌”(execution of trivial tasks),在缺乏图像标注的情况下进行图像检索(advanced image retrievad without using image meta-data or tags)、
而VQA的数据集,大部分都是普通的自然图像,当然后续也有研究将VQA的数据集分为自然图像,剪贴画和合成图像。然而,现有的数据集大多会存在语言偏见,并且我们需要考虑其数据集应该更接近于VQA的应用场景。
因此本文的目的就是:
The aim of the present paper is to survey VQA proposals from a novel point of view, and to investigate at which extent different application domains inspire different kinds of questions and call for different benchmarks and/or approaches.
从新的角度理解VQA,调查不同应用领域下,可能涉及到的不同问题和相应的不同数据集、方法。本文剩下的章节主要围绕以下应用展开:medical VQA,support for blind people, video surveillance, education and cultural heritage, and advertising。这里举了一些不同场景下的应用例子:
VQA能够帮助诊断,给出医疗建议。目前这项工作最早是2018年的:Medical Domain Visual Question Answering pilot task, as described in Hasan et al. (2018)。其公开的med-VQA数据集包括2866张图片和6413个Q&A。之后是ImageCLEF 2019 edition (Abacha et al. (2019))数据集,4200张放射图和15992个QA。近期又有两个数据集VQA-RAD presented in Lau et al. (2018), and PathVQA described in He et al. (2020),他们提高了VQA训练和测试样本的多样性。
目前做医疗VQA的方法,大多是在多模态合成和数据集增广上做改进,一些经典的网络包括Cross Facts Network,ETM-Trans,还有一些用到协同注意力的模型等
对于具有视觉障碍的人,VQA的问题应该主要是关注于日常的。从这个角度出发,目前也有相关的数据集公开 ,比如Gurari et al. (2018)公开了数据集包含31000个盲人提的问题;Bigham et al. (2010b)还做了一个叫VizWiz的iphone的app,能够快速响应用户的问题。
方法方面,Anderson et al. (2018)用了BuTd;Weiss et al. (2019)使用了强化学习来对盲人进行街景导航。
VQA在视频监管场景中的应用可以更好的帮助操作者来理解场景,并快速做出准确的决策。Li et al., 2019提出了一个ISEE平台来解析视频监管数据,该平台包含三个模块,检测追踪模块,属性识别模块,再识别模块。Toor et al. (2019a)提出了C2VQA-BOARS。
VQA与人类感受是高度相关的。He et al. (2017)设计了一个教育机器人,它使用VQA来规范化问题,并且能够进行教育对话。Bongini et al. (2020)提出用VQA在博物馆和艺术展览中进行音频交互;(Stefanini et al., 2019)提出了一个文化数据集Artpedia。
广告和图像理解是密切相关的。Hussain et al. (2017)提出了两个广告数据集,一个是图像,另一个是视频,图像包含64832张广告,总计有202090个Q&A。Park et al. (2019)则关注于预测用户的偏好,以及什么能够使得用户印象深刻,因此建立Real-ad数据集,其包含3747张图片,并有超过了5亿个印象。最后还有利用VQA来做广告设计的,Zhou et al. (2020)提出了一种能够提取文本和图像相关信息的方法,并生成一个新的广告,他使用的是跨模态编码器(cross-modality encoder architecture)。
这里作者提到了一些点。比如对360°的全景影像设计VQA;比如多源VQA数据的融合;比如long-video QA is unexplored;扩展听觉感知和问答;以及模型自助对错误回答的问题进行编辑;利用外部知识来回答未知问题;VQG问题等。