论文标题:Instance-sequence reasoning for video question answering(视频问答的实例-序列推理)
期刊:Frontiers of Computer Science
作者:Rui LIU, Yahong HAN
发表时间:28 Jan 2022
DOI:10.1007/s11704-021-1248-1
微信链接:点击此处阅读微信文章
导 读
视频问答(Video QA)涉及对视频内容和问题语言的透彻理解,以及文本语义对视频视觉内容的检索。因此,为了更准确地回答问题,不仅要将语义实体与视频帧中的某个视觉实例相关联,而且问题中的动作或事件应该定位到相应的时间段。事实证明,这是一项更具挑战性的任务,需要能够根据视频帧中实例之间的时序相关性进行推理。在本文中,我们提出了一个实例-序列推理网络,用于具有实例检索和时间定位的视频问答。在模型中,视觉实例和文本表示首先嵌入到图节点中,这有利于模态内和模态间的集成。然后,在具有大感受野的图结构序列上提出了图因果卷积 ,以捕获FC碰碰胡老虎机法典-提高赢钱机率的下注技巧的因果关联,这对于视觉基础和实例-序列推理至关重要。最后,我们在包含实例检索和时间定位标签的 TVQA+ 、三个其他视频 QA 数据集和三个多模态语言处理数据集上评估模型。通过大量实验证明了所提出方法的有效性和泛化性。具体来说,我们的方法在这些基准测试中优于最好的方法。
文章精要
摘要
Video question answering (Video QA) involves a thorough understanding of video content and question language, as well as the grounding of the textual semantic to the visual content of videos. Thus, to answer the questions more accurately, not only the semantic entity should be associated with certain visual instance in video frames, but also the action or event in the question should be localized to a corresponding temporal slot. It turns out to be a more challenging task that requires the ability of conducting reasoning with correlations between instances along temporal frames. In this paper, we propose an instance-sequence reasoning network for video question answering with instance grounding and temporal localization. In our model, both visual instances and textual representations are firstly embedded into graph nodes, which benefits the integration of intra- and inter-modality. Then, we propose graph causal convolution (GCC) on graph-structured sequence with a large receptive field to capture more causal connections, which is vital for visual grounding and instance-sequence reasoning. Finally, we evaluate our model on TVQA+ dataset, which contains the groundtruth of instance grounding and temporal localization, three other Video QA datasets and three multimodal language processing datasets. Extensive experiments demonstrate the effectiveness and generalization of the proposed method. Specifically, our method outperforms the state-of-the-art methods on these benchmarks.
相关内容推荐:
结合显著性图和边缘切向流的线描画生成 2022 16(5):165707
基于色偏消除与双路径多尺度融合策略的夜间图像去雾 2022 16(4):164706
基于改进PCNN和自选择子图像的图像copy-move伪造被动检测 2022 16(4):164705
代码审查过程中基于协同式眼动跟踪的可视化注视点实时共享 2022 16(3):163704
基于频谱汇集和时间维度注意力机制的语音驱动的脸部动画 2022 16(3):163703
面向电网仿真数据稳定性的可视分析研究 2021 15(6):156704
马赛克图像创作中基于误差最小化的图块选择方法 2021 15(3):153702
【FCS 多媒体与图形专栏】一种使用形状参数的汽车造型计算机辅助设计方法及其应用 2020 14(6):146703
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;入选“中国科技期刊卓越行动计划项目”。
《前沿》系列英文学术期刊
由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、生命科学、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中13种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。
中国学术前沿期刊网
http://journal.hep.com.cn
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。