TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Captioning	MSR-VTT	VASTA (Vatex-backbone)	CIDEr	56.08	# 19
Video Captioning	MSR-VTT	VASTA (Vatex-backbone)	METEOR	30.24	# 14
Video Captioning	MSR-VTT	VASTA (Vatex-backbone)	ROUGE-L	62.9	# 16
Video Captioning	MSR-VTT	VASTA (Vatex-backbone)	BLEU-4	44.21	# 18
Video Captioning	MSR-VTT	VASTA (Kinetics-backbone)	CIDEr	55	# 20
Video Captioning	MSR-VTT	VASTA (Kinetics-backbone)	METEOR	30.2	# 15
Video Captioning	MSR-VTT	VASTA (Kinetics-backbone)	ROUGE-L	62.5	# 17
Video Captioning	MSR-VTT	VASTA (Kinetics-backbone)	BLEU-4	43.4	# 20
Video Captioning	MSVD	VASTA (Vatex-backbone)	CIDEr	119.7	# 11
Video Captioning	MSVD	VASTA (Vatex-backbone)	BLEU-4	59.2	# 9
Video Captioning	MSVD	VASTA (Vatex-backbone)	METEOR	40.65	# 7
Video Captioning	MSVD	VASTA (Vatex-backbone)	ROUGE-L	76.7	# 7
Video Captioning	MSVD	VASTA (Kinetics-backbone)	CIDEr	106.4	# 14
Video Captioning	MSVD	VASTA (Kinetics-backbone)	BLEU-4	56.1	# 12
Video Captioning	MSVD	VASTA (Kinetics-backbone)	METEOR	39.1	# 9
Video Captioning	MSVD	VASTA (Kinetics-backbone)	ROUGE-L	74.5	# 11
Video Captioning	VATEX	VASTA (Kinetics-backbone)	BLEU-4	36.25	# 7
Video Captioning	VATEX	VASTA (Kinetics-backbone)	CIDEr	65.07	# 6
Video Captioning	VATEX	VASTA (Kinetics-backbone)	METEOR	25.32	# 3
Video Captioning	VATEX	VASTA (Kinetics-backbone)	ROUGE-L	51.88	# 6

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/diverse-video-captioning-by-adaptive-spatio/video-captioning-on-vatex-1)](https://paperswithcode.com/sota/video-captioning-on-vatex-1?p=diverse-video-captioning-by-adaptive-spatio)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/diverse-video-captioning-by-adaptive-spatio/video-captioning-on-msvd-1)](https://paperswithcode.com/sota/video-captioning-on-msvd-1?p=diverse-video-captioning-by-adaptive-spatio)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/diverse-video-captioning-by-adaptive-spatio/video-captioning-on-msr-vtt-1)](https://paperswithcode.com/sota/video-captioning-on-msr-vtt-1?p=diverse-video-captioning-by-adaptive-spatio)`

Diverse Video Captioning by Adaptive Spatio-temporal Attention

19 Aug 2022 · Zohreh Ghaderi, Leonard Salewski, Hendrik P. A. Lensch ·

To generate proper captions for videos, the inference needs to identify relevant concepts and pay attention to the spatial relationships between them as well as to the temporal development in the clip. Our end-to-end encoder-decoder video captioning framework incorporates two transformer-based architectures, an adapted transformer for a single joint spatio-temporal video analysis as well as a self-attention-based decoder for advanced text generation. Furthermore, we introduce an adaptive frame selection scheme to reduce the number of required incoming frames while maintaining the relevant content when training both transformers. Additionally, we estimate semantic concepts relevant for video captioning by aggregating all ground truth captions of each sample. Our approach achieves state-of-the-art results on the MSVD, as well as on the large-scale MSR-VTT and the VATEX benchmark datasets considering multiple Natural Language Generation (NLG) metrics. Additional evaluations on diversity scores highlight the expressiveness and diversity in the structure of our generated captions.

PDF Abstract

Code

Add Remove Mark official

zohrehghaderi/vasta official

Tasks

Add Remove

Decoder

Text Generation

Video Captioning

Datasets

MSR-VTT

MSVD

VATEX

Results from the Paper

Edit

Ranked #7 on Video Captioning on VATEX

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Captioning	MSR-VTT	VASTA (Vatex-backbone)	CIDEr	56.08	# 19	Compare
			METEOR	30.24	# 14	Compare
			ROUGE-L	62.9	# 16	Compare
			BLEU-4	44.21	# 18	Compare
Video Captioning	MSR-VTT	VASTA (Kinetics-backbone)	CIDEr	55	# 20	Compare
			METEOR	30.2	# 15	Compare
			ROUGE-L	62.5	# 17	Compare
			BLEU-4	43.4	# 20	Compare
Video Captioning	MSVD	VASTA (Vatex-backbone)	CIDEr	119.7	# 11	Compare
			BLEU-4	59.2	# 9	Compare
			METEOR	40.65	# 7	Compare
			ROUGE-L	76.7	# 7	Compare
Video Captioning	MSVD	VASTA (Kinetics-backbone)	CIDEr	106.4	# 14	Compare
			BLEU-4	56.1	# 12	Compare
			METEOR	39.1	# 9	Compare
			ROUGE-L	74.5	# 11	Compare
Video Captioning	VATEX	VASTA (Kinetics-backbone)	BLEU-4	36.25	# 7	Compare
			CIDEr	65.07	# 6	Compare
			METEOR	25.32	# 3	Compare
			ROUGE-L	51.88	# 6	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Diverse Video Captioning by Adaptive Spatio-temporal Attention

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove