TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Science Question Answering	ScienceQA	Multimodal CoT	Natural Science	95.91	# 2
Science Question Answering	ScienceQA	Multimodal CoT	Social Science	82.00	# 4
Science Question Answering	ScienceQA	Multimodal CoT	Language Science	90.82	# 3
Science Question Answering	ScienceQA	Multimodal CoT	Text Context	95.26	# 2
Science Question Answering	ScienceQA	Multimodal CoT	Image Context	88.80	# 3
Science Question Answering	ScienceQA	Multimodal CoT	No Context	92.89	# 3
Science Question Answering	ScienceQA	Multimodal CoT	Grades 1-6	92.44	# 3
Science Question Answering	ScienceQA	Multimodal CoT	Grades 7-12	90.31	# 4
Science Question Answering	ScienceQA	Multimodal CoT	Avg. Accuracy	91.68	# 4

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multimodal-chain-of-thought-reasoning-in/science-question-answering-on-scienceqa)](https://paperswithcode.com/sota/science-question-answering-on-scienceqa?p=multimodal-chain-of-thought-reasoning-in)`

Multimodal Chain-of-Thought Reasoning in Language Models

2 Feb 2023 · Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola ·

Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer. However, existing CoT studies have primarily focused on the language modality. We propose Multimodal-CoT that incorporates language (text) and vision (images) modalities into a two-stage framework that separates rationale generation and answer inference. In this way, answer inference can leverage better generated rationales that are based on multimodal information. Experimental results on ScienceQA and A-OKVQA benchmark datasets show the effectiveness of our proposed approach. With Multimodal-CoT, our model under 1 billion parameters achieves state-of-the-art performance on the ScienceQA benchmark. Our analysis indicates that Multimodal-CoT offers the advantages of mitigating hallucination and enhancing convergence speed. Code is publicly available at https://github.com/amazon-science/mm-cot.

PDF Abstract

Code

Add Remove Mark official

amazon-science/mm-cot official

3,688

xqx12/daily-info

295

chengtan9907/mc-cot

Tasks

Add Remove

Hallucination

Language Modelling

Science Question Answering

Datasets

ScienceQA

A-OKVQA

Results from the Paper

Add Remove

Ranked #4 on Science Question Answering on ScienceQA

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Science Question Answering	ScienceQA	Multimodal CoT	Natural Science	95.91	# 2	Compare
			Social Science	82.00	# 4	Compare
			Language Science	90.82	# 3	Compare
			Text Context	95.26	# 2	Compare
			Image Context	88.80	# 3	Compare
			No Context	92.89	# 3	Compare
			Grades 1-6	92.44	# 3	Compare
			Grades 7-12	90.31	# 4	Compare
			Avg. Accuracy	91.68	# 4	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Multimodal Chain-of-Thought Reasoning in Language Models

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove