TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Arabic Text Diacritization	Tashkeela	D3 (D2 + decoder)	Diacritic Error Rate	0.0183	# 3
Arabic Text Diacritization	Tashkeela	D3 (D2 + decoder)	Word Error Rate (WER)	0.0534	# 3
Arabic Text Diacritization	Tashkeela	D2	Diacritic Error Rate	0.0185	# 4
Arabic Text Diacritization	Tashkeela	D2	Word Error Rate (WER)	0.0553	# 4

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/deep-diacritization-efficient-hierarchical/arabic-text-diacritization-on-tashkeela-1)](https://paperswithcode.com/sota/arabic-text-diacritization-on-tashkeela-1?p=deep-diacritization-efficient-hierarchical)`

Deep Diacritization: Efficient Hierarchical Recurrence for Improved Arabic Diacritization

COLING (WANLP) 2020 · Badr AlKhamissi, Muhammad N. ElNokrashy, Mohamed Gabr ·

We propose a novel architecture for labelling character sequences that achieves state-of-the-art results on the Tashkeela Arabic diacritization benchmark. The core is a two-level recurrence hierarchy that operates on the word and character levels separately---enabling faster training and inference than comparable traditional models. A cross-level attention module further connects the two, and opens the door for network interpretability. The task module is a softmax classifier that enumerates valid combinations of diacritics. This architecture can be extended with a recurrent decoder that optionally accepts priors from partially diacritized text, which improves results. We employ extra tricks such as sentence dropout and majority voting to further boost the final result. Our best model achieves a WER of 5.34%, outperforming the previous state-of-the-art with a 30.56% relative error reduction.

PDF Abstract COLING (WANLP) 2020 PDF COLING (WANLP) 2020 Abstract

Code

Add Remove Mark official

BKHMSI/deep-diacritization official

Tasks

Add Remove

Arabic Text Diacritization

Sentence

valid

Datasets

Arabic Text Diacritization

Results from the Paper

Edit

Ranked #3 on Arabic Text Diacritization on Tashkeela

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Arabic Text Diacritization	Tashkeela	D3 (D2 + decoder)	Diacritic Error Rate	0.0183	# 3	Compare
Arabic Text Diacritization	Tashkeela	D3 (D2 + decoder)	Word Error Rate (WER)	0.0534	# 3	Compare
Arabic Text Diacritization	Tashkeela	D2	Diacritic Error Rate	0.0185	# 4	Compare
Arabic Text Diacritization	Tashkeela	D2	Word Error Rate (WER)	0.0553	# 4	Compare

Methods

Add Remove

Dropout • LSTM • Scaled Dot-Product Attention • Sigmoid Activation • Single-Headed Attention • Softmax • Tanh Activation

Edit Social Preview

Deep Diacritization: Efficient Hierarchical Recurrence for Improved Arabic Diacritization

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove