Qu'apporte BERT \`a l'analyse syntaxique en constituants discontinus ? Une suite de tests pour \'evaluer les pr\'edictions de structures syntaxiques discontinues en anglais (What does BERT contribute to discontinuous constituency parsing ? A test suite to evaluate discontinuous constituency structure predictions in English)

JEPTALNRECITAL 2020 · Maximin Coavoux ·

Cet article propose d{'}analyser les apports d{'}un mod{\`e}le de langue pr{\'e}-entra{\^\i}n{\'e} de type BERT (bidirectional encoder representations from transformers) {\`a} l{'}analyse syntaxique en constituants discontinus en anglais (PTB, Penn Treebank). Pour cela, nous r{\'e}alisons une comparaison des erreurs d{'}un analyseur syntaxique dans deux configurations (i) avec un acc{\`e}s {\`a} BERT affin{\'e} lors de l{'}apprentissage (ii) sans acc{\`e}s {\`a} BERT (mod{\`e}le n{'}utilisant que les donn{\'e}es d{'}entra{\^\i}nement). Cette comparaison s{'}appuie sur la construction d{'}une suite de tests que nous rendons publique. Nous annotons les phrases de la section de validation du Penn Treebank avec des informations sur les ph{\'e}nom{\`e}nes syntaxiques {\`a} l{'}origine des discontinuit{\'e}s. Ces annotations nous permettent de r{\'e}aliser une {\'e}valuation fine des capacit{\'e}s syntaxiques de l{'}analyseur pour chaque ph{\'e}nom{\`e}ne cible. Nous montrons que malgr{\'e} l{'}apport de BERT {\`a} la qualit{\'e} des analyses (jusqu{'}{\`a} 95 en F1 ), certains ph{\'e}nom{\`e}nes complexes ne sont toujours pas analys{\'e}s de mani{\`e}re satisfaisante.

PDF Abstract