no code implementations • CCL 2021 • Ziyi Huang, Junhui Li, ZhengXian Gong
“抽象语义表示(Abstract Meaning Representation, 简称AMR)是将给定的文本的语义特征抽象成一个单根的有向无环图。AMR语义解析则是根据输入的文本获取对应的AMR图。相比于英文AMR, 中文AMR的研究起步较晚, 造成针对中文的AMR语义解析相关研究较少。本文针对公开的中文AMR语料库CAMR1. 0, 采用序列到序列的方法进行中文AMR语义解析的相关研究。具体地, 首先基于Transformer模型实现一个适用于中文的序列到序列AMR语义解析系统;然后, 探索并比较了不同预训练模型在中文AMR语义解析中的应用。基于该语料, 本文中文AMR语义解析方法最优性能达到了70. 29的Smatch F1值。本文是第一次在该数据集上报告实验结果。”
no code implementations • CCL 2021 • Hao Wang, Junhui Li, ZhengXian Gong
“在汉语等其他有省略代词习惯的语言中, 通常会删掉可从上下文信息推断出的代词。尽管以Transformer为代表的的神经机器翻译模型取得了巨大的成功, 但这种省略现象依旧对神经机器翻译模型造成了很大的挑战。本文在Transformer基础上提出了一个融合零指代识别的翻译模型, 并引入篇章上下文来丰富指代信息。具体地, 该模型采用联合学习的框架, 在翻译模型基础上, 联合了一个分类任务, 即判别句子中省略代词在句子所表示的成分, 使得模型能够融合零指代信息辅助翻译。通过在中英对话数据集上的实验, 验证了本文提出方法的有效性, 与基准模型相比, 翻译性能提升了1. 48个BLEU值。”
no code implementations • EMNLP 2021 • Xinglin Lyu, Junhui Li, ZhengXian Gong, Min Zhang
In this paper we apply “one translation per discourse” in NMT, and aim to encourage lexical translation consistency for document-level NMT.
no code implementations • CCL 2020 • Linqing Chen, Junhui Li, ZhengXian Gong
如何有效利用篇章上下文信息一直是篇章级神经机器翻译研究领域的一大挑战。本文提出利用来源于整个篇章的层次化全局上下文提高篇章级神经机器翻译性能。为了实现该目标, 本文模型分别获取当前句内单词与篇章内所有句子及单词之间的依赖关系, 结合不同层次的依赖关系以获取含有层次化篇章信息的全局上下文。最终源语言当前句子中的每个单词都能获取其独有的综合词和句级别依赖关系的上下文。为了充分利用平行句对语料在训练中的优势本文使用两步训练法, 在句子级语料训练模型的基础上使用含有篇章信息的语料进行二次训练以获得捕获全局上下文的能力。在若干基准语料数据集上的实验表明本文提出的模型与若干强基准模型相比取得了有意义的翻译质量提升。实验进一步表明, 结合层次化篇章信息的上下文比仅使用词级别上下文更具优势。除此之外, 本文尝试通过不同方式将全局上下文与翻译模型结合并观察其对模型性能的影响, 并初步探究篇章翻译中全局上下文在篇章中的分布情况。
no code implementations • ACL 2021 • Linqing Chen, Junhui Li, ZhengXian Gong, Boxing Chen, Weihua Luo, Min Zhang, Guodong Zhou
To this end, we propose two pre-training tasks.
no code implementations • COLING 2016 • Shoushan Li, Bin Dai, ZhengXian Gong, Guodong Zhou
In gender classification, labeled data is often limited while unlabeled data is ample.
no code implementations • COLING 2016 • Haiqing Tang, Deyi Xiong, Min Zhang, ZhengXian Gong
In this paper, we study semantic dependencies between verbs and their arguments by modeling selectional preferences in the context of machine translation.