no code implementations • CCL 2021 • Chengwen Wang, Gaoqi Rao, Endong Xun
“以往的介词知识库构建重视介词语义和介宾的搭配研究, 鲜有对介动搭配进行系统研究及知识获取的工作。而汉语介词发达及动词是句子中心的特征决定了介动搭配研究的重要性。本研究基于结构检索技术, 充分借助短语结构属性和结构信息, 从大规模语料中抽取介动搭配16033对。并提出了介动搭配紧密度的度量方法, 初步分析证明其远优于依靠绝对频次进行搭配度量的方法。”
no code implementations • CCL 2020 • Qingqing Qian, Chengwen Wang, Gaoqi Rao, Endong Xun
基于词单元的经典依存语法在面向中文的句子分析中遇到诸多汉语特性引起的困难。为此, 本文提出汉语的块依存语法, 以谓词为核心, 以组块为研究对象, 在句内和句间寻找谓词所支配的组块, 构建句群级别的句法分析框架。这一操作不仅仅是提升叶子节点的语言单位, 而且还针对汉语语义特点进行了分析方式和分析规则上的创新, 能够较好地解决微观层次的逻辑结构知识, 并为中观论元知识和宏观篇章知识打好铺垫。本文主要介绍了块依存语法理念、表示、分析方法及特点, 并简要介绍了块依存树库的构建情况。截至目前为止, 树库规模为187万字符(超过4万复句、10万小句), 其中包含67%新闻文本和32%百科文本。
no code implementations • CCL 2020 • Qingqing Qian, Chengwen Wang
本研究依据以谓词为核心的块依存语法构建块依存树库, 在句内和句间寻找谓词所支配的组块, 利用汉语中组块和组块间的依存关系补全缺省部分, 明确谓词支配关系。目前共标注2199篇文本, 涵盖百科、新闻两个领域, 共约187万字语料。本文简述了块依存语法的原则, 并对组块及其依存关系进行了定义。将详细介绍标注流程、标注一致率、数据分布等情况。基于现有的树库, 本研究发现汉语中有约25%的小句是非自足的, 约有88%的核心谓词可支配1~3个从属成分。
no code implementations • 19 Dec 2022 • Chengwen Wang, Qingxiu Dong, Xiaochen Wang, Haitao Wang, Zhifang Sui
Taking the Named Entity Recognition (NER) datasets as a case study, we introduce $9$ statistical metrics for a statistical dataset evaluation framework.