您好,欢迎来到五一七教育网。
搜索
您的当前位置:首页基于词汇化模型的汉语句法分析

基于词汇化模型的汉语句法分析

来源:五一七教育网
维普资讯 http://www.cqvip.com

第29卷第9期 2007年9月 电子与信息学报 、 1.29NO.9 Journal of Electronics&Information Technology Sept.2007 基于词汇化模型的汉语句法分析 曹海龙 赵铁军 李生 (哈尔滨工业大学语言语音教育部一微软重点实验室哈尔滨150001) 摘要:该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了 一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单 快速的特点,又有效提高了标注精度;然后应用中心驱动模型进行短语识别,这是一个词汇化的英文句法分析模型, 该文将其同分词/词性标注模型结合进行汉语句法分析。在公共的测试集上对句法分析器的性能进行了评价,精确 率和召回率分别为77 57%和74.96%,这一结果要明显好于目前唯一可比的工作。 关键词:句法分析;隐马尔科夫模型;中心驱动模型;结构模式识别 中图分类号:TP391,H146.3 文献标识码:A 文章编号:1009—5896(2007)09—2082—04 Parsing Chinese Based Oil Lexicalized Model Cao Hai—-long Zhao Tie—-jun Li Sheng (MOE-MS Key Lab.of Natural Language Processing and Speech,Harbin Institute fo Technology, Harbin 150001,China) Abstract:In order to process large-scale real text.a method of building Chinese parser based on lexicalized model is proposed.First.a unified approach for segmentation and part of speech tagging is proposed based on hidden Markov mode1.The method not only conservers the merits of HMM which is simple and efifcient but also improves the tagging accuracy.Then the head—driven model is used to recognize phrases.Head—driven model is a well—known English parsing model;we combine it with segmentation and POS tagging model and thus build a Chinese parser that can operate at the character leve1.The parser is evaluated on the standard test set.It achieves 77.57% precision and 74.96%recall and outperforms the only previous comparable work signiifcantly. Key words:Syntactic parsing;Hidden Markov model;Head—driven model;Syntactic pattern recognition 1 引言 模型 进行短语识别,这是一个词汇化的英文句法分析模型, 句法分析,就是指根据给定的语法,自动地识别出句子 本文首次将其同分词/词性标注模型结合进行汉语句法分 所包含的句法单位和这些句法单位之间的关系。“基于内容 析。在公共的测试集上对句法分析器的性能进行了评价,精 的文本处理”是计算语言学的研究重点,句法分析是保证各 确率和召回率分别为77.57%和74 96%,这一结果要明显好 种应用系统能够在内容层面处理自然语言的核心技术。宾州 于目前唯一可比的工作——基于极大熵的方法_3J0 中文树库(Chinese Treebank,CTB)[ J的发布为汉语句法分 本文余下的部分组织如下:第2节提出了词汇化的分词 析研究提供了一个公共的训练、测试平台,促使汉语句法分 /词性标注方法;第3节介绍了中心驱动模型的基本原理及 析成为当前国际上的一个研究热点。目前已经有多个原本为 改进措施。第4节给出实验结果;第5节回顾了相关的工作 英语设计的句法分析模型被移植到CTB上来,并且取得了 并进行了对比和讨论;最后对全文进行总结。 一定的成果。但是还存在的问题是:已有的多数工作都忽略 2 词汇化的分词/词性标注模型 了中文的特点,假设句法分析器的输入是带有正确分词标记 2.1基于隐马尔科夫模型的分词/词性标注模型 的句子;这显然会降低句法分析器的实际应用价值。 句法分析器的输入是由若干个连续的字符组成的句子。 本文以处理大规模真实文本为目标,把句法分析分解为 形式化地,可以把句子作为一个字符序列:C=(cI,…,C ), 分词/词性标注、短语识别两个子任务。为此,本文提出一 其中c 表示句子中第i个字符。 个一体化的分词/词性标注方法,该方法在隐马尔科夫模型 fHMM)的基础上引入词汇信息,既保留了HMM简单快速 在识别短语前,首先对句子进行分词和词性标注。例如, 的特点,又有效提高了标注精度;然后应用著名的中心驱动 给定句子“宁波保税区建设成就显著”,合理的分词和词性 标注结果应该是“宁波/NR保税区/NN建设/NN成就 2006一Ol一23收到,2006—07—20改回 /NN显著/VA”。 国家自然科学基金(60373101)和国家863计划(2004AA117010-08)资 由于歧义的原因,给定一个句子 会有多个不同的候 助课题 维普资讯 http://www.cqvip.com 第9期 曹海龙等:基于词汇化模型的汉语句法分析 2083 选分词和词性标注方式。为了使机器能够在众多的候选中做 出正确的选择,统计方法认为最好的结果应该是条件概率最 大的分词和词性标注结果: t,其中 , , 为权重系数, k (xly)N用极大似然估计方 (z f ):—cou—nt( x ,y) L法求得的概率,即: (9) POSb。st=argmaxP( POS l ) POS (1) COuIl L 其中W=(W1,…,Wm)表示候选词序列,POS=(tl,…,t )表 示同 对应的词性序列。根据贝叶斯公式并略掉常数项, 可以把式fl1变换为 3 基于中心驱动模型的汉语句法分析 3.1中心驱动模型的基本原理 经过自动分词和词性标注,句子 转换为由词和词性组 t.POSbe。t=arg max P( ,POS l C) W,POS P( ,POS, C) 盯m—W P, O Srl J =argmaxP(W,POS,C) (2) .POS 进一步地,由于 被 所包含,因此可以把式(2)变换 为 t P0sbest:argmaxP( ,POS,C) POS :argmaxP(W,POS) (3) POS 这样,分词和词性标注问题的关键是如何计算概率 P( POS),隐马尔科夫模型(Hidden Markov Model,HMM) 把式f31分解为 P( ,POS)=P(POS)P(W l POS) =P(tl, ,・一,t.)P(Wl, ,…,Wn l岛, ,・一, ) ≈P(t1)I-[P(ti )兀P(wi  l) (4) i=2 i=1 式(4)中做了如下的假设:当前词性的产生仅仅与前一 个词性是有关的,每个词的产生仅仅与该词的词性有关。 2.2词汇化的分词/词。陛标注模型 从上文可以看到HMM做了很强的假设,这显然不 符合自然语言的特点。事实上一个词的词性同上下文中的词 和词性都是有紧密联系的,因此本文采用如下词汇化方法: P( ,POS)=P(tl, ,…, ,W1,W2,…,W ) =P(tl,W )兀P( ,Wi l岛, ,…, 一1,Wi一1) i=2 ≈P(tl,W )兀P(ti,Wi l ti-l ̄Wi一1) (5) =2 这样,就突破了HMM所作的假设,充分考虑了上下文 中的词汇信息对词性选择的影响,加强了模型的消歧能力。 词汇信息的引入必然加重数据稀疏问题,即产生大量的零概 率,因此需要采用适当的平滑方法。对式f51变形: P( ,Wi l ti_l,Wi一1)=Pl(t ̄l t¨,Wi一1) ( ;l 1,Wi ti)(6) 这样,可以对式(6)右侧的两项分别进行如下的线性插值平 滑: 日( l ti_l,Wz_】)= 1 L1( l t ̄-l,Wi一1) +(1一A1)pML1( l ti一 ) (7) ( l ti一1,W ,ti) = ( l 一 ,Wi一 , )+(1一 ) ’ ・[ ( ( l ti_l,ti)+(1一 :) ( l )] (8) 成的序列& S=(<W1,tl>,…,<W , >) 由于句法歧义的原因,给定 ,会有多个不同的候选分 析树。根据贝叶斯公式并略掉常数项: rbest arg T arg ax =argmaxP(T,S) (10) 其中 表示候选分析树。根据概率上下文无关文法 (PCFG),可以把( , 的产生分解为这样一个自项向下的过 程:从起始符号产生句法树的根节点;根节点产生它的所有 子节点;子节点中的非叶子节点继续产生它的所有子节点, 不断进行这个过程,直到把所有的叶子节点都生成出来。把 上面每一个产生过程中语法规则的概率连乘起来就是Pf 。比如,句子<宁波/NR,保税区/NN,建设/NN,成就 /NN,显著/VA>的一棵候选句法树如图1所示,在PCFG 模型下,该句法树的概率为: P( ,S)=P(TOP— IP)・P(IP— NP+NP+VP) ・P(NP— NR+NN1.P(NP— NN+NN1 ・P(VP—VA)・P(NR一宁波)・P(NN一保税区) ・P(NN一建设)・P(NN一成就)・P(VA一显著)(11) 其中TOP表示句法树的起始符号,每条语法规则的概率可 以通过极大似然估计方法从训练集中计算出来。 IP ———r、\ / \/\  lNR NN NN NN VA 『 l l l l 宁波保税区建设 成就 显著 图1一棵候选句法树 我们注意到,在句子 给定的情况下,式(10)的第2行 中的概率均为常数,这相当于忽略了词汇信息对每棵候选句 法树的概率的影响。为了发挥词汇信息的作用,中心驱动模 型为语法规则中的每一个非终结符none termina1)都引入核 心词/词性信息,例如,在中心驱动模型下,图1所示的句 法树将转换为图2所示的形式,其概率仍然为每条语法规则 的概率的乘积: IP(VA,显著1 NP(NN,保税暖)————,『—\ NP(NN,成就)  VP(VA,显著) NR(NR  ,宁波) NN(NN保,保税区) / \  \ II  NN(NN,建设)NN(NN,成就)VA(、.A,显著) 图2引入词汇信息的句法树 维普资讯 http://www.cqvip.com 2084 电子与信息学报 第29卷 P(T, ):P(TOP—IP(VA,显著))・P(IP(VA,显著)一 NP(NN,保税区)+NP(NN,成就)+VP(VA,显著)) ・采用的方法和式(13)略有不同,即 。或R 的产生不再依赖于 中心成份日,而是依赖于其前一个成份 H或R¨,具体公 式为 m+1 P(NP(NN,保税区)一NR(NR,宁波) +NN(NN,保税区))・P(NP(NN,成就) 一NN(NN,建设)+NN(NN,成就)) Ph(U  lP(ht)hw))・n 5(L,0t。,1w )lP】厶一l0t¨,1w¨)) i=1 n+1 ・・P(VP(VA,显著)一VA(VA,显著)) (12) n Pr(Pdrt ,rw )lP】 —l(rtl_1)rw¨))(15) 由于引入词汇信息,不可避免将出现严重的稀疏问题。 为了缓解这个问题,中心驱动模型把每一条语法规则的右手 4实验与分析 侧分解为3大部分,分别为:一个中心成份:若干个在中心 左边的修饰成份:若干个在中心右边的修饰成份。形式化地, 一条语法规则可以写成如下形式: P(ht,hw)-)-L (1t ,1w )…(Itl,1w1)月 ht,hw) ・R1(rtl,rw1)…R (rt ,rw ) (13) 其中P为非终结符,日表示中心成份,L表示左边修饰成份, R,表示右边修饰成份。hw,1w,rw均是成份的核心词,ht, It,rt分别是它们的词性。进一步假设,首先由P产生核心 成份且然后以日为中心分别地产生左右两边的所有修 饰成份。这样,形如式(12)的语法规则的概率为 m+1 Ph(H l P(ht,hw))・lI ̄(Li(1t ,1w )l P(ht,hw),H) z=1 n+1 ・nPr(R ̄(rt。)rw )l P(ht,hw),H) (14) i=1 其中 +l和R +1分别为左右两边的停止符号。中心驱动模 型还要考虑距离、标点信息,具体步骤请参看文献[2】。 3.2基本名词短语的识别 在各种类型的短语中,名词短语(Noun Phrase,NP)所 占的比例是最高的,其语法规则也最为多样化。为了降低问 题的复杂性,可以把其中的基本名词短语分离出来单独处 理。基本名词短语的定义:如果~个名词短语NP的所有子 节点都不是名词短语,那么这个短语称为基本名词短语 fBase Noun Phrase,BNP)。BNP也可称为非递归名词短语。 在训练中心驱动模型之前,本文对训练集中的句法树进行如 下两步处理: f1)根据BNP的定义,把所有满足定义的名词短语的标 记由NP改为BNP,如图3(a)所示。 f2)在每个BNP和其父节点之间插入一个一般的名词短 语NP,如图3fb)所示。 lr 儿 ——]~\ ——1\ NP NP VP BNP BNP VP {  『I /^\/^\ I BNP BNP 、 NR N N NN 、l'A /^\/^\ f { I I I I NR NN NN NN 显著 宁波保税 建设 成就显著 I l l  l宁波保税区建设成就 (b) 图3句法树的预处理 在评价分析结果时,仍然以树库的原有形式为准。如果 自动分析出的句法树中含有BNP,那么在对其进行评价之前 要这样处理:删除BNP的父节点NP,并把BNP改为NP。 由于BNP的特性,在计算BNP产生其子节点的概率时, 4.1实验数据 本文的实验是在第一版宾州中文树库(CTB)J:进行的。 CTB是由语言数据联盟fLDC1公开发布的一个语料库,为汉 语句法分析研究提供了一个公共的训练、测试平台。CTB 由325篇文章组成,总共包含4185个句子,根据以往研究的 惯例【 】,我们把前270篇文章作为训练集,后25篇文章作 为调试集,其余的30篇文章作为测试集。本文的所有实验 中,模型的参数都是从训练集中采用极大似然法估计出来的。 4.2实验结果与分析 本文首先利用词汇化模型对测试集中的句子进行分词 和词性标注。由于目前还没有在CTB上进行词性标注实验 的相关报导,我们就以最为常用的HMM作为对比的基准。 表1给出了实验结果,其中F一测度为精确率和召回率的调和 平均值。我们看到词汇化模型的词性标注效果要好于HMM。 值得一提的是,同极大熵等方法相比,词汇化模型的一个优 点是训练和解码过程要简单得多。但是,同在著名的《人民 日报》语料库上的相关实验相比,本文在CTB上的标注精 度明显偏低。主要原因是CTB规模偏小,训练集部分只有 3484个句子。如何把基于《人民日报》语料库的词性标注器 移植到CTB的标注体系上是今后值得研究的问题。 表1词性标注结果 . 下一步我们利用中心驱动模型进行短语识别。为了深入 理解模型的机理和特性,本文设计了如下2个实验: 实验1应用基本的中心驱动模型,如3.1小节所述; 实验2在实验1的基础上,对基本名词短语进行特殊 处理; 两个实验的设置是完全~样的:中心驱动模型的输入是 通过词性化模型进行了分词和词性标注的句子;训练时,采 用文献f91提供的决策表来确定每个短语的中心词;测试时, 解码算法为CYK算法。CYK算法利用从训练集中抽取的语 法自动地为每个待分析的句子生成可能的候选句法树。我们 利用中心驱动模型来计算每个候选句法树的概率,从中选取 概率最大的一棵句法树作为输出。表2给出了具体实验结果。 在训练数据非常有限的条件下,表2所示的实验结果还是比 较令人满意的。F_’钡0度能够达到76.25%,这一结果要明显好 于目前唯一可比的工作——基于极大熵的方法 J。 维普资讯 http://www.cqvip.com 第9期 曹海龙等:基于词汇化模型的汉语句法分析 表2句法分析实验结果 精确率 召回率 F一测度 实验r 76.O6% 73.62% 74.82% 实验2 77.57% 74.96% 76.25% 我们注意到,对BNP进行特殊处理这个步骤发挥了很 大的作用。这个处理分为两步,分别如图3(a)、图3(b)所示, 其作用如下:f11从内部结构看,BNP和其他的名词短语显 然是不同的,像图3(a)那样把BNP标记出来,可以用特殊 的方式计算它的内概率(Inside—probability)。(2)从外部看, BNP和其他的名词短语的句法功能是一样的,通过图3(b) 那样在BNP之上加入一个一般的名词短语NP,就可以用同 样的方式计算它的外概率(Outside-probability1,从而有效降 低模型的熵值。BNP最初是在英文句法树上定义的,大多数 已有的工作在把模型移植到CTB的过程中都忽略了这个非 常重要的问题。 5 相关工作的回顾与讨论 本节简要回顾一下在CTB上进行句法分析实验的相关 工作。在已有的工作中,文献f31是同本文唯一可比的工作, 因为都没有假设待分析的句子要预先带有正确的分词标记。 文献f31利用转换学习的方法来进行分词/词性标注、用极大 熵模型识别短语,取得的实验结果是:F.i贝0度为75.09%。 文献f4】第一个报告了利用CTB进行汉语句法分析的工 作,作者采用了两个模型:BBN模型和TIG模型,这两个 模型和本文采用的中心驱动模型都比较相似,但是作者没有 对基本名词短语做任何特殊的处理。文献【5】同样使用了TIG 模型,而且另外利用了EM算法来确定中心成份。文献f61 应用Factored模型进行了实验,并通过错误分析对句法分析 器作了一定的改进。文献【7】把面向数据的句法分析(DOP)方 法移植到CTB上,并再次验证了分析的准确性会随着片断 单元的增大而提高。文献f81在结合中心驱动模型和Factored 模型的基础上,提出了一个基于语义的模型;这是目前唯一 对基本名词短语作了特殊处理的工作,其方法和图3(a)所示 的方式类似。上述这些模型的实验结果如表3所示。 表3相关工作的实验结果f测试集中长度小于等于40个词的句子) 模型 精确率 召回率 F一测度 BBN model 74.8% 69.O% 71.78% TIG model 77.8% 76.8% 77.3O% TIG+EM 81.O6% 78.79% 79.91% Factored model 78.4% 79.2% 78.8O% DOP method 72.93% 69.73% 71.29% Semantic based method 8O.1% 78.7% 79.4O% 在表3中,所有实验都是在分词完全正确的句子上进行 的,文献[10】认为如此做出的句法分析结果不具有实际意义, 因此提出了一个以极大熵模型为基础,集分词、词性标注和 句法分析于一体的方法,实验结果为:F一测度为81.4%。由 于本文以及文献[3-81的实验都是在具有4185个句子的第一版 CTB上进行的,而文献f10】是在第二版CTB上进行的(语料规 模增加了一倍),因此其结果同其他任何工作都不具有可比 性。 6 结束语 汉语句法分析是国内外学者正在努力攻克的一个难题。 本文以处理大规模真实文本为目标,把句法分析分解为分词/ 词性标注、短语识别两个部分。首先提出了一个一体化的分 词/词性标注方法,该方法在HMM的基础上引入词汇信息, 既保留了HMM简单快速的特点,又有效提高了标注精度; 然后应用中心驱动模型进行短语识别,这是一个词汇化的英 文句法分析模型,本文首次将其同分词/词性标注模型结合进 行汉语句法分析。在公共的测试集上对句法分析器的性能进 行了评价,实验结果要明显好于目前唯一可比的工作。 参考文献 [1]Xue Nianwen,Xia Fei,and Chiou Fudong,et a1.、The Penn Chinese treebank:Phrase structure annotation of a large corpus.Natural Language Engineering.200a(4):1—3O. [2] Collins Michael、Head-driven statistical models for natural language parsing.[Ph.D.thesis],University of Pennsylvania, 1999. [3] Fung Pasclae,Ngai Grace,and Yang Yongsheng,et a1..A maximum-entropy chinese parser augmented by transformation—based.1earning.ACM Trans.on Asian Language Processing,2004,3(2):159—168. [4] Bikel Daniel and Chinag David.Two statistical parsing models applied to Chinese treebank.Proceedings of the 2nd Chinese lnaguage processing workshop,Hong Kong,2000:卜6. [5] Chiang David and Bikel Danie1.Recovering latent information in treebanks.Proceedings of the 19th International Conference on Computational Linguistics, Taipei,2002:183—189. [6]Levy Roger and Manning Christopher.Is it harder to parse Chinese,or the Chinese treebank?Proceedings of Annual Meeting of the Association for Computational Linguistics, Sapporo,2003:439—446. [7]Herane Mary and Way Andy.Data-oriented parsing and the Penn Chinese treebank.Proceedings of the First International Joint Conference Natural lnaguage processing, Hainan Island,2004:406—413. [8]Xiong Deyi,Li Shuanglong,and Liu Qun et a1..Parsing the Penn Chinese treebank with semantic knowldege.Proceedings of the Second International Joint Conference Natural lnaguage processing,Jeju Island,2005:7O一81. [9]Xia Fei.Automatic grammar generation from two different perspectives.[Ph.D.thesis],University of Pennsylvania,1999. [10]Luo Xiaoqinag.A maximum entropy Chinese character—based parser.Proceedings of the conference on Empirical methods in Natural Language Processing,Barcelona,2003:192—199. 曹海龙: 男,1976年生,博士生,研究方向为自然语言处理及机 器学习. 赵铁军: 男,1962年生,博士生导师,研究方向为自然语言处理 及人工智能. 李生: 男,1943年生,博士生导师,研究方向为自然语言处理 及机器翻译. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 517ttc.cn 版权所有 赣ICP备2024042791号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务