朱靖波等:面向文本分类的混淆类判别技术 631 的激活条件是:当测试文本被初始分类器标注为混淆类类别时,即采用混淆类分类器进行重新判别在比较实验中采 用了Newsgroup和863中文评测语料,针对单标签、多类分类器.实验结果显示,该技术有效地改善了分类性能. 关键词: 文本分类;混淆类判别;特征选取;分类锚误分布;机器学习;自然语言处理 中图法分类号:TP181 文献标识码:A 简单来说,文本分类任务可以定义为:根据文本内容赋予1个或多个预定义类别或主题类别.核心任务为:根 据给定的训练数据,构造高性能的分类器,实现对新文本的自动分类过程. 在实际应用中,根据预定义类别的数量不同,分类系统可以分为两种:两类分类器(binary classiifer)和多类分 类器(multi.class classiifer)川.其中,两类分类器主要针对正/负或A/B两类分类问题;多类分类器主要针对多类别 分类问题,即预定义的类别个数超过两个.如果从文本所属类别的个数来看,文本分类技术又可以分为单标签 (single.1abe1)和多标 ̄(multi.1abe1)两种[2-6]单标签分类技术只是给当前文本赋予~个预定义的类别(类别标 注);反之,多标签分类技术可能给当前文本赋予多个预定义的类别(多类别标注).本文主要针对单标签多类分类 器(single.1abel and multi.class classiifer,简称SMC)的构建技术,研究如何改善SMC的分类性能 . 在文本分类过程中,通过特征降维技术不但可以降低分类系统的时空代价,在~定程度上还可能改善分类 系统的性能 (主要原因在于用于分类器训练的带标样本的数量有限[8】.但对于基于支持向量机的分类模型来 说,实验结果显示,特征选取技术有损分类性能,但特征抽取技术有可能改善分类性能).特征选取技术(feature selection)的关键在于寻求~个评价函数,根据特征在训练语料中的统计分布信息,对该特征的重要性进行评价. 目前常用的特征选取技术 有信息增 ̄(information gain,简称IG)、文档频率(document frequency,简称DF)、 CHI统计、互信息(mutual information,简称MI)、TF*IDF、熵(entropy)等.特征抽取技术(feature extraction)[10】 主要通过将原始特征进行变换运算,形成新的特征,其中,新的特征表示在物理上不好直接解释.常用的特征抽 取技术有潜在语义分析(1atent semantic analysis,简称LSA)、主成分分析(principal component analysis,简称 PCA)、核主成分分析(kernel PCA)、多元判别分析(multiple discrimination analysis,简称MDA)、成分分析 (independent component analysis,简称ICA)等. 本文主要通过分析预定义类别中存在的混淆类(confusion classes)现象,研究混淆类的判别技术,进而改善 分类性能.主要研究内容包括:1)分析了混淆类的特性,并提出了~种基于分类错误分布(classiifcation error distribution,简称CED)的混淆类识别技术,识别预定义类别中的混淆类集合;2)提出了~种基于判别能力的特 征选取技术,通过评价某一特征对类别之间的判别能力来选择重要特征,其中,认为判别能力强的特征为重要特 征,并采用该特征选取技术参与混淆类的判别过程;3)最后,设计了基于两阶段的分类器设计框架(two.stage classiifer).其中,第~阶段分类器称为初始分类器,第二阶段分类器称为混淆类分类器,最后通过组合两个阶段 的分类结果作为输出.也就是说,在第一阶段分类结果中,如果该文档被标注为属于混淆类的类别,则在第二阶 段中进行混淆类的判别(分类)处理.在比较实验中,采用了两个公开并广泛被用于分类性能评测的语料来测试 上述方法的性能,包括Newsgroup和863中文评测语料.实验结果显示,本文提出的方法很好地改善了分类性能. 1混淆类识别技术 1.1混淆类 通常,文本分类系统的构建是基于预定义的类别体系.本文实验中采用的Newsgroup语料 包含20个类别. 在文本分类结果中发现,Newsgroup语料中属于comp.*讨论组的5个类别的测试文本相互误判的情况非常严 重,这5个类别包括comp.graphics,comp.OS.ms-windows.misc,comp.sys.ibm.pc.hardware,comp.sys.mac.hardware ・本文提出的混淆类判别技术也可以用于改善其他种类分类器的性能,包括单标签两类分类器(single—label and binary classiifer,简称sac)、多标签两类分类器(multi.1abel and binary classifier,简称MBC) ̄I 标签多类分类器(multi—label and multi—class classiifer,简称MMC). 维普资讯 http://www.cqvip.com
632 Journal of Software软件学报Vo1.19,No.3,March 2008 和comp.windows 也就是说,分类器对这些类别的判别能力不强,我们称这些类别为混淆类(混淆类相当于一个 大类(超类).为了论述方便,文中混淆类和混淆类集合两种说法属于同一个意思)-f艮明显,这些混淆类的存在造 成了文本分类性能的下降.因此,本文的研究重点在于混淆类的识别和判别技术,并寻求高性能分类器的构建机 制 改善分类性能. 实际上,对混淆类给出一个简单、清晰、明确的定义是不容易的事情.这里,本文尝试分析混淆类的一些特 性.混淆类指的是容易混淆的类别集合.换句话说,对于当前分类系统来说,属于混淆类的类别之间存在着严重 的误判现象.混淆类的存在与当前给定的训练带标数据相关.例如,Reuters.21578语料中corn,grain和wheat类 别属于混淆类的原因是由于它们包含的一些训练样本本身同时属于上述多个类别.Newsgroup语料中属于 comp. 讨论组的5个类别中的训练样本的内容主题非常相关,造成了分类器难以准确判别该5个类别. 从Newsgroup语料的分类实验结果”中,本文分析了混淆类的一些相关特性: 1)混淆类判定依据应该依赖于分类错误分布,而非类别之间的相似程度.根据直觉考虑,可以通过分析类 别相似性计算来判定是否属于混淆类.常用的技术可以采用相似性计算函数(如Cosine或KL距离)计算两个类 别的中心向量的相似度,超过预定义阈值的两个类别或者选择最相似的两个类别,被认为是容易混淆类别.也有 一些研究人员通过聚类技术将最相似的类别聚类成一个大类(超类),并认为属于该大类的类别为混淆类【1 .其 中,基本思想只是考虑各个类别所对应的训练样本的内容来识别混淆类.上述方法采用了一个假设:相似的类别 存在严重相互误判的现象,并降低了分类性能.也就是说,相似的类别属于混淆类,不相似的类别不属于混淆类. 但是从实验结果中可以发现,该假设不一定成立.存在31%的类别misc-forsale分类错误(58个错判文本中的18 个文本)属于误判为类别comp.sys.ibm.pc.hardware,两者属于混淆类,而类别comp.sys.ibm.pc.hardware和 misc.forsale属于不相似类别. 2)混淆类的识别与分类模型是相关的.类别混淆关系不等同于类别相似关系.混淆类的研究目的是通过减 少分类错误来改善分类性能,因而混淆类的识别依赖于分类器的分类错误分布信息(混淆类的特性1). 3)混淆类具有整体闭环特性,而不是简单的一对一单向特性.实际上,类别之间的混淆关系(分类误判关系) 并非绝对双向的.如分类实验显示,35%的类别sci.electronics分类错误属于误判为类别comp.graphics; ̄只有 4%的类别comp.graphics分类错误属于误判为类别sci.electronics.也就是说,类别sci.electronics容易误判为类 别comp.graphics,反之则不然.实际上,具体两个类别的混淆关系可能是单向的,也可能是双向的.也就是说,类别 A可能存在到类别 的单向混淆关系,类别 可能存在到类别C的单向混淆关系,类别C可能存在到类别A的 单向混淆关系,最终形成一个闭环的混淆关系,因此可以认为,类别A,B和C组成一个混淆类集合.单独两个类别 由于缺乏双向混淆关系,无法形成闭环的混淆关系,不能组合为混淆类集合.也就是说,评判某个类别集合的混 淆程度应该基于整个集合的整体综合评价,并非简单考虑和累加两个类别之间的单向混淆程度. 4)对于给定的类别体系,可能存在多个不同的混淆类集合,但不同的混淆类集合之间相互,没有交集 (对于具有交集的混淆类识别和判别技术过于复杂,在本文的研究工作中,只是研究针对不存在交集的混淆类识 别技术). 1.2基于分类错误分布的混淆类识别 本文的研究工作主要针对预定义类别体系中存在的混淆类进行识别和判别.混淆类识别技术的关键在于 定义一个混淆评价函数,用于评价某一类别子集的混淆程度.从混淆类特性1)可以得出,混淆评价函数 (confusion evaluation function,简称CEF)的构建依赖于分类错误分布.本文提出了一种基于分类错误分布 (classiifcation error distribution,简称CED)的混淆类识别技术.一般来说,分类错误分布信息来源于分类实验结 果,在本文的工作中,首先将原来的训练数据分为两部分,80%的训练数据用于构建分类器,剩下的20% ̄1I练数据 当作测试数据,用于生成分类错误分布矩阵(classification error distribution matirx,简称CEDM). 1ilt本文采用针对Newsgroup语料分类实验来分析混淆类的特性,该分类实验采用多项式朴素贝叶斯模(multinomial naive Bayes) 构造分析器,采用所有词汇作为特征(其中去掉禁用词). 维普资讯 http://www.cqvip.com
朱靖波等:面向文本分类的混淆类判别技术 633 为了论述方便,首先引入一些基本概念定义. 假设预定义类别为 { 1, 2,...,Cn},其中包含n个类别.分类错误分布矩阵CEDM可以表示为n ̄n的二维关 系矩阵,每个元素表示为 1D^ l =层,.r0 口 (cl,q),其中,cf和q分别表示第i和第 个类别.ErrorRate(c ̄ , 是一 个错误率函数,计算方法是 ErrorRa ̄[cf )= 其中, ,r(c ,)表示类别c 的文本被误判为类别c『的个数皿(c )表示类别c 的文本个数. 错误率函数ErrorRate(c ̄l,c,)具有如下特性: 1)ErrorRate(e,,cf)=0; 2)0 口 (cf,q 1; 3)ErrorRate(c, , ,)与grrorgate(q,cf)不一定相等; 4)如果 (c 3=0,则针对所有j#i ̄rrorRate(cf,q)=0. (1) 不失一般性,对于给定的任意一个类别子集 ={ fl, 跏…Cim} C,其中包含m(-<nt个类别,评价该类别子集 CSi的混淆程度的混淆评价函数CeF(CS3定义为 CEF(CS )= CleCSI,,CkeCSl,f≠ ∑Er』 rorRate(ct,c ^ ) m 实际上,采用全搜索的方式寻求所有混淆类的方法,由于计算复杂度过高,在实际应用中是不现实的.为此, 根据混淆类的第2个和第3个特性,为了找到具有整体闭环特性的混淆类,本文提出的基于CED的混淆类识别 算法描述如图1所示. Input:The set ofclasses C。一{cl,C2,...,c^},Classiifcation Error Distribution Matrix CEDM; The process of recognition: 1)Take cl as the seed category,find candidate subset C that has the maximum confusion.The calculating process is as follows: ={cf}; For each class CECDo =argmaxCEF(CS ̄u{c}); IfCEF(CSIu{c‘})>CEF(CSI)Then CS_CS ̄u{c‘} c*E1:lse STOP E1:ndif End[for 2)In the月candidate confusion subclasses CSSet={CSl,CS2,..., },the criteria condition to determine confusion class cs"is: a. CS‘CSSet; b. For all classes belonging tO CS*c,e CS’the candidate confusion subset must satisfy:CS ̄=CS .That is,confusion .,class CS must satisfy complete closed-4oop characteristic. Oul[put:All confusion classes set. Fig.1 Description of CED.-based confusion class recognition algorithm 图1 基于CED的混淆类识别算法描述 2基于判别能力的特征选取技术 2.1判别能力评价函数 分类器是根据文本内容分析,对每个候选类别赋予一个权重,并根据权重大小进行排序.在SMC体系中,采 用直接等级排序法(direct rank ordering,简称DRO) 进行排序.常用的方法是构建一个判别函数(discrimination function)来实现类别排序过程.为了改善分类器的性能,较好的方法是增强分类器对类别的判别能力.为了达到 这个目的,本文重点研究了基于判别能力的特征选取方法,选择对类别具有较强判别能力的特征参与文本分类 过程. 维普资讯 http://www.cqvip.com 634 Journal of Software软件学报Vo1.19,No.3,March 2008 基于判别能力的特征选取方法的关键技术在于寻求特征判别能力的评价函数【H】.本文将采用Kullback. Leibler距离来评价特征对类别的判别能力.Kullback.Leibler距离经常被用于两个概率分布的距离计算,距离越 大表示越不相似.Kullback.Leibler距离的定义如下㈣: KL( lcI)l0g (3) 考虑到Kullback.Leibler距离的不对称性,本文采用对称型的Kullback.Leibler距离来实现特征判别能力的 评价,定义为 Dij=D(ci,cj)=KL(ci,cj)+KL(cj,Ci) (4) 在特征选取过程中,在引入特征之间条件假设的前提下,式(4)可以定义为 ( )=∑D/j( ) 其中 表示特征集合,Ddxk) ̄函数D 具有单调性,即 ( 芒X,X2芒X)^( 2.2基于判别能力的特征选取 D x2)jD ( u ) Dq(Xux2) (5) k个特征XkeX的对类别c 和cj的判别能力.从式(5)可以看出,特征判别能力 (6) 本文采用基于判别能力的特征选取技术进行特征选取,去掉一些判别能力较差的特征,不仅为了实现特征 降维的目的,而且力求增强分类器对混淆类的判别能力. 不失一般性,特征选取过程假设y为原始特征集合.为了获取包含d个特征的最佳子集坝 y),首先需要定 义一个特征选取评价函数 x).评价函数的 值越大,表示该特征子集越好.因此,包含d个特征的最佳特征子集 (Cy)可以采用如下公式进行构建【7】_ ( ’)= maxEr. l,rl=a .( ) (7) 但是,该方法需要非常耗时的搜索过程,甚至会造成组合爆炸现象【 .在实际应用中,即使是用很少的特征, 也是不现实的.所以,在实际特征选取过程中常常会引入特征条件假设,避免疯狂搜索过程【H】. 在本文的特征选取过程中采用式(5)来实现特征判别能力评价,代替式(7)中的评价函数 但是从式(5)可以 看出,该评价函数只能评价特征的局部判别能力.为了能够评价特征的全局判别能力,假设总共有 个类别,本文 采用了如下3种方法: 1) 最大法(max).基本思想是:针对每个特征 ,对所有类别采用式(5)评价该特征的判别能力,选择最大的 评价值作为该特征的全局判别能力.特征 的全局判别能力的评价方法是 Dm ix)=argmaxD“( 1sf。 。f≠』 (8) 2) 平均法(average).基本思想是:针对每个特征 ,对所有类别采用式(5)评价该特征的判别能力,选择平 均评价值作为该特征的全局判别能力.特征 的全局判别能力的评价方法是 ( ) 南 ( ) 的评价方法是 (9) 3) 最小法(min).基本思想是:针对每个特征 ,对所有类别采用式(5)评价该特征的判别能力,选择最小的 评价值作为该特征的全局判别能力,然后参与到从大到小的特征排序过程中.特征 的全局判别能力 Dminix)=argmin ix) (10) 3两个阶段的分类器设计 为了实现对混淆类的有效判别,改善分类性能的目的,本文采用基于两个阶段的分类器设计框架.在该框架 中,可以有效地集成多个不同的分类器.所谓不同的分类器,可能采用不同的分类模型,也可能针对的类别体系 维普资讯 http://www.cqvip.com 朱靖波等:面向文本分类的混淆类判别技术 635 不同,如针对不同的混淆类.从混淆类识别过程可以发现,一个复杂的预定义类别体系中有可能存在多个不相交 的混合类集合.在分类过程中,一个混合类集合的判别需要构建专门的分类器,并集成到基于两个阶段的分类器 框架中,纠正第1阶段的分类错误,最终改善整体分类性能,在该框架中,本文称第1阶段的分类器为初始分类器 fbaseline classifier),第2阶段的分类器根据存在的混淆类进行构建,因而称为混淆类分类器(confusion class classiifer). 在本文提出的基于两个阶段的分类器设计框架中,首先并非所有类别之间都可能存在混淆关系,相对来说, 在给定的预定义类别体系中,不同混淆类集合的个数不会太多.并且,只有当候选类别排序中首位的类别属于混 淆类别时(看作默认激活条件),才会激活第2阶段的分类器.基于两个阶段的分类器设计主要分为3步:第1阶段, 采用多项式朴素贝叶斯模型l l构建初始分类器(朴素贝叶斯模型有两种,多项式模型(multinomial mode1)和多变 量伯努利模型(multi.variate Bernoulli mode1),根据McCallum等人的实验结 们,多项式模型的分类性能优于多 变量伯努利模型,因此,本文采用多项式朴素贝叶斯模型来构建分类器).第2阶段,如果当前预定义的类别体系 中存在k个混淆类集合CSSet-={CS1,CS2…,,CSk} ̄J首先针对每一个混淆类,利用所包含类别的训练语料,类似第 1阶段初始分类器的构建过程,构建一个相应的混淆类贝叶斯分类器,因此可以得到k个混淆类分类器;如 果不存在混淆类,第2阶段就可以跳过不执行.第3阶段,将前两个阶段的分类结果集成. 4实验分析 在本文的比较实验设计中,两个公开标准语料被用于评测和比较分析本文提出的方法,分别为Newsgroup 语 “】和863中文评测语料【 】. 1)Newsgroup语料.Newsgroup语料大约包含2O 000个新闻文本,约平均分为2O个不同的类别.在语料文本 预处理过程中去掉UseNet Headers、禁用词和在数据集中只出现过一次的词汇,整个预处理过程采用McCallum 等人开发的Rainbow工具(可以从http://www.CS.cmu.edu/ ̄mccallum/bow/rainbow/-F载McCallum的Rainbow工 具[17 )完成.McCalhtm等人的研究工作显示,Stemming的处理可能有损于分类性能[6】,因此,语料预处理不采用 Stemming选项.经过语料预处理后,剩余的词汇个数为62 264. 2)863中文评测语料.该语料来源于2004年国家863中文文本分类评测的语料,其中,采用中图法构建分类 体系,共36类(原始863评测语料的预定义类别体系共包括38类,在本文实验中,去掉了T(m业技术)和z(综合 性图书)两类,主要原因在于这两类的训练数据构建标准存在一定的争议),每类包含100篇中文文本.在语料预 处理过程中,分词工具采用东北大学自然语言处理实验室开发的分词工具NEUCSP(该工具可以从 http://www.nlplab.com/download/CIP/neucsp.zip下载),去掉禁用词和仅在语料中出现过1次的词汇后,剩下的词 汇个数为53 407. 在分类实验过程中,采用5次交叉检验的方法,80%语料作为训练语料,剩下的20%语料作为测试语料,将5 次交叉检验的分类性能指标取平均值作为最后分类性能评价.实验中,贝叶斯分类器的构建和分类性能评价都 采用Rainbow工具完成,其中采用正确度(accuracy)作为分类性能评价方法. 实验1.混淆类的识别实验结果. 本实验采用基于分类错误分布的混淆类识别技术(如图1所示),自动识别Newsgroup语料和863评测语料 中存在的混淆类,并将用于后续实验中.混淆类识别结果见表1和表2. Table 1 Confusion classes in Newsgroup 表1 Newsgroup语料的混淆类 The set ofconfusion classes(including six classes comp.graphics comp.os.ms・windows.misc comp.sys.mac.hardware coml9.SVS.ibm.pc.hardware coml ̄.windoWS.X mt。sc.forsale Table 2 Confusion classes in 863 Chinese evaluation corpus 表2 863中文评测语料的混淆类 ! ! !! !!! !u_ !璺!! 壁( !! 坠g !! ! 2 TB TG TH TJ TK TL TM TN TP 维普资讯 http://www.cqvip.com 636 Journal of Software软件学报Vo1.19,No.3,March 2008 实验2:基于判别能力的混淆类分类实验. 在此分类实验中,基于多项式贝叶斯模型构建分类器,分别采用3种基于判别能力的特征选取方法,包括最 大法(max)、平均法(average)和最小法(min).针对Newsgroup语料和863评测语料中的混淆类,通过分类实验来 比较分析3种基于判别能力的特征选取技术对混淆类判别的性能. 从图2和图3的实验结果可以看出,最小法明显比最大法和平均法的性能要差,主要原因在于,如果某一特 征对某一特定的类别对的判别能力很弱,那么,即使它对其他类别对的判别能力较强,也无法作为重要特征被选 择使用.因而在特征数目少的时候,可能会造成重要特征的丢失. 言’ 80 § 70 一 8 : 60 皇 50 , 曙 8 毫 40 。 一Av er垮 时Jn 时岛0一 IJl∞∞B1U M百 30 30 一一Min 10 100 1000 10000 10 100 1000 10000 Vocabulary size Vocabulary size Fig.2 Experimental results of confusion class Fig.3 Experimental results of confusion class discrimination on Newsgroup discrimination on 863 evaluation corpus 图2 Newsgroup的混淆类判别结果 图3 863评测语料的混淆类判别结果 从最大法和平均法的比较分析中发现一个非常有趣的现象.在Yang的论文[9I中显示,基于最大法的CHI统 计和互信息方法性能优于基于平均法.对于本文提出的基于判别能力的特征选取方法,同样为了考虑全局特征 选取性能,采用了3种方法:最大法、平均法和最小法.但从图2可以看出,在Newsgroup语料的混淆类判别中, 平均法的性能稍优于最大法.而在图3的实验结果中,最大法和平均法的性能曲线相互交错.本文采用t.检验方 法,在给定显著水平 5%的前提下,最大法和平均法的性能没有显著差异.由此可以得出,在863评测语料的混 淆类判别中,最大法和平均法的特征选取方法可以看作具有相同的性能,性能曲线相互交错的原因可以理解为 是由于在交叉检验中采用语料本身差异所造成的.基于图2和图3的实验结果综合分析,在下面的分类实验中 将采用平均法来实现基于判别能力的特征选取方法,用于混淆类分类器的实现中. 实验3:基于两个阶段的分类实验. 在本实验中,第l阶段的初始分类器采用多项式贝叶斯模型构建,特征选取分别采用4种比较常用的技术: 信息增益、文档频率、CHI统计、互信息….第2阶段的混淆类分类器同样采用多项式贝叶斯模型构建,其中, 基于判别能力的特征选取方法采用平均法. 其中,第2阶段混淆类分类器的激活条件(简称默认激活条件)是:判断第l阶段初始分类器的分类结果(排 序第l位的类别标注,top1)是否属于混淆类,如果是,则激活第2阶段的混淆类分类器进行重新分类判别,否则, 作为最后分类结果输出. 从图4和图5的实验结果可以看出,4种特征选取方法针对基于贝叶斯模型的初始分类器(one.stage)来说. 最佳是信息增益IG,其次是CHI统计和文档频率DF,最后是互信息MI.其中,互信息比其他3种方法的性能差很 多,信息增益稍优于CHI统计.该结论同样体现在两个阶段的分类器实验结果中,即two.satge.ig>two.stage.chi >two-stage・df>two-stage.mi.也就是说,two.stage分类器的性能好坏也与one.stage的初始分类器的性能密切相 关.从two-stage分类器与one-stage初始分类器进行比较分析可以发现,针对给定的初始分类器来说,混淆类分 …为了获得CHI统计和互信息特征选取的全局性能,Yang的实验结果显示,采用基于最大法的CHI统计和互信息性能优于基 于平均法的方法,因此,在本文实验中将采用基于最大法的CHI统计和互信息实现全局特征选取方法,详细内容参见Yang的论文[91. 维普资讯 http://www.cqvip.com
维普资讯 http://www.cqvip.com
638 冀.I 00对l10一_对0 Is叽对 『、 Journal of Software软件学报Vo1.19,No.3,March 2008 将比较分析扩展后的激活条件对分类性能的影响.从实验3可以得出,在Newsgr0up和863评测语料的分类实 验中,初始分类器采用基于信息增益的特征选取方法分类性能最佳,因此,在比较实验中采用信息增益作为初始 分类器的特征选取方法.在图6和图7中,topl表示默认激活条件,top2表示激活条件考虑前两个候选类别是否 属于混淆类,top3表示激活条件考虑前3个候选类别是否属于混淆类. 分 耋 釜 暑 号 童 6 10 100 1000 10000 100000 Vocabulary size 量 Vocabulary size Fig.6 Experiments of classiicatifon using diferent activation conditions on Newsgroup corpus Fig.7 Experiments of classification using diferent activation conditions on 863 Chinese evaluation corpus 图6在Newsgroup语料上的不同 图7在863中文评测语料上的不同 激活条件的分类实验 激活条件的分类实验 从图6和图7的分类实验结果可以看出,默认激活条件top1性能略于top2和top3.前文提到,实际上,多类 别之间的混淆关系属于单向关系.在topn(n>1)的激活条件中,由于同时考虑前n个类别是否属于混淆类,因此很 多由于类别混淆关系造成分类错误的测试文本不能被第2阶段的混淆类分类器重新分类.本文提出的方法主 要针对单标签、多类分类器研究混淆类判别技术.根据混淆类的特性1),在进行混淆类识别中,只是基于SMC体 系的分类器的分类错误分布.由于在SMC体系中只考虑第1个候选类别作为输出,并没有考虑第 (>1)个类别 的分类错误分布.因此,造成topn >1)的激活条件在SMC体系下的基于两阶段的分类器中效果不如默认激活 条件(如果在非SMC体系中,则该结论可能有所不同,这将在下一步研究工作中加以验证). 5结束语 目前'j艮多研究工作从分类模型选择、特征降维技术和训练语料构建方法等方面来改善分类器的性能,取 得了很好的效果.本文主要通过分析文本分类中存在的混淆类现象,深入研究了混淆类的判别技术,改善了文本 分类性能.其中,首先分析了混淆类的一些特性,并提出了一种基于分类错误分布的混淆类识别技术,识别预定 义类别中的混淆类集合.为了有效地判别混淆类,提出了一种基于判别能力的特征选取技术,通过评价某一特征 对类别之间的判别能力来特征选取,实现特征降维目的.最后,通过基于两阶段的分类器设计框架,将初始分类 器和混淆类分类器进行集成,组合两个阶段的分类结果作为最后输出.实验结果显示,在Newsgroup和863中文 评测语料上,针对单标签多类分类器体系,本文提出的技术有效地改善了分类性能.实际应用中,单个文档可能 属于多个类别,即多标签多类分类器(multi.1abel andmulti.class classiifer,简称MMC).在下一步研究工作中,将针 对MMC开展混淆类识别和构建两个阶段分类器设计框架的研究.由于多标签的特性,会造成不同混淆类之间 存在交集,并且本文提出的混淆类特性3)和特性4)也可能需要进行修正,这将是一个研究难点,也是值得进一步 探讨的地方. 致谢在本文的研究工作中,感谢Prof.Keh.Yih Su关于基于判别能力的特征选取技术的有价值的讨论,同时感 谢实验室的陈晴、王振兴和王安慧同学对混淆类识别算法优化的一些建议. 维普资讯 http://www.cqvip.com
朱靖波等:面向文本分类的混淆类判别技术 639 References: [1】Sebastiani F.Machine learning in automated text categorization.ACM Computing Surveys,2002,34(1):l_47, [2】Lewis D,Schapire R,Callan J,Papka R.Training algorithms for linear text classiifers,In:Proc.ofthe ACM SIGIR.1996.298—306 http://ciir.cs,umass.edu/pubfiles/callansigir96b.ps,gz [3】 Joachims T,Text categorization with support vector machines:Learning with many relevant features.In:Proc.of the Machine Learning:ECML’98,10th European Conf.on Machine Learning.1998.137—142,http://www.cs,comel1.edu/People/tj/rIublications/ joachims—.98a.pdf [4】Lewis D.A comparison of two learning algorithms for text categorization.In:Proc.of Symp.on Document Analysis and IR.1994. http://www.cs.cmu.edu/-.armr/papers/categ.ps [5】 Nigam K,Lafferty J,McCallum A.Using maximum entropy for text classification,In:Proc.of the IJCAI’99 Workshop on Machine Learning or fInformation Filtering.1999,61—67.http://www,cs.umass,edu/~mccallmn/papers/maxent・ijcaiws99.ps [6】 McCallum A,Nigam K.A comparison of event models for naive Bayes text classiifcation.In:Proc,of the AAAI’98 Workshop on Learning or fText Categorization.1998.http://www.scils.rutgers.edu/"a'nuresan/IR/Docs/Articles/aaaiMcCallum1998.ps [7】 Jain AK,Zongker D,Feature selection:Evaluation,application,and small sample performance.IEEE Trans.on Pattern Analysis nd aMachine Intelligence,1997,l9(2):153-158. [8】 Zhu MH,Zhu JB,Chen WL.Effect analysis of dimension reduction on support vector machines,In:Proc.of the IEEE Int’1 Conf. on Natural Language Processing nd aKnowledge Engineering.2005.http://www.nlplab.cn/chinese/lunwen,htm [9】 Yang YM,Pedersen JO.A comparative study on feature selection in text categorization.In:Proc,of the 14th Int’1 Conf.on Machine Learning(ICML’97).1997.4l2—420.http://www.hp1.hp.com/personal/Carl—Staelin/cs236601/yang1997.ps.gz [10】Jain AK,Duin RPW,Mao JC.Statistical pattern recognition:A review.IEEE Trans.on Pattern Analysis nd Machiane Intelligence, 2000,22(1):4—37. [1 1】Joachims T.A probabilistic nalaysis of the Rocchio algorithm with TFIDF for text categorization.In:Proc,of the ICML’97.1997. http://www.cs.cornel1.edu/People/tj/publications/joachims_97a.pdf [12】 Aggarwal CC,Gates SC,Yu PS.On using partial supervision for text categorization.IEEE Trns,on Knowlaedge and Data Engineering,2004,16(2):245-255. [13】 Su KY,Lee CH.Speech recognition using weighted HMM and subspace projection approach.IEEE Trans.on Speech and Audio Processing,1994,2(1):69-79. [14】 Bressn M,Viartia J,On the selection and classiifcation of independent featres.IEEE Trauns,on Pattern Analysis and Machine Intelligence,2003,25(10):1312—1317. [15】Tol JT,Gonzalez RC.Pattern Recognition Principles.Addison・Wesley Publishing Company,1974. [16】Chen WL.Research on text feature learning for text categorization[Ph.D.Thesis].Shenyang:Northeastern University,2005(in Chinese with English abstract). [17】McCallum A,Kachites A.Bow:A toolkit for statistical lnguage modelaing,text retrieval,classiifcation and clustering.1996. http://www.cs.cmu.edu/-mccallum/bow 附中文参考文献: [16】陈文亮.面向文本分类的文本特征学习技术研究[博士学位论文】.沈阳:东北大学,2005 朱靖波(1973--),男,浙江金华人,博士,教 授,CCF高级会员,主要研究领域为自然语 言处理. 王会珍(1980一),女,博士生,助教,CCF学 生会员,主要研究领域为自然语言处理, ■ 张为希自然娟(语19言84处一理),女. ,硕士生,主要研究领域
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 517ttc.cn 版权所有 赣ICP备2024042791号-8
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务