面向文本分类的混淆类判别技术

来源：五一七教育网

维普资讯 http://www.cqvip.com ＩＳＳＮ　１０００・９８２５，ＣＯＤＥＮ　ＲＵＸＵＥＷ　Ｊｏｕｒｎａｌ　ｏｆＳｏｆｔｗａｒｅ，Ｖｏ１．１９，Ｎｏ．３，Ｍａｒｃｈ　２００８，ＰＰ．６３０—６３９　Ｄ０Ｉ：１０．３７２４／ＳＰ．Ｊ．１００１．２００８．００６３０　Ｅ－ｍａｉｌ：ｊｏｓ＠ｉｓｃａｓ．ａｃ．ｃｒｌ　ｈｔｔｐ：／／ｗｗｗ．ｊｏｓ．ｏｒｇ．ｃｎ　Ｔｅ１／Ｆａｘ：＋８６－１０．６２５６２５６３　＠２００８　ｂｙ　Ｊｏｕｒｎａｌ　ｏｆＳｏｆｔｗａｒｅ．Ａｌｌ　ｒｉｇｈｔｓ　ｒｅｓｅｒｖｅｄ．　面向文本分类的混淆类判别技术　朱靖波　，王会珍，张希娟　（东北大学信息科学与工程学院，辽宁沈阳　ｌ　１０００４）　Ｃｏｎｆｕｓｉｏｎ　Ｃｌａｓｓ　Ｄｉｓｃｒｉｍｉｎａｔｉｏｎ　Ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　Ｔｅｘｔ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ＺＨＵ　Ｊｉｎｇ—Ｂｏ　，ＷＡＮＧ　Ｈｕｉ—Ｚｈｅｎ，ＺＨＡＮＧ　Ｘｉ—Ｊｕａｎ　（Ｃｏｌｌｅｇｅ　ｏｆｌｎｆｏｒｍａｆｉｏｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｎｏｒｔｈｅａｓｔｅｒｎ　Ｕｎｉｖｅｒｓｉｔｙ，Ｓｈｅｎｙａｎｇ　１　１０００４，Ｃｈｉｎａ）　＋Ｃｏｒｒｅｓｐｏｎｄｉｎｇ　ａｕｔｈｏｒ：Ｐｈｎ：＋８６－２４・８３６７２４８　１，Ｅ－ｍａｉｌ：ｚｈｕｊｉｎｇｂｏ＠ｍａｉｌ．ｎｅｕ．ｅｄｕ．ｃｎ，ｈｔｔｐ：／／ｗｗｗ．ｎｌｐｌａｂ．ｃｏｍ　Ｚｈｕ　ＪＢ，Ｗａｎｇ　ＨＺ，Ｚｈａｎｇ　ＸＪ．Ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｄｉｓｃｒｉｍｉｎａｔｉｏｎ　ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　ｔｅｘｔ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ．Ｊｏｕｒｎａｌ　ｏｆ　Ｓｏｆｔｗａｒｅ，２００８，１９（３）：６３０－６３９．ｈｔｔｐ：／／ｗｗｗ．ｊｏｓ．ｏｒｇ．ｃｎ／１０００—９８２５／１　９／６３０．ｈｔｍ　Ａｂｓｔｒａｃｔ：Ｔｈｉｓ　ｐａｐｅｒ　ａｎａｌｙｚｅｓ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｐｈｅｎｏｍｅｎａ　ｅｘｉｓｔｉｎｇ　ｉｎ　ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｐｒｏｃｅｄｕｒｅ，ａｎｄ　ｓｔｕｄｉｅｓ　ｆｕｒｔｈｅｒ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｄｉｓｃｒｉｍｉｎａｔｉｏｎ　ｔｅｃｈｎｉｑｕｅｓ　ｔｏ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，　ｉｆｒｓｔｌｙ　ａ　ｔｅｃｈｎｉｑｕｅ　ｆｏｒ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｒｅｃｏｇｎｉｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｃｌａｓｓｉｉｃａｔｉｏｎ　ｅｒｒｏｒ　ｄｉｓｔｒｆｉｂｕｔｉｏｎ　ｉｓ　ｐｒｏｐｏｓｅｄ　ｔｏ　ｒｅｃｏｇｎｉｚｅ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｓｅｔｓ　ｅｘｉｓｔｉｎｇ　ｉｎ　ｔｈｅ　ｐｒｅ—ｄｅｆｉｎｅｄ　ｔａｘｏｎｏｍｙ．Ｔｏ　ｅｆｆｅｃｔｉｖｅｌｙ　ｄｉｓｃｒｉｍｉｎａｔｅ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓｅｓ，ｔｈｉｓ　ｐａｐｅｒ　ｐｒｏｐｏｓｅｓ　ａｎ　ａｐｐｒｏａｃｈ　ｔｏ　ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ　ｂａｓｅｄ　ｏｎ　ｄｉｓｃｒｉｍｉｎａｔｉｏｎ　ｃａｐａｂｉｌｉｔｙ　ｉｎ　ｔｈｅ　ｐｒｏｃｅｄｕｒｅ　ｏｆ　ｗｈｉｃｈ　ｅａｃｈ　ｃａｎｄｉｄａｔｅ　ｆｅａｔｕｒｅ’ｓ　ｄｉｓｃｒｉｍｉｎａｔｉｏｎ　ｃａｐａｂｉｌｉｔｙ　ｆｏｒ　ｃｌａｓｓ　ｐａｉｒ　ｉｓ　ｅｖａｌｕａｔｅｄ．Ａｔ　ｌａｓｔ，ｔｗｏ—ｓｔａｇｅ　ｃｌａｓｓｉｆｉｅｒｓ　ａｒｅ　ｕｓｅｄ　ｔｏ　ｉｎｔｅｇｒａｔｅ　ｂａｓｅｌｉｎｅ　ｃｌａｓｓｉｆｉｅｒ　ａｎｄ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｃｌａｓｓｉｆｉｅｒｓ，ａｎｄ　ｉｎ　ｗｈｉｃｈ　ｔｈｅ　ｔｗｏ　ｏｕｔｒＩｕｔ　ｒｅｓｕｌｔｓ　ｆｒｏｍ　ｔｗｏ　ｓｔａｇｅｓ　ａｒｅ　ｃｏｍｂｉｎｅｄ　ｉｎｔｏ　ｔｈｅ　ｆｉｎａｌ　ｏｕｔｐｕｔ　ｒｅｓｕｌｔｓ．Ｔｈｅ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｃｌａｓｓｉｆｉｅｒｓ　ｉｎ　ｔｈｅ　ｓｅｃｏｎｄ　ｓｔａｇｅ　ｃｏｕｌｄ　ｂｅ　ａｃｔｉｖａｔｅｄ　ｏｎｌｙ　ｗｈｅｎ　ｔｈｅ　ｏｕｔｐｕｔ　ｃｌａｓｓ　ｏｆ　ｔｈｅ　ｉｎｐｕｔ　ｔｅｘｔ　ａｓｓｉｇｎｅｄ　ｂｙ　ｂａｓｅｌｉｎｅ　ｃｌａｓｓｉｉｅｒ　ｉｎ　ｔｈｅ　ｆｆｉｒｓｔ　ｓｔａｇｅ　ｂｅｌｏｎｇｓ　ｔｏ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓｅｓ，　ｈｅｎ　ｔｈｅ　ｃｏｎｆｕｓｉｔｏｎ　ｃｌａｓｓ　ｃｌａｓｓｉｆｉｅｒｓ　ａｒｅ　ｕｓｅｄ　ｔｏ　ｄｉｓｃｒｉｍｉｎａｔｅ　ｔｈｅ　ｔｅｓｔｉｎｇ　ｔｅｘｔ　ａｇａｉｎ．Ｉｎ　ｔｈｅ　ｃｏｍｐａｒｉｓｏｎ　ｅｘｐｅｒｉｍｅｎｔｓ，　Ｎｅｗｓｇｒｏｕｐ　ａｎｄ　８６３　Ｃｈｉｎｅｓｅ　ｅｖａｌｕａｔｉｏｎ　ｄａｔａ　ｃｏｌｌｅｃｔｉｏｎ　ａｒｅ　ｕｓｅｄ　ｔｏ　ｅｖａｌｕａｔｅ　ｔｈｅ　ｅｆｆｅｃｔｉｖｅｎｅｓｓ　ｏｆ　ｔｈｅ　ｔｅｃｈｎｉｑｕｅｓ　ｐｒｏｐｏｓｅｄ　ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｍｅｔｈｏｄｓ　ｃｏｕｌｄ　ｉｍｐｒｏｖｅ　ｓｉｇｎｉｆｉｃａｎｔｌｙ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｒｆ　ｓｉｎｇｌｅ—ｌａｂｅｌ　ａｎｄ　ｍｕｌｔｉ—ｃｌａｓｓ　ｃｌａｓｓｉｉｆｅｒ（ＳＭＣ）．　Ｋｅｙ　ｗｏｒｄｓ：ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｄｉｓｃｒｉｍｉｎａｔｉｏｎ；ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ；ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｅｒｒｏｒ　ｄｉｓｔｒｉｂｕｔｉｏｎ；　ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ；ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ　摘要：　分析了文本分类过程中存在的混淆类现象，主要研究混淆类的判别技术，进而改善文本分类的性能．首先，　提出了一种基于分类错误分布的混淆类识别技术，识别预定义类别中的混淆类集合．为了有效判别混淆类，提出了一　种基于判别能力的特征选取技术，通过评价某一特征对类别之间的判别能力实现特征选取．最后，通过基于两阶段的　分类器设计框架，将初始分类器和混淆类分类器进行集成，组合了两个阶段的分类结果作为最后输出．混淆类分类器　・Ｓｕｐｐｏｒｔｅｄ　ｂｙ　ｔｈｅ　Ｎａｔｉｏｎａｌ　Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ　ｏｆ　Ｃｈｉｎａ　ｎｄｅｒｕ　Ｇｒａｎｔ　Ｎｏ．６０４７３　１４０（国家自然科学基金）；ｔｈｅ　Ｎａｔｉｏｎａｌ　９８５　Ｐｒｏｊｅｃｔ　ｏｆ　Ｃｈｉｎａ　ｎｄｅｒ　Ｇｒａｎｔｕ　Ｎｏ．９８５－２－ＤＢ—Ｃ０３（国家９８５工程项目）；ｔｈｅ　Ｐｒｏｇｒａｍ　ｆｏｒ　Ｎｅｗ　Ｃｅｎｔｕｒｙ　Ｅｘｃｅｌｌｅｎｔ　Ｔａｌｅｎｔｓ　ｉｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｃｈｉｎａ　ｕｎｄｅｒ　Ｇｒａｎｔ　Ｎｏ．ＮＣＥＴ－０５－０２８７（新世纪优秀人才计划）；ｔｈｅ　Ｎａｔｉｏｎａｌ　Ｈｉｉｇｈ－Ｔｅｃｈ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｐｌａｎ　ｏｆ　Ｃｈｉｎａ　ｕｎｄｅｒ　ｒａＧｎｔ　Ｎｏ．２００６ＡＡ０１Ｚ１５４（国家高技术研究发展计划（８６３））　Ｒｅｃｅｉｖｅｄ　２００６—０７－０２；Ａｃｃｅｐｔｅｄ　２００６－１０－１０　维普资讯 http://www.cqvip.com

朱靖波等：面向文本分类的混淆类判别技术　６３１　的激活条件是：当测试文本被初始分类器标注为混淆类类别时，即采用混淆类分类器进行重新判别在比较实验中采　用了Ｎｅｗｓｇｒｏｕｐ和８６３中文评测语料，针对单标签、多类分类器．实验结果显示，该技术有效地改善了分类性能．　关键词：　文本分类；混淆类判别；特征选取；分类锚误分布；机器学习；自然语言处理　中图法分类号：ＴＰ１８１　文献标识码：Ａ　简单来说，文本分类任务可以定义为：根据文本内容赋予１个或多个预定义类别或主题类别．核心任务为：根　据给定的训练数据，构造高性能的分类器，实现对新文本的自动分类过程．　在实际应用中，根据预定义类别的数量不同，分类系统可以分为两种：两类分类器（ｂｉｎａｒｙ　ｃｌａｓｓｉｉｆｅｒ）和多类分　类器（ｍｕｌｔｉ．ｃｌａｓｓ　ｃｌａｓｓｉｉｆｅｒ）川．其中，两类分类器主要针对正／负或Ａ／Ｂ两类分类问题；多类分类器主要针对多类别　分类问题，即预定义的类别个数超过两个．如果从文本所属类别的个数来看，文本分类技术又可以分为单标签　（ｓｉｎｇｌｅ．１ａｂｅ１）和多标￣（ｍｕｌｔｉ．１ａｂｅ１）两种［２－６］单标签分类技术只是给当前文本赋予～个预定义的类别（类别标　注）；反之，多标签分类技术可能给当前文本赋予多个预定义的类别（多类别标注）．本文主要针对单标签多类分类　器（ｓｉｎｇｌｅ．１ａｂｅｌ　ａｎｄ　ｍｕｌｔｉ．ｃｌａｓｓ　ｃｌａｓｓｉｉｆｅｒ，简称ＳＭＣ）的构建技术，研究如何改善ＳＭＣ的分类性能　．　在文本分类过程中，通过特征降维技术不但可以降低分类系统的时空代价，在～定程度上还可能改善分类　系统的性能　（主要原因在于用于分类器训练的带标样本的数量有限［８】．但对于基于支持向量机的分类模型来　说，实验结果显示，特征选取技术有损分类性能，但特征抽取技术有可能改善分类性能）．特征选取技术（ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ）的关键在于寻求～个评价函数，根据特征在训练语料中的统计分布信息，对该特征的重要性进行评价．　目前常用的特征选取技术　有信息增￣（ｉｎｆｏｒｍａｔｉｏｎ　ｇａｉｎ，简称ＩＧ）、文档频率（ｄｏｃｕｍｅｎｔ　ｆｒｅｑｕｅｎｃｙ，简称ＤＦ）、　ＣＨＩ统计、互信息（ｍｕｔｕａｌ　ｉｎｆｏｒｍａｔｉｏｎ，简称ＭＩ）、ＴＦ＊ＩＤＦ、熵（ｅｎｔｒｏｐｙ）等．特征抽取技术（ｆｅａｔｕｒｅ　ｅｘｔｒａｃｔｉｏｎ）［１０】　主要通过将原始特征进行变换运算，形成新的特征，其中，新的特征表示在物理上不好直接解释．常用的特征抽　取技术有潜在语义分析（１ａｔｅｎｔ　ｓｅｍａｎｔｉｃ　ａｎａｌｙｓｉｓ，简称ＬＳＡ）、主成分分析（ｐｒｉｎｃｉｐａｌ　ｃｏｍｐｏｎｅｎｔ　ａｎａｌｙｓｉｓ，简称　ＰＣＡ）、核主成分分析（ｋｅｒｎｅｌ　ＰＣＡ）、多元判别分析（ｍｕｌｔｉｐｌｅ　ｄｉｓｃｒｉｍｉｎａｔｉｏｎ　ａｎａｌｙｓｉｓ，简称ＭＤＡ）、成分分析　（ｉｎｄｅｐｅｎｄｅｎｔ　ｃｏｍｐｏｎｅｎｔ　ａｎａｌｙｓｉｓ，简称ＩＣＡ）等．　本文主要通过分析预定义类别中存在的混淆类（ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓｅｓ）现象，研究混淆类的判别技术，进而改善　分类性能．主要研究内容包括：１）分析了混淆类的特性，并提出了～种基于分类错误分布（ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ｅｒｒｏｒ　ｄｉｓｔｒｉｂｕｔｉｏｎ，简称ＣＥＤ）的混淆类识别技术，识别预定义类别中的混淆类集合；２）提出了～种基于判别能力的特　征选取技术，通过评价某一特征对类别之间的判别能力来选择重要特征，其中，认为判别能力强的特征为重要特　征，并采用该特征选取技术参与混淆类的判别过程；３）最后，设计了基于两阶段的分类器设计框架（ｔｗｏ．ｓｔａｇｅ　ｃｌａｓｓｉｉｆｅｒ）．其中，第～阶段分类器称为初始分类器，第二阶段分类器称为混淆类分类器，最后通过组合两个阶段　的分类结果作为输出．也就是说，在第一阶段分类结果中，如果该文档被标注为属于混淆类的类别，则在第二阶　段中进行混淆类的判别（分类）处理．在比较实验中，采用了两个公开并广泛被用于分类性能评测的语料来测试　上述方法的性能，包括Ｎｅｗｓｇｒｏｕｐ和８６３中文评测语料．实验结果显示，本文提出的方法很好地改善了分类性能．　１混淆类识别技术　１．１混淆类　通常，文本分类系统的构建是基于预定义的类别体系．本文实验中采用的Ｎｅｗｓｇｒｏｕｐ语料　包含２０个类别．　在文本分类结果中发现，Ｎｅｗｓｇｒｏｕｐ语料中属于ｃｏｍｐ．＊讨论组的５个类别的测试文本相互误判的情况非常严　重，这５个类别包括ｃｏｍｐ．ｇｒａｐｈｉｃｓ，ｃｏｍｐ．ＯＳ．ｍｓ－ｗｉｎｄｏｗｓ．ｍｉｓｃ，ｃｏｍｐ．ｓｙｓ．ｉｂｍ．ｐｃ．ｈａｒｄｗａｒｅ，ｃｏｍｐ．ｓｙｓ．ｍａｃ．ｈａｒｄｗａｒｅ　・本文提出的混淆类判别技术也可以用于改善其他种类分类器的性能，包括单标签两类分类器（ｓｉｎｇｌｅ—ｌａｂｅｌ　ａｎｄ　ｂｉｎａｒｙ　ｃｌａｓｓｉｉｆｅｒ，简称ｓａｃ）、多标签两类分类器（ｍｕｌｔｉ．１ａｂｅｌ　ａｎｄ　ｂｉｎａｒｙ　ｃｌａｓｓｉｆｉｅｒ，简称ＭＢＣ）￣Ｉ　标签多类分类器（ｍｕｌｔｉ—ｌａｂｅｌ　ａｎｄ　ｍｕｌｔｉ—ｃｌａｓｓ　ｃｌａｓｓｉｉｆｅｒ，简称ＭＭＣ）．　维普资讯 http://www.cqvip.com

６３２　Ｊｏｕｒｎａｌ　ｏｆ　Ｓｏｆｔｗａｒｅ软件学报Ｖｏ１．１９，Ｎｏ．３，Ｍａｒｃｈ　２００８　和ｃｏｍｐ．ｗｉｎｄｏｗｓ　也就是说，分类器对这些类别的判别能力不强，我们称这些类别为混淆类（混淆类相当于一个　大类（超类）．为了论述方便，文中混淆类和混淆类集合两种说法属于同一个意思）－ｆ艮明显，这些混淆类的存在造　成了文本分类性能的下降．因此，本文的研究重点在于混淆类的识别和判别技术，并寻求高性能分类器的构建机　制　改善分类性能．　实际上，对混淆类给出一个简单、清晰、明确的定义是不容易的事情．这里，本文尝试分析混淆类的一些特　性．混淆类指的是容易混淆的类别集合．换句话说，对于当前分类系统来说，属于混淆类的类别之间存在着严重　的误判现象．混淆类的存在与当前给定的训练带标数据相关．例如，Ｒｅｕｔｅｒｓ．２１５７８语料中ｃｏｒｎ，ｇｒａｉｎ和ｗｈｅａｔ类　别属于混淆类的原因是由于它们包含的一些训练样本本身同时属于上述多个类别．Ｎｅｗｓｇｒｏｕｐ语料中属于　ｃｏｍｐ．　讨论组的５个类别中的训练样本的内容主题非常相关，造成了分类器难以准确判别该５个类别．　从Ｎｅｗｓｇｒｏｕｐ语料的分类实验结果”中，本文分析了混淆类的一些相关特性：　１）混淆类判定依据应该依赖于分类错误分布，而非类别之间的相似程度．根据直觉考虑，可以通过分析类　别相似性计算来判定是否属于混淆类．常用的技术可以采用相似性计算函数（如Ｃｏｓｉｎｅ或ＫＬ距离）计算两个类　别的中心向量的相似度，超过预定义阈值的两个类别或者选择最相似的两个类别，被认为是容易混淆类别．也有　一些研究人员通过聚类技术将最相似的类别聚类成一个大类（超类），并认为属于该大类的类别为混淆类【１　．其　中，基本思想只是考虑各个类别所对应的训练样本的内容来识别混淆类．上述方法采用了一个假设：相似的类别　存在严重相互误判的现象，并降低了分类性能．也就是说，相似的类别属于混淆类，不相似的类别不属于混淆类．　但是从实验结果中可以发现，该假设不一定成立．存在３１％的类别ｍｉｓｃ－ｆｏｒｓａｌｅ分类错误（５８个错判文本中的１８　个文本）属于误判为类别ｃｏｍｐ．ｓｙｓ．ｉｂｍ．ｐｃ．ｈａｒｄｗａｒｅ，两者属于混淆类，而类别ｃｏｍｐ．ｓｙｓ．ｉｂｍ．ｐｃ．ｈａｒｄｗａｒｅ和　ｍｉｓｃ．ｆｏｒｓａｌｅ属于不相似类别．　２）混淆类的识别与分类模型是相关的．类别混淆关系不等同于类别相似关系．混淆类的研究目的是通过减　少分类错误来改善分类性能，因而混淆类的识别依赖于分类器的分类错误分布信息（混淆类的特性１）．　３）混淆类具有整体闭环特性，而不是简单的一对一单向特性．实际上，类别之间的混淆关系（分类误判关系）　并非绝对双向的．如分类实验显示，３５％的类别ｓｃｉ．ｅｌｅｃｔｒｏｎｉｃｓ分类错误属于误判为类别ｃｏｍｐ．ｇｒａｐｈｉｃｓ；￣只有　４％的类别ｃｏｍｐ．ｇｒａｐｈｉｃｓ分类错误属于误判为类别ｓｃｉ．ｅｌｅｃｔｒｏｎｉｃｓ．也就是说，类别ｓｃｉ．ｅｌｅｃｔｒｏｎｉｃｓ容易误判为类　别ｃｏｍｐ．ｇｒａｐｈｉｃｓ，反之则不然．实际上，具体两个类别的混淆关系可能是单向的，也可能是双向的．也就是说，类别　Ａ可能存在到类别　的单向混淆关系，类别　可能存在到类别Ｃ的单向混淆关系，类别Ｃ可能存在到类别Ａ的　单向混淆关系，最终形成一个闭环的混淆关系，因此可以认为，类别Ａ，Ｂ和Ｃ组成一个混淆类集合．单独两个类别　由于缺乏双向混淆关系，无法形成闭环的混淆关系，不能组合为混淆类集合．也就是说，评判某个类别集合的混　淆程度应该基于整个集合的整体综合评价，并非简单考虑和累加两个类别之间的单向混淆程度．　４）对于给定的类别体系，可能存在多个不同的混淆类集合，但不同的混淆类集合之间相互，没有交集　（对于具有交集的混淆类识别和判别技术过于复杂，在本文的研究工作中，只是研究针对不存在交集的混淆类识　别技术）．　１．２基于分类错误分布的混淆类识别　本文的研究工作主要针对预定义类别体系中存在的混淆类进行识别和判别．混淆类识别技术的关键在于　定义一个混淆评价函数，用于评价某一类别子集的混淆程度．从混淆类特性１）可以得出，混淆评价函数　（ｃｏｎｆｕｓｉｏｎ　ｅｖａｌｕａｔｉｏｎ　ｆｕｎｃｔｉｏｎ，简称ＣＥＦ）的构建依赖于分类错误分布．本文提出了一种基于分类错误分布　（ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ｅｒｒｏｒ　ｄｉｓｔｒｉｂｕｔｉｏｎ，简称ＣＥＤ）的混淆类识别技术．一般来说，分类错误分布信息来源于分类实验结　果，在本文的工作中，首先将原来的训练数据分为两部分，８０％的训练数据用于构建分类器，剩下的２０％￣１Ｉ练数据　当作测试数据，用于生成分类错误分布矩阵（ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｅｒｒｏｒ　ｄｉｓｔｒｉｂｕｔｉｏｎ　ｍａｔｉｒｘ，简称ＣＥＤＭ）．　１ｉｌｔ本文采用针对Ｎｅｗｓｇｒｏｕｐ语料分类实验来分析混淆类的特性，该分类实验采用多项式朴素贝叶斯模（ｍｕｌｔｉｎｏｍｉａｌ　ｎａｉｖｅ　Ｂａｙｅｓ）　构造分析器，采用所有词汇作为特征（其中去掉禁用词）．　维普资讯 http://www.cqvip.com

朱靖波等：面向文本分类的混淆类判别技术　６３３　为了论述方便，首先引入一些基本概念定义．　假设预定义类别为　｛　１，　２，．．．，Ｃｎ｝，其中包含ｎ个类别．分类错误分布矩阵ＣＥＤＭ可以表示为ｎ￣ｎ的二维关　系矩阵，每个元素表示为　１Ｄ＾　ｌ　＝层，．ｒ０　口　（ｃｌ，ｑ），其中，ｃｆ和ｑ分别表示第ｉ和第　个类别．ＥｒｒｏｒＲａｔｅ（ｃ￣　，　是一　个错误率函数，计算方法是　ＥｒｒｏｒＲａ￣［ｃｆ　）＝　其中，　，ｒ（ｃ　，）表示类别ｃ　的文本被误判为类别ｃ『的个数皿（ｃ　）表示类别ｃ　的文本个数．　错误率函数ＥｒｒｏｒＲａｔｅ（ｃ￣ｌ，ｃ，）具有如下特性：　１）ＥｒｒｏｒＲａｔｅ（ｅ，，ｃｆ）＝０；　２）０　口　（ｃｆ，ｑ　１；　３）ＥｒｒｏｒＲａｔｅ（ｃ，　，　，）与ｇｒｒｏｒｇａｔｅ（ｑ，ｃｆ）不一定相等；　４）如果　（ｃ　３＝０，则针对所有ｊ＃ｉ￣ｒｒｏｒＲａｔｅ（ｃｆ，ｑ）＝０．　（１）　不失一般性，对于给定的任意一个类别子集　＝｛　ｆｌ，　跏…Ｃｉｍ｝　Ｃ，其中包含ｍ（－＜ｎｔ个类别，评价该类别子集　ＣＳｉ的混淆程度的混淆评价函数ＣｅＦ（ＣＳ３定义为　ＣＥＦ（ＣＳ　）＝　ＣｌｅＣＳＩ，，ＣｋｅＣＳｌ，ｆ≠　∑Ｅｒ』　ｒｏｒＲａｔｅ（ｃｔ，ｃ　＾　）　ｍ　实际上，采用全搜索的方式寻求所有混淆类的方法，由于计算复杂度过高，在实际应用中是不现实的．为此，　根据混淆类的第２个和第３个特性，为了找到具有整体闭环特性的混淆类，本文提出的基于ＣＥＤ的混淆类识别　算法描述如图１所示．　Ｉｎｐｕｔ：Ｔｈｅ　ｓｅｔ　ｏｆｃｌａｓｓｅｓ　Ｃ。一｛ｃｌ，Ｃ２，．．．，ｃ＾｝，Ｃｌａｓｓｉｉｆｃａｔｉｏｎ　Ｅｒｒｏｒ　Ｄｉｓｔｒｉｂｕｔｉｏｎ　Ｍａｔｒｉｘ　ＣＥＤＭ；　Ｔｈｅ　ｐｒｏｃｅｓｓ　ｏｆ　ｒｅｃｏｇｎｉｔｉｏｎ：　１）Ｔａｋｅ　ｃｌ　ａｓ　ｔｈｅ　ｓｅｅｄ　ｃａｔｅｇｏｒｙ，ｆｉｎｄ　ｃａｎｄｉｄａｔｅ　ｓｕｂｓｅｔ　Ｃ　ｔｈａｔ　ｈａｓ　ｔｈｅ　ｍａｘｉｍｕｍ　ｃｏｎｆｕｓｉｏｎ．Ｔｈｅ　ｃａｌｃｕｌａｔｉｎｇ　ｐｒｏｃｅｓｓ　ｉｓ　ａｓ　ｆｏｌｌｏｗｓ：　＝｛ｃｆ｝；　Ｆｏｒ　ｅａｃｈ　ｃｌａｓｓ　ＣＥＣＤｏ　＝ａｒｇｍａｘＣＥＦ（ＣＳ￣ｕ｛ｃ｝）；　ＩｆＣＥＦ（ＣＳＩｕ｛ｃ‘｝）＞ＣＥＦ（ＣＳＩ）Ｔｈｅｎ　ＣＳ＿ＣＳ￣ｕ｛ｃ‘｝　ｃ＊Ｅ１：ｌｓｅ　ＳＴＯＰ　Ｅ１：ｎｄｉｆ　Ｅｎｄ［ｆｏｒ　２）Ｉｎ　ｔｈｅ月ｃａｎｄｉｄａｔｅ　ｃｏｎｆｕｓｉｏｎ　ｓｕｂｃｌａｓｓｅｓ　ＣＳＳｅｔ＝｛ＣＳｌ，ＣＳ２，．．．，　｝，ｔｈｅ　ｃｒｉｔｅｒｉａ　ｃｏｎｄｉｔｉｏｎ　ｔｏ　ｄｅｔｅｒｍｉｎｅ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｃｓ＂ｉｓ：　ａ．　ＣＳ‘ＣＳＳｅｔ；　ｂ．　Ｆｏｒ　ａｌｌ　ｃｌａｓｓｅｓ　ｂｅｌｏｎｇｉｎｇ　ｔＯ　ＣＳ＊ｃ，ｅ　ＣＳ’ｔｈｅ　ｃａｎｄｉｄａｔｅ　ｃｏｎｆｕｓｉｏｎ　ｓｕｂｓｅｔ　ｍｕｓｔ　ｓａｔｉｓｆｙ：ＣＳ￣＝ＣＳ　．Ｔｈａｔ　ｉｓ，ｃｏｎｆｕｓｉｏｎ　．，ｃｌａｓｓ　ＣＳ　ｍｕｓｔ　ｓａｔｉｓｆｙ　ｃｏｍｐｌｅｔｅ　ｃｌｏｓｅｄ－４ｏｏｐ　ｃｈａｒａｃｔｅｒｉｓｔｉｃ．　Ｏｕｌ［ｐｕｔ：Ａｌｌ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓｅｓ　ｓｅｔ．　Ｆｉｇ．１　Ｄｅｓｃｒｉｐｔｉｏｎ　ｏｆ　ＣＥＤ．－ｂａｓｅｄ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｒｅｃｏｇｎｉｔｉｏｎ　ａｌｇｏｒｉｔｈｍ　图１　基于ＣＥＤ的混淆类识别算法描述　２基于判别能力的特征选取技术　２．１判别能力评价函数　分类器是根据文本内容分析，对每个候选类别赋予一个权重，并根据权重大小进行排序．在ＳＭＣ体系中，采　用直接等级排序法（ｄｉｒｅｃｔ　ｒａｎｋ　ｏｒｄｅｒｉｎｇ，简称ＤＲＯ）　进行排序．常用的方法是构建一个判别函数（ｄｉｓｃｒｉｍｉｎａｔｉｏｎ　ｆｕｎｃｔｉｏｎ）来实现类别排序过程．为了改善分类器的性能，较好的方法是增强分类器对类别的判别能力．为了达到　这个目的，本文重点研究了基于判别能力的特征选取方法，选择对类别具有较强判别能力的特征参与文本分类　过程．　维普资讯 http://www.cqvip.com ６３４　Ｊｏｕｒｎａｌ　ｏｆ　Ｓｏｆｔｗａｒｅ软件学报Ｖｏ１．１９，Ｎｏ．３，Ｍａｒｃｈ　２００８　基于判别能力的特征选取方法的关键技术在于寻求特征判别能力的评价函数【Ｈ】．本文将采用Ｋｕｌｌｂａｃｋ．　Ｌｅｉｂｌｅｒ距离来评价特征对类别的判别能力．Ｋｕｌｌｂａｃｋ．Ｌｅｉｂｌｅｒ距离经常被用于两个概率分布的距离计算，距离越　大表示越不相似．Ｋｕｌｌｂａｃｋ．Ｌｅｉｂｌｅｒ距离的定义如下㈣：　ＫＬ（　ｌｃＩ）ｌ０ｇ　（３）　考虑到Ｋｕｌｌｂａｃｋ．Ｌｅｉｂｌｅｒ距离的不对称性，本文采用对称型的Ｋｕｌｌｂａｃｋ．Ｌｅｉｂｌｅｒ距离来实现特征判别能力的　评价，定义为　Ｄｉｊ＝Ｄ（ｃｉ，ｃｊ）＝ＫＬ（ｃｉ，ｃｊ）＋ＫＬ（ｃｊ，Ｃｉ）　（４）　在特征选取过程中，在引入特征之间条件假设的前提下，式（４）可以定义为　（　）＝∑Ｄ／ｊ（　）　其中　表示特征集合，Ｄｄｘｋ）￣函数Ｄ　具有单调性，即　（　芒Ｘ，Ｘ２芒Ｘ）＾（　２．２基于判别能力的特征选取　Ｄ　ｘ２）ｊＤ　（　ｕ　）　Ｄｑ（Ｘｕｘ２）　（５）　ｋ个特征ＸｋｅＸ的对类别ｃ　和ｃｊ的判别能力．从式（５）可以看出，特征判别能力　（６）　本文采用基于判别能力的特征选取技术进行特征选取，去掉一些判别能力较差的特征，不仅为了实现特征　降维的目的，而且力求增强分类器对混淆类的判别能力．　不失一般性，特征选取过程假设ｙ为原始特征集合．为了获取包含ｄ个特征的最佳子集坝　ｙ），首先需要定　义一个特征选取评价函数　ｘ）．评价函数的　值越大，表示该特征子集越好．因此，包含ｄ个特征的最佳特征子集　（Ｃｙ）可以采用如下公式进行构建【７】＿　（　’）＝　ｍａｘＥｒ．　ｌ，ｒｌ＝ａ　．（　）　（７）　但是，该方法需要非常耗时的搜索过程，甚至会造成组合爆炸现象【　．在实际应用中，即使是用很少的特征，　也是不现实的．所以，在实际特征选取过程中常常会引入特征条件假设，避免疯狂搜索过程【Ｈ】．　在本文的特征选取过程中采用式（５）来实现特征判别能力评价，代替式（７）中的评价函数　但是从式（５）可以　看出，该评价函数只能评价特征的局部判别能力．为了能够评价特征的全局判别能力，假设总共有　个类别，本文　采用了如下３种方法：　１）　最大法（ｍａｘ）．基本思想是：针对每个特征　，对所有类别采用式（５）评价该特征的判别能力，选择最大的　评价值作为该特征的全局判别能力．特征　的全局判别能力的评价方法是　Ｄｍ　ｉｘ）＝ａｒｇｍａｘＤ“（　１ｓｆ。　。ｆ≠』　（８）　２）　平均法（ａｖｅｒａｇｅ）．基本思想是：针对每个特征　，对所有类别采用式（５）评价该特征的判别能力，选择平　均评价值作为该特征的全局判别能力．特征　的全局判别能力的评价方法是　（　）　南　（　）　的评价方法是　（９）　３）　最小法（ｍｉｎ）．基本思想是：针对每个特征　，对所有类别采用式（５）评价该特征的判别能力，选择最小的　评价值作为该特征的全局判别能力，然后参与到从大到小的特征排序过程中．特征　的全局判别能力　Ｄｍｉｎｉｘ）＝ａｒｇｍｉｎ　ｉｘ）　（１０）　３两个阶段的分类器设计　为了实现对混淆类的有效判别，改善分类性能的目的，本文采用基于两个阶段的分类器设计框架．在该框架　中，可以有效地集成多个不同的分类器．所谓不同的分类器，可能采用不同的分类模型，也可能针对的类别体系　维普资讯 http://www.cqvip.com 朱靖波等：面向文本分类的混淆类判别技术　６３５　不同，如针对不同的混淆类．从混淆类识别过程可以发现，一个复杂的预定义类别体系中有可能存在多个不相交　的混合类集合．在分类过程中，一个混合类集合的判别需要构建专门的分类器，并集成到基于两个阶段的分类器　框架中，纠正第１阶段的分类错误，最终改善整体分类性能，在该框架中，本文称第１阶段的分类器为初始分类器　ｆｂａｓｅｌｉｎｅ　ｃｌａｓｓｉｆｉｅｒ），第２阶段的分类器根据存在的混淆类进行构建，因而称为混淆类分类器（ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｃｌａｓｓｉｉｆｅｒ）．　在本文提出的基于两个阶段的分类器设计框架中，首先并非所有类别之间都可能存在混淆关系，相对来说，　在给定的预定义类别体系中，不同混淆类集合的个数不会太多．并且，只有当候选类别排序中首位的类别属于混　淆类别时（看作默认激活条件），才会激活第２阶段的分类器．基于两个阶段的分类器设计主要分为３步：第１阶段，　采用多项式朴素贝叶斯模型ｌ　ｌ构建初始分类器（朴素贝叶斯模型有两种，多项式模型（ｍｕｌｔｉｎｏｍｉａｌ　ｍｏｄｅ１）和多变　量伯努利模型（ｍｕｌｔｉ．ｖａｒｉａｔｅ　Ｂｅｒｎｏｕｌｌｉ　ｍｏｄｅ１），根据ＭｃＣａｌｌｕｍ等人的实验结　们，多项式模型的分类性能优于多　变量伯努利模型，因此，本文采用多项式朴素贝叶斯模型来构建分类器）．第２阶段，如果当前预定义的类别体系　中存在ｋ个混淆类集合ＣＳＳｅｔ－＝｛ＣＳ１，ＣＳ２…，，ＣＳｋ｝￣Ｊ首先针对每一个混淆类，利用所包含类别的训练语料，类似第　１阶段初始分类器的构建过程，构建一个相应的混淆类贝叶斯分类器，因此可以得到ｋ个混淆类分类器；如　果不存在混淆类，第２阶段就可以跳过不执行．第３阶段，将前两个阶段的分类结果集成．　４实验分析　在本文的比较实验设计中，两个公开标准语料被用于评测和比较分析本文提出的方法，分别为Ｎｅｗｓｇｒｏｕｐ　语　“】和８６３中文评测语料【　】．　１）Ｎｅｗｓｇｒｏｕｐ语料．Ｎｅｗｓｇｒｏｕｐ语料大约包含２Ｏ　０００个新闻文本，约平均分为２Ｏ个不同的类别．在语料文本　预处理过程中去掉ＵｓｅＮｅｔ　Ｈｅａｄｅｒｓ、禁用词和在数据集中只出现过一次的词汇，整个预处理过程采用ＭｃＣａｌｌｕｍ　等人开发的Ｒａｉｎｂｏｗ工具（可以从ｈｔｔｐ：／／ｗｗｗ．ＣＳ．ｃｍｕ．ｅｄｕ／￣ｍｃｃａｌｌｕｍ／ｂｏｗ／ｒａｉｎｂｏｗ／－Ｆ载ＭｃＣａｌｌｕｍ的Ｒａｉｎｂｏｗ工　具［１７　）完成．ＭｃＣａｌｈｔｍ等人的研究工作显示，Ｓｔｅｍｍｉｎｇ的处理可能有损于分类性能［６】，因此，语料预处理不采用　Ｓｔｅｍｍｉｎｇ选项．经过语料预处理后，剩余的词汇个数为６２　２６４．　２）８６３中文评测语料．该语料来源于２００４年国家８６３中文文本分类评测的语料，其中，采用中图法构建分类　体系，共３６类（原始８６３评测语料的预定义类别体系共包括３８类，在本文实验中，去掉了Ｔ（ｍ业技术）和ｚ（综合　性图书）两类，主要原因在于这两类的训练数据构建标准存在一定的争议），每类包含１００篇中文文本．在语料预　处理过程中，分词工具采用东北大学自然语言处理实验室开发的分词工具ＮＥＵＣＳＰ（该工具可以从　ｈｔｔｐ：／／ｗｗｗ．ｎｌｐｌａｂ．ｃｏｍ／ｄｏｗｎｌｏａｄ／ＣＩＰ／ｎｅｕｃｓｐ．ｚｉｐ下载），去掉禁用词和仅在语料中出现过１次的词汇后，剩下的词　汇个数为５３　４０７．　在分类实验过程中，采用５次交叉检验的方法，８０％语料作为训练语料，剩下的２０％语料作为测试语料，将５　次交叉检验的分类性能指标取平均值作为最后分类性能评价．实验中，贝叶斯分类器的构建和分类性能评价都　采用Ｒａｉｎｂｏｗ工具完成，其中采用正确度（ａｃｃｕｒａｃｙ）作为分类性能评价方法．　实验１．混淆类的识别实验结果．　本实验采用基于分类错误分布的混淆类识别技术（如图１所示），自动识别Ｎｅｗｓｇｒｏｕｐ语料和８６３评测语料　中存在的混淆类，并将用于后续实验中．混淆类识别结果见表１和表２．　Ｔａｂｌｅ　１　Ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓｅｓ　ｉｎ　Ｎｅｗｓｇｒｏｕｐ　表１　Ｎｅｗｓｇｒｏｕｐ语料的混淆类　Ｔｈｅ　ｓｅｔ　ｏｆｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓｅｓ（ｉｎｃｌｕｄｉｎｇ　ｓｉｘ　ｃｌａｓｓｅｓ　ｃｏｍｐ．ｇｒａｐｈｉｃｓ　ｃｏｍｐ．ｏｓ．ｍｓ・ｗｉｎｄｏｗｓ．ｍｉｓｃ　ｃｏｍｐ．ｓｙｓ．ｍａｃ．ｈａｒｄｗａｒｅ　ｃｏｍｌ９．ＳＶＳ．ｉｂｍ．ｐｃ．ｈａｒｄｗａｒｅ　ｃｏｍｌ￣．ｗｉｎｄｏＷＳ．Ｘ　ｍｔ。ｓｃ．ｆｏｒｓａｌｅ　Ｔａｂｌｅ　２　Ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓｅｓ　ｉｎ　８６３　Ｃｈｉｎｅｓｅ　ｅｖａｌｕａｔｉｏｎ　ｃｏｒｐｕｓ　表２　８６３中文评测语料的混淆类　！　！　！！　！！！　！ｕ＿　！璺！！　壁（　！！　坠ｇ　！！　！　２　ＴＢ　ＴＧ　ＴＨ　ＴＪ　ＴＫ　ＴＬ　ＴＭ　ＴＮ　ＴＰ　维普资讯 http://www.cqvip.com ６３６　Ｊｏｕｒｎａｌ　ｏｆ　Ｓｏｆｔｗａｒｅ软件学报Ｖｏ１．１９，Ｎｏ．３，Ｍａｒｃｈ　２００８　实验２：基于判别能力的混淆类分类实验．　在此分类实验中，基于多项式贝叶斯模型构建分类器，分别采用３种基于判别能力的特征选取方法，包括最　大法（ｍａｘ）、平均法（ａｖｅｒａｇｅ）和最小法（ｍｉｎ）．针对Ｎｅｗｓｇｒｏｕｐ语料和８６３评测语料中的混淆类，通过分类实验来　比较分析３种基于判别能力的特征选取技术对混淆类判别的性能．　从图２和图３的实验结果可以看出，最小法明显比最大法和平均法的性能要差，主要原因在于，如果某一特　征对某一特定的类别对的判别能力很弱，那么，即使它对其他类别对的判别能力较强，也无法作为重要特征被选　择使用．因而在特征数目少的时候，可能会造成重要特征的丢失．　言’　８０　§　７０　一　８　：　６０　皇　５０　，　曙　８　毫　４０　。　一Ａｖ　ｅｒ垮　时Ｊｎ　时岛０一　ＩＪｌ∞∞Ｂ１Ｕ　Ｍ百　３０　３０　一一Ｍｉｎ　１０　１００　１０００　１００００　１０　１００　１０００　１００００　Ｖｏｃａｂｕｌａｒｙ　ｓｉｚｅ　Ｖｏｃａｂｕｌａｒｙ　ｓｉｚｅ　Ｆｉｇ．２　Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｏｆ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　Ｆｉｇ．３　Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｏｆ　ｃｏｎｆｕｓｉｏｎ　ｃｌａｓｓ　ｄｉｓｃｒｉｍｉｎａｔｉｏｎ　ｏｎ　Ｎｅｗｓｇｒｏｕｐ　ｄｉｓｃｒｉｍｉｎａｔｉｏｎ　ｏｎ　８６３　ｅｖａｌｕａｔｉｏｎ　ｃｏｒｐｕｓ　图２　Ｎｅｗｓｇｒｏｕｐ的混淆类判别结果　图３　８６３评测语料的混淆类判别结果　从最大法和平均法的比较分析中发现一个非常有趣的现象．在Ｙａｎｇ的论文［９Ｉ中显示，基于最大法的ＣＨＩ统　计和互信息方法性能优于基于平均法．对于本文提出的基于判别能力的特征选取方法，同样为了考虑全局特征　选取性能，采用了３种方法：最大法、平均法和最小法．但从图２可以看出，在Ｎｅｗｓｇｒｏｕｐ语料的混淆类判别中，　平均法的性能稍优于最大法．而在图３的实验结果中，最大法和平均法的性能曲线相互交错．本文采用ｔ．检验方　法，在给定显著水平　５％的前提下，最大法和平均法的性能没有显著差异．由此可以得出，在８６３评测语料的混　淆类判别中，最大法和平均法的特征选取方法可以看作具有相同的性能，性能曲线相互交错的原因可以理解为　是由于在交叉检验中采用语料本身差异所造成的．基于图２和图３的实验结果综合分析，在下面的分类实验中　将采用平均法来实现基于判别能力的特征选取方法，用于混淆类分类器的实现中．　实验３：基于两个阶段的分类实验．　在本实验中，第ｌ阶段的初始分类器采用多项式贝叶斯模型构建，特征选取分别采用４种比较常用的技术：　信息增益、文档频率、ＣＨＩ统计、互信息…．第２阶段的混淆类分类器同样采用多项式贝叶斯模型构建，其中，　基于判别能力的特征选取方法采用平均法．　其中，第２阶段混淆类分类器的激活条件（简称默认激活条件）是：判断第ｌ阶段初始分类器的分类结果（排　序第ｌ位的类别标注，ｔｏｐ１）是否属于混淆类，如果是，则激活第２阶段的混淆类分类器进行重新分类判别，否则，　作为最后分类结果输出．　从图４和图５的实验结果可以看出，４种特征选取方法针对基于贝叶斯模型的初始分类器（ｏｎｅ．ｓｔａｇｅ）来说．　最佳是信息增益ＩＧ，其次是ＣＨＩ统计和文档频率ＤＦ，最后是互信息ＭＩ．其中，互信息比其他３种方法的性能差很　多，信息增益稍优于ＣＨＩ统计．该结论同样体现在两个阶段的分类器实验结果中，即ｔｗｏ．ｓａｔｇｅ．ｉｇ＞ｔｗｏ．ｓｔａｇｅ．ｃｈｉ　＞ｔｗｏ－ｓｔａｇｅ・ｄｆ＞ｔｗｏ－ｓｔａｇｅ．ｍｉ．也就是说，ｔｗｏ．ｓｔａｇｅ分类器的性能好坏也与ｏｎｅ．ｓｔａｇｅ的初始分类器的性能密切相　关．从ｔｗｏ－ｓｔａｇｅ分类器与ｏｎｅ－ｓｔａｇｅ初始分类器进行比较分析可以发现，针对给定的初始分类器来说，混淆类分　…为了获得ＣＨＩ统计和互信息特征选取的全局性能，Ｙａｎｇ的实验结果显示，采用基于最大法的ＣＨＩ统计和互信息性能优于基　于平均法的方法，因此，在本文实验中将采用基于最大法的ＣＨＩ统计和互信息实现全局特征选取方法，详细内容参见Ｙａｎｇ的论文［９１．　维普资讯 http://www.cqvip.com

维普资讯 http://www.cqvip.com

６３８　冀．Ｉ　００对ｌ１０一＿对０　Ｉｓ叽对　『、　Ｊｏｕｒｎａｌ　ｏｆ　Ｓｏｆｔｗａｒｅ软件学报Ｖｏ１．１９，Ｎｏ．３，Ｍａｒｃｈ　２００８　将比较分析扩展后的激活条件对分类性能的影响．从实验３可以得出，在Ｎｅｗｓｇｒ０ｕｐ和８６３评测语料的分类实　验中，初始分类器采用基于信息增益的特征选取方法分类性能最佳，因此，在比较实验中采用信息增益作为初始　分类器的特征选取方法．在图６和图７中，ｔｏｐｌ表示默认激活条件，ｔｏｐ２表示激活条件考虑前两个候选类别是否　属于混淆类，ｔｏｐ３表示激活条件考虑前３个候选类别是否属于混淆类．　分　耋　釜　暑　号　童　６　１０　１００　１０００　１００００　１０００００　Ｖｏｃａｂｕｌａｒｙ　ｓｉｚｅ　量　Ｖｏｃａｂｕｌａｒｙ　ｓｉｚｅ　Ｆｉｇ．６　Ｅｘｐｅｒｉｍｅｎｔｓ　ｏｆ　ｃｌａｓｓｉｉｃａｔｉｆｏｎ　ｕｓｉｎｇ　ｄｉｆｅｒｅｎｔ　ａｃｔｉｖａｔｉｏｎ　ｃｏｎｄｉｔｉｏｎｓ　ｏｎ　Ｎｅｗｓｇｒｏｕｐ　ｃｏｒｐｕｓ　Ｆｉｇ．７　Ｅｘｐｅｒｉｍｅｎｔｓ　ｏｆ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｕｓｉｎｇ　ｄｉｆｅｒｅｎｔ　ａｃｔｉｖａｔｉｏｎ　ｃｏｎｄｉｔｉｏｎｓ　ｏｎ　８６３　Ｃｈｉｎｅｓｅ　ｅｖａｌｕａｔｉｏｎ　ｃｏｒｐｕｓ　图６在Ｎｅｗｓｇｒｏｕｐ语料上的不同　图７在８６３中文评测语料上的不同　激活条件的分类实验　激活条件的分类实验　从图６和图７的分类实验结果可以看出，默认激活条件ｔｏｐ１性能略于ｔｏｐ２和ｔｏｐ３．前文提到，实际上，多类　别之间的混淆关系属于单向关系．在ｔｏｐｎ（ｎ＞１）的激活条件中，由于同时考虑前ｎ个类别是否属于混淆类，因此很　多由于类别混淆关系造成分类错误的测试文本不能被第２阶段的混淆类分类器重新分类．本文提出的方法主　要针对单标签、多类分类器研究混淆类判别技术．根据混淆类的特性１），在进行混淆类识别中，只是基于ＳＭＣ体　系的分类器的分类错误分布．由于在ＳＭＣ体系中只考虑第１个候选类别作为输出，并没有考虑第　（＞１）个类别　的分类错误分布．因此，造成ｔｏｐｎ　＞１）的激活条件在ＳＭＣ体系下的基于两阶段的分类器中效果不如默认激活　条件（如果在非ＳＭＣ体系中，则该结论可能有所不同，这将在下一步研究工作中加以验证）．　５结束语　目前＇ｊ艮多研究工作从分类模型选择、特征降维技术和训练语料构建方法等方面来改善分类器的性能，取　得了很好的效果．本文主要通过分析文本分类中存在的混淆类现象，深入研究了混淆类的判别技术，改善了文本　分类性能．其中，首先分析了混淆类的一些特性，并提出了一种基于分类错误分布的混淆类识别技术，识别预定　义类别中的混淆类集合．为了有效地判别混淆类，提出了一种基于判别能力的特征选取技术，通过评价某一特征　对类别之间的判别能力来特征选取，实现特征降维目的．最后，通过基于两阶段的分类器设计框架，将初始分类　器和混淆类分类器进行集成，组合两个阶段的分类结果作为最后输出．实验结果显示，在Ｎｅｗｓｇｒｏｕｐ和８６３中文　评测语料上，针对单标签多类分类器体系，本文提出的技术有效地改善了分类性能．实际应用中，单个文档可能　属于多个类别，即多标签多类分类器（ｍｕｌｔｉ．１ａｂｅｌ　ａｎｄｍｕｌｔｉ．ｃｌａｓｓ　ｃｌａｓｓｉｉｆｅｒ，简称ＭＭＣ）．在下一步研究工作中，将针　对ＭＭＣ开展混淆类识别和构建两个阶段分类器设计框架的研究．由于多标签的特性，会造成不同混淆类之间　存在交集，并且本文提出的混淆类特性３）和特性４）也可能需要进行修正，这将是一个研究难点，也是值得进一步　探讨的地方．　致谢在本文的研究工作中，感谢Ｐｒｏｆ．Ｋｅｈ．Ｙｉｈ　Ｓｕ关于基于判别能力的特征选取技术的有价值的讨论，同时感　谢实验室的陈晴、王振兴和王安慧同学对混淆类识别算法优化的一些建议．　维普资讯 http://www.cqvip.com

朱靖波等：面向文本分类的混淆类判别技术　６３９　Ｒｅｆｅｒｅｎｃｅｓ：　［１】Ｓｅｂａｓｔｉａｎｉ　Ｆ．Ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ　ｉｎ　ａｕｔｏｍａｔｅｄ　ｔｅｘｔ　ｃａｔｅｇｏｒｉｚａｔｉｏｎ．ＡＣＭ　Ｃｏｍｐｕｔｉｎｇ　Ｓｕｒｖｅｙｓ，２００２，３４（１）：ｌ＿４７，　［２】Ｌｅｗｉｓ　Ｄ，Ｓｃｈａｐｉｒｅ　Ｒ，Ｃａｌｌａｎ　Ｊ，Ｐａｐｋａ　Ｒ．Ｔｒａｉｎｉｎｇ　ａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　ｌｉｎｅａｒ　ｔｅｘｔ　ｃｌａｓｓｉｉｆｅｒｓ，Ｉｎ：Ｐｒｏｃ．ｏｆｔｈｅ　ＡＣＭ　ＳＩＧＩＲ．１９９６．２９８—３０６　ｈｔｔｐ：／／ｃｉｉｒ．ｃｓ，ｕｍａｓｓ．ｅｄｕ／ｐｕｂｆｉｌｅｓ／ｃａｌｌａｎｓｉｇｉｒ９６ｂ．ｐｓ，ｇｚ　［３】　Ｊｏａｃｈｉｍｓ　Ｔ，Ｔｅｘｔ　ｃａｔｅｇｏｒｉｚａｔｉｏｎ　ｗｉｔｈ　ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅｓ：Ｌｅａｒｎｉｎｇ　ｗｉｔｈ　ｍａｎｙ　ｒｅｌｅｖａｎｔ　ｆｅａｔｕｒｅｓ．Ｉｎ：Ｐｒｏｃ．ｏｆ　ｔｈｅ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ：ＥＣＭＬ’９８，１０ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆ．ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ．１９９８．１３７—１４２，ｈｔｔｐ：／／ｗｗｗ．ｃｓ，ｃｏｍｅｌ１．ｅｄｕ／Ｐｅｏｐｌｅ／ｔｊ／ｒＩｕｂｌｉｃａｔｉｏｎｓ／　ｊｏａｃｈｉｍｓ—．９８ａ．ｐｄｆ　［４】Ｌｅｗｉｓ　Ｄ．Ａ　ｃｏｍｐａｒｉｓｏｎ　ｏｆ　ｔｗｏ　ｌｅａｒｎｉｎｇ　ａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　ｔｅｘｔ　ｃａｔｅｇｏｒｉｚａｔｉｏｎ．Ｉｎ：Ｐｒｏｃ．ｏｆ　Ｓｙｍｐ．ｏｎ　Ｄｏｃｕｍｅｎｔ　Ａｎａｌｙｓｉｓ　ａｎｄ　ＩＲ．１９９４．　ｈｔｔｐ：／／ｗｗｗ．ｃｓ．ｃｍｕ．ｅｄｕ／－．ａｒｍｒ／ｐａｐｅｒｓ／ｃａｔｅｇ．ｐｓ　［５】　Ｎｉｇａｍ　Ｋ，Ｌａｆｆｅｒｔｙ　Ｊ，ＭｃＣａｌｌｕｍ　Ａ．Ｕｓｉｎｇ　ｍａｘｉｍｕｍ　ｅｎｔｒｏｐｙ　ｆｏｒ　ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ，Ｉｎ：Ｐｒｏｃ．ｏｆ　ｔｈｅ　ＩＪＣＡＩ’９９　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ　ｏｒ　ｆＩｎｆｏｒｍａｔｉｏｎ　Ｆｉｌｔｅｒｉｎｇ．１９９９，６１—６７．ｈｔｔｐ：／／ｗｗｗ，ｃｓ．ｕｍａｓｓ，ｅｄｕ／～ｍｃｃａｌｌｍｎ／ｐａｐｅｒｓ／ｍａｘｅｎｔ・ｉｊｃａｉｗｓ９９．ｐｓ　［６】　ＭｃＣａｌｌｕｍ　Ａ，Ｎｉｇａｍ　Ｋ．Ａ　ｃｏｍｐａｒｉｓｏｎ　ｏｆ　ｅｖｅｎｔ　ｍｏｄｅｌｓ　ｆｏｒ　ｎａｉｖｅ　Ｂａｙｅｓ　ｔｅｘｔ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ．Ｉｎ：Ｐｒｏｃ，ｏｆ　ｔｈｅ　ＡＡＡＩ’９８　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｌｅａｒｎｉｎｇ　ｏｒ　ｆＴｅｘｔ　Ｃａｔｅｇｏｒｉｚａｔｉｏｎ．１９９８．ｈｔｔｐ：／／ｗｗｗ．ｓｃｉｌｓ．ｒｕｔｇｅｒｓ．ｅｄｕ／＂ａ＇ｎｕｒｅｓａｎ／ＩＲ／Ｄｏｃｓ／Ａｒｔｉｃｌｅｓ／ａａａｉＭｃＣａｌｌｕｍ１９９８．ｐｓ　［７】　Ｊａｉｎ　ＡＫ，Ｚｏｎｇｋｅｒ　Ｄ，Ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ：Ｅｖａｌｕａｔｉｏｎ，ａｐｐｌｉｃａｔｉｏｎ，ａｎｄ　ｓｍａｌｌ　ｓａｍｐｌｅ　ｐｅｒｆｏｒｍａｎｃｅ．ＩＥＥＥ　Ｔｒａｎｓ．ｏｎ　Ｐａｔｔｅｒｎ　Ａｎａｌｙｓｉｓ　ｎｄ　ａＭａｃｈｉｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，１９９７，ｌ９（２）：１５３－１５８．　［８】　Ｚｈｕ　ＭＨ，Ｚｈｕ　ＪＢ，Ｃｈｅｎ　ＷＬ．Ｅｆｆｅｃｔ　ａｎａｌｙｓｉｓ　ｏｆ　ｄｉｍｅｎｓｉｏｎ　ｒｅｄｕｃｔｉｏｎ　ｏｎ　ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅｓ，Ｉｎ：Ｐｒｏｃ．ｏｆ　ｔｈｅ　ＩＥＥＥ　Ｉｎｔ’１　Ｃｏｎｆ．　ｏｎ　Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ　ｎｄ　ａＫｎｏｗｌｅｄｇｅ　Ｅｎｇｉｎｅｅｒｉｎｇ．２００５．ｈｔｔｐ：／／ｗｗｗ．ｎｌｐｌａｂ．ｃｎ／ｃｈｉｎｅｓｅ／ｌｕｎｗｅｎ，ｈｔｍ　［９】　Ｙａｎｇ　ＹＭ，Ｐｅｄｅｒｓｅｎ　ＪＯ．Ａ　ｃｏｍｐａｒａｔｉｖｅ　ｓｔｕｄｙ　ｏｎ　ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ　ｉｎ　ｔｅｘｔ　ｃａｔｅｇｏｒｉｚａｔｉｏｎ．Ｉｎ：Ｐｒｏｃ，ｏｆ　ｔｈｅ　１４ｔｈ　Ｉｎｔ’１　Ｃｏｎｆ．ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ（ＩＣＭＬ’９７）．１９９７．４ｌ２—４２０．ｈｔｔｐ：／／ｗｗｗ．ｈｐ１．ｈｐ．ｃｏｍ／ｐｅｒｓｏｎａｌ／Ｃａｒｌ—Ｓｔａｅｌｉｎ／ｃｓ２３６６０１／ｙａｎｇ１９９７．ｐｓ．ｇｚ　［１０】Ｊａｉｎ　ＡＫ，Ｄｕｉｎ　ＲＰＷ，Ｍａｏ　ＪＣ．Ｓｔａｔｉｓｔｉｃａｌ　ｐａｔｔｅｒｎ　ｒｅｃｏｇｎｉｔｉｏｎ：Ａ　ｒｅｖｉｅｗ．ＩＥＥＥ　Ｔｒａｎｓ．ｏｎ　Ｐａｔｔｅｒｎ　Ａｎａｌｙｓｉｓ　ｎｄ　Ｍａｃｈｉａｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，　２０００，２２（１）：４—３７．　［１　１】Ｊｏａｃｈｉｍｓ　Ｔ．Ａ　ｐｒｏｂａｂｉｌｉｓｔｉｃ　ｎａｌａｙｓｉｓ　ｏｆ　ｔｈｅ　Ｒｏｃｃｈｉｏ　ａｌｇｏｒｉｔｈｍ　ｗｉｔｈ　ＴＦＩＤＦ　ｆｏｒ　ｔｅｘｔ　ｃａｔｅｇｏｒｉｚａｔｉｏｎ．Ｉｎ：Ｐｒｏｃ，ｏｆ　ｔｈｅ　ＩＣＭＬ’９７．１９９７．　ｈｔｔｐ：／／ｗｗｗ．ｃｓ．ｃｏｒｎｅｌ１．ｅｄｕ／Ｐｅｏｐｌｅ／ｔｊ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｊｏａｃｈｉｍｓ＿９７ａ．ｐｄｆ　［１２】　Ａｇｇａｒｗａｌ　ＣＣ，Ｇａｔｅｓ　ＳＣ，Ｙｕ　ＰＳ．Ｏｎ　ｕｓｉｎｇ　ｐａｒｔｉａｌ　ｓｕｐｅｒｖｉｓｉｏｎ　ｆｏｒ　ｔｅｘｔ　ｃａｔｅｇｏｒｉｚａｔｉｏｎ．ＩＥＥＥ　Ｔｒｎｓ，ｏｎ　Ｋｎｏｗｌａｅｄｇｅ　ａｎｄ　Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ，２００４，１６（２）：２４５－２５５．　［１３】　Ｓｕ　ＫＹ，Ｌｅｅ　ＣＨ．Ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　ｕｓｉｎｇ　ｗｅｉｇｈｔｅｄ　ＨＭＭ　ａｎｄ　ｓｕｂｓｐａｃｅ　ｐｒｏｊｅｃｔｉｏｎ　ａｐｐｒｏａｃｈ．ＩＥＥＥ　Ｔｒａｎｓ．ｏｎ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｐｒｏｃｅｓｓｉｎｇ，１９９４，２（１）：６９－７９．　［１４】　Ｂｒｅｓｓｎ　Ｍ，Ｖｉａｒｔｉａ　Ｊ，Ｏｎ　ｔｈｅ　ｓｅｌｅｃｔｉｏｎ　ａｎｄ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ｏｆ　ｉｎｄｅｐｅｎｄｅｎｔ　ｆｅａｔｒｅｓ．ＩＥＥＥ　Ｔｒａｕｎｓ，ｏｎ　Ｐａｔｔｅｒｎ　Ａｎａｌｙｓｉｓ　ａｎｄ　Ｍａｃｈｉｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，２００３，２５（１０）：１３１２—１３１７．　［１５】Ｔｏｌ　ＪＴ，Ｇｏｎｚａｌｅｚ　ＲＣ．Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｐｒｉｎｃｉｐｌｅｓ．Ａｄｄｉｓｏｎ・Ｗｅｓｌｅｙ　Ｐｕｂｌｉｓｈｉｎｇ　Ｃｏｍｐａｎｙ，１９７４．　［１６】Ｃｈｅｎ　ＷＬ．Ｒｅｓｅａｒｃｈ　ｏｎ　ｔｅｘｔ　ｆｅａｔｕｒｅ　ｌｅａｒｎｉｎｇ　ｆｏｒ　ｔｅｘｔ　ｃａｔｅｇｏｒｉｚａｔｉｏｎ［Ｐｈ．Ｄ．Ｔｈｅｓｉｓ］．Ｓｈｅｎｙａｎｇ：Ｎｏｒｔｈｅａｓｔｅｒｎ　Ｕｎｉｖｅｒｓｉｔｙ，２００５（ｉｎ　Ｃｈｉｎｅｓｅ　ｗｉｔｈ　Ｅｎｇｌｉｓｈ　ａｂｓｔｒａｃｔ）．　［１７】ＭｃＣａｌｌｕｍ　Ａ，Ｋａｃｈｉｔｅｓ　Ａ．Ｂｏｗ：Ａ　ｔｏｏｌｋｉｔ　ｆｏｒ　ｓｔａｔｉｓｔｉｃａｌ　ｌｎｇｕａｇｅ　ｍｏｄｅｌａｉｎｇ，ｔｅｘｔ　ｒｅｔｒｉｅｖａｌ，ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ａｎｄ　ｃｌｕｓｔｅｒｉｎｇ．１９９６．　ｈｔｔｐ：／／ｗｗｗ．ｃｓ．ｃｍｕ．ｅｄｕ／－ｍｃｃａｌｌｕｍ／ｂｏｗ　附中文参考文献：　［１６】陈文亮．面向文本分类的文本特征学习技术研究［博士学位论文】．沈阳：东北大学，２００５　朱靖波（１９７３－－），男，浙江金华人，博士，教　授，ＣＣＦ高级会员，主要研究领域为自然语　言处理．　王会珍（１９８０一），女，博士生，助教，ＣＣＦ学　生会员，主要研究领域为自然语言处理，　■　张为希自然娟（语１９言８４处一理），女．　，硕士生，主要研究领域　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文