您好,欢迎来到五一七教育网。
搜索
您的当前位置:首页实验一 文本分类模型

实验一 文本分类模型

来源:五一七教育网


《自然语言处理》课程实验报告

实验名称 姓 名 实验类型 综合型 文本分类模型 系院专业 实验日期 班 级 指导教师 实验序号 学 号 成 绩 1 一、实验目的  理解什么是文本分类以及应用场景 Text Classification is an automated process of classification of text into predefined categories. We can classify Emails into spam or non-spam, news articles into different categories like Politics, Stock Market, Sports, etc.  了解文本预处理的相关知识并运用工具进行文本预处理的操作 Data pre-processing is an important step in any data mining process. This basically involves transforming raw data into an understandable format for NLP models. Real-world data is often incomplete, inconsistent, and/or lacking in certain behaviors or trends, and is likely to contain many errors. Data pre-processing is a proven method of resolving such issues. This will help in getting better results through the classification algorithms.  实现一个贝叶斯分类器 Implement a Naive Bayes Classifier Algorithm  实现一个逻辑回归分类器 Implement a logistic regression classifier  实现一个SVM分类器 Implement an SVM classifier 二、实验内容与要求 对相同的数据集构造三种不同的文本分类器(Naive Bayes Classifier,logistic regression classifier,SVM classifier),实现文本二分类/多分类任务。 三、实验设备 硬件环境:Intel(R)Core(TM)******************** 1.20 GHz 软件环境:jupyter 四、使用的数据集以及数据集的详细描述 名称 fetch_20newsgroup 大小 2.9MB 训练集大小 1.8MB 测试集大小 1.1MB 结构 一个新闻对应一个标签 标签 4 下载地址 https://pan.baidu.com/s/1_0DAqRd

E282mw9zX_j_ZzQ fetch_20newsgroup 14MB 9MB 5MB 一个新闻对应一个标签 20 五、资源以及参考文献列表(对你有帮助的人的名字,也可以列出来) 1、(114条消息) sklearn.datasets.fetch_20newsgroups的下载速度极慢采用离线下载导入_寸草心2130的博客-CSDN博客 2、(115条消息) 【Python】向量空间模型:TF-IDF实例实现(set.union())_tf*idf框架构造向量空间模型_Vivid-victory的博客-CSDN博客 3、(115条消息) 文本分类(朴素贝叶斯分类)介绍_朴素贝叶斯文本分类_卖山楂啦prss的博客-CSDN博客 4、(115条消息) 文本分类的14种算法_datayx的博客-CSDN博客 5、(115条消息) 14种分类算法进行文本分类实战_文本分类算法_txhy2018的博客-CSDN博客 请教过的人:陈浩然、王越 六、实验步骤 1.加载并处理数据集 共有20个新闻类别 截取4个新闻类别训练与20个类别训练比较训练结果 其中4类别训练集数据有2303条,测试集有1533条 20类别训练集数据有11314条,测试集有7532条 2.提取特征 TFIDF及词频统计

3.模型训练及评估

模型的评估一般使用PRF(精确率,召回率,F1值)和Acc值(准确值)来评估,使用metrics.classification_report方法可以轻松获取这些信息,同时可以使用这个方法可以比较两个target的差异 七、实验结果与分析 1.测试数据及结果(运行结果截图)

2.对结果的分析(模型的性能,对比,与预期效果的比较)

由结果发现随着数据集的增大,准确率都有所下降,有可能在数据量较少、且样本分布不均衡的情况下,数据集扩大使得样本标签更加均衡后,分类难度增加,可能会导致模型性能下降 2.实验中遇到的问题及解决办法 因为数据集的网站拒绝了访问,所以数据集我只能先下再进行更改读取; 对多项式朴素贝叶斯模型、补充朴素贝叶斯模型、伯努利朴素贝叶斯模型等等并不熟悉,只能通过查阅资料了解。

4.实验中尚未解决的问题及不足 没有彻底理解为什么模型的准确率会因为数据集的增大而下降; 对python的编写代码能力不足,需要更多的实践。 对模型的结构不熟悉。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- 517ttc.cn 版权所有 赣ICP备2024042791号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务