作业1:构建和评价商业文本多分类器
一、实验目标
- 掌握文本挖掘中语料的获取与预处理方法。
- 熟练使用不同算法构建和优化文本多分类模型。
- 学习如何科学地评估和比较多分类模型的性能。
二、实验内容与步骤
步骤1:语料获取
- 自行在公开渠道(如Github)寻找与商业相关的中文公开语料,适用于文本多分类任务。
- 在Jupyter Notebook中明确说明语料来源(附链接)及其具体用途。
步骤2:数据预处理
- 参考课堂提供的代码,对所选语料进行预处理(中文分词、去停用词、文本清洗等)。
- 在Jupyter Notebook中说明预处理具体操作。
步骤3:数据集划分
- 随机分层抽样划分训练集(60%)、开发集(20%)和测试集(20%)。
- 在Jupyter Notebook中简要说明划分方法及原因。
步骤4:模型训练与调优
- 至少使用两种算法构建多分类器(如朴素贝叶斯、逻辑回归、支持向量机、随机森林)。
- 使用开发集进行超参数调优,记录调优过程和最优参数。
步骤5:模型评估
- 计算测试集上各模型的precision、recall、F1-score宏平均值。
- 绘制并分析各模型的混淆矩阵。
- 对不同模型结果进行统计显著性检验,详细说明方法与结果。
三、实验提交要求
- 在Kaggle平台完成实验,每步均需详细解释。
- 导出Jupyter Notebook(ipynb格式)。
- 将ipynb文件和运行所需的全部数据文件压缩为ZIP格式,通过慕课平台在线提交。
请务必独立完成实验,避免雷同,体现实验过程中的思考与探索。