作业3:基于政府工作报告的政策焦点变迁分析
一、实验目标
- 综合运用已学的文本预处理、N-gram分析等技术,处理真实世界的文本数据。
- 通过对长时间序列文本数据的量化分析,洞察特定领域政策关注点的演变趋势。
- 培养从文本数据中提取有价值信息并进行解读的能力,将其与所学专业(大数据管理与应用、数字经济)相关联。
二、实验内容与步骤
实验语料
- 1978年至2025年《政府工作报告》文本。每份报告为一个TXT文件,以年份命名(例如:1978.txt, 1979.txt, ..., 2025.txt)。
- 语料保存在text_mining_course_data中的reports文件夹
步骤1:数据预处理
- 参考课程代码,对语料进行预处理,包括中文分词、去停用词、清理噪声数据等。
- 预处理后的数据格式需要便于后续步骤应用,请确保数据存储格式和处理步骤的合理性。
步骤2:核心政策领域N-gram词频分析与趋势观察
- 选取分析维度:根据自己的专业背景和兴趣,选取2-3个与中国经济社会发展密切相关的核心政策领域。例如,“数字经济”、“人工智能”、“大数据”、“科技创新”、“互联网+”等相关主题词及其N-gram组合(如“数字基础设施”)。
- 构建N-gram: 针对选定的核心政策领域,确定1至3个关键词或关键短语(可以是unigram, bigram, trigram)。例如,研究“对外开放”,可以关注 “开放”、“对外开放”、“扩大开放” 等。
- 词频统计: 计算所选定的N-gram在每一年的政府工作报告中出现的频次。可以考虑使用词频的绝对数或相对频率(该N-gram词频/当年报告总词数)。
- 可视化呈现: 将计算得到的年度N-gram词频数据进行可视化,例如绘制折线图,展示其从1978年至2025年的变化趋势。
步骤3:语义关联词语的拓展探索
- 对于在步骤2中发现的、在某些时期出现频率显著变化的核心N-gram,尝试使用预训练的词向量模型(如Word2Vec, GloVe,或更大规模的中文预训练模型如BERT的词向量层)来查找其在特定年份(例如,选取政策转向的关键年份)或时间段(例如,每十年)的语义相似词。
- 观察这些语义相似词的变化,能否辅助解释政策焦点内涵的演变?例如,“市场”一词,在不同年代其最相关的词语集合可能有所不同,这间接反映了对“市场”理解和政策导向的深化。
步骤4:结果分析
- 趋势描述: 清晰描述所选N-gram词频的时间序列变化特征,例如,哪些词语的关注度随时间显著上升/下降/呈现周期性波动?是否存在明显的转折点?
- 政策解读: 结合中国社会经济发展的历史背景和重大政策事件,尝试解读这些词频变化趋势背后可能反映的政策重点的转移和发展。
- 结合你所学的专业知识,讨论这些政策焦点的变迁对于你所学领域(如数字经济发展、大数据与人工智能应用加速等)可能带来的影响或启示。
- 方法讨论: 简要讨论本实验所用方法的优点与局限性。例如,仅基于词频分析可能有哪些不足?向量语义的引入有何帮助或挑战?
三、实验提交要求
- 在Kaggle平台上完成实验,每一步操作需要在Jupyter Notebook中详细说明,提供必要的实验解释。
- 导出Jupyter Notebook文件(ipynb格式)。
- 将Jupyter Notebook文件通过慕课平台(提交链接)在线提交。