《文本挖掘》课程期末大作业要求
本学期《文本挖掘》课程即将结束,为了全面考察大家对课程知识的掌握程度,特别是将理论应用于实践的能力,现将期末大作业的具体要求布置如下。请大家仔细阅读,并按时完成。
一、 作业核心任务
近年来,大语言模型(Large Language Model, LLM)为自然语言处理(NLP)领域带来了范式性的变革。其核心特征在于,能够以一个统一的模型和“提示” (Prompting) 的范式来处理极其多样化的NLP任务,而不再需要像传统方法那样为每个任务单独设计和训练专门的模型。
那么,在这种新范式下,大语言模型在各类具体的NLP任务上表现究竟如何?本次期末作业的核心,就是要求大家通过实证研究来回答这一前沿问题。每位同学需要:
-
从期末作业任务列表选择一个中文语言理解任务。
-
调用大语言模型API,以“提示”的方式来解决这个任务。
-
借鉴人工智能顶会论文中的研究方法,对大语言模型在具体NLP任务上的表现进行专业、深入的定量与定性分析。
二、 具体要求与步骤
1. 任务选择
2. 文献研究与理论阐述
在动手实验之前,你需要进行充分的文献调研,结合你所选择的任务的数据集的特点,清晰地阐述以下内容:
- 任务定义: 准确描述你所选任务的目标是什么。
- 任务难点: 分析该任务在技术和理论层面存在的主要挑战。
- 现有方法: 总结学术界已经提出的、用于解决该任务的主流方法或模型。
- 商业应用: 结合所学商科知识,探讨该任务在大数据管理与应用、数字经济、国际商务、会计学等领域的实际应用场景和商业价值。
3. 文献检索与学习
- 文献检索: 根据你选择的任务,在 DBLP 数据库中检索相关文献。
- 时间范围: 2020年至2025年。
- 会议范围: 仅限人工智能领域的顶级会议,包括 ACL, EMNLP, COLING, AAAI, IJCAI, ICLR, ICML, KDD, WWW, NeurIPS。
- 检索词示例: 若选择命名实体识别任务,可使用
EMNLP "named entity recognition"
。
- 论文精读: 从检索结果中,精选 3篇 与你的任务高度相关的论文进行深入阅读和学习。
3. 实验操作:调用大语言模型API
- 数据下载: 在你所选任务的介绍页面,下载本课程整理提供的测试数据集。
- API调用: 选择一个大语言模型(如DeepSeek, Qwen, 豆包, Kimi等),通过调用其API,对测试集中的每一条数据进行预测,并保存完整的预测结果。
4. 结果分析与评估
此步骤是本次作业的重点。你需要参考所选的3篇顶会论文,对你的大语言模型实验结果进行分析。
- 定量分析:
- 学习并总结3篇论文中使用了哪些评测指标 (Evaluation Metrics),如 F1-score, BLEU, ROUGE, Accuracy等。
- 在你的论文中明确定义这些指标,并编程计算你的LLM在这些指标上的性能表现。
- 定性分析:
- 借鉴3篇论文中进行结果分析和错误分析 (Error Analysis) 的方法。
- 对你的LLM的预测结果进行深入的案例分析,探讨其优势(在哪些样本上表现好,为什么)和不足(在哪些样本上表现差,原因是什么),并思考潜在的改进方向。
三、 最终成果与提交
1. 期末论文撰写
- 格式要求: 严格按照课程提供的期末论文模板(.doc文件)进行撰写。
- 字数要求: 不少于3000字。
- 内容结构: 必须包含以下部分:
- 任务定义
- 任务难点分析
- 现有解决方法/算法综述
- 商业应用场景探讨
- 评价指标定义与说明
- 核心API调用代码及返回结果示例
- 实验结果定量分析(以图或表格方式呈现评价指标结果)
- 实验结果定性分析(错误案例分析)
- 总结与展望
2. 提交要求
- 在线提交:
- 纸质版提交:
- 提交时间: 2025年6月23日(周一) 晚上20:00至21:00
- 提交地点: 下沙校区行政楼一楼大厅
- 提交内容: 打印并装订好的期末论文纸质版
希望各位同学认真对待本次大作业,它将是你们展示学期所学、锻炼研究能力和实践能力的绝佳机会。预祝大家取得优异的成绩!
如有任何疑问,请及时与我联系。