课程简介


在大数据时代,超过80%的商业信息以自然语言文本(如商业报告、客户评价、市场新闻、研究报告、社交媒体等)的非结构化形式存在。虽然数据挖掘和机器学习技术已成为企业进行数据分析的重要工具,但传统的数据挖掘方法通常局限于结构化或半结构化数据,无法直接处理非结构化文本数据。文本挖掘技术通过自然语言处理、机器学习和人工智能推理等方法,能够有效地实现文本信息的抽取、分类、聚类、情感分析、热点预测和主题建模等任务,将大量非结构化文本转化为可供商业决策参考的结构化知识,极大地提升了商业数据分析的深度与广度。

本课程面向商学院本科生,特别是大数据管理与应用、数字经济、国际商务和会计学专业的学生,以理论与实践相结合的方式讲授商务文本智能分析技术。课程围绕大语言模型展开,结合使用自然语言处理工具包NLTK、spaCy及深度学习库Hugging Face,通过讲授文本处理基础知识(如正则表达式、文本切分、编辑距离)、语言模型构建(N-gram、词向量语义与嵌入技术)、经典与深度学习模型(朴素贝叶斯、逻辑回归、循环神经网络、Transformer及大语言模型)、文本分类与情感分析、文本聚类与主题建模、以及检索增强生成(RAG)等核心技术,培养学生利用先进人工智能工具解决真实商业场景中文本数据分析问题的能力。

本课程设置了丰富的实践作业与案例分析,包括基于真实商业语料的分类算法性能比较、大语言模型的微调实践,以及商业文本的聚类与主题分析等内容。课程实验依托Kaggle免费在线Jupyter环境开展,以自然语言处理工具包NLTK、spaCy,机器学习库scikit-learn,深度学习库transformers,Hugging Face仓库为主要实践工具,充分锻炼和提升学生的实践动手能力和创新思维,以期为学生将来在数字经济环境下的职业发展奠定坚实的大数据分析技术基础。

课程信息


授课教师

张建章 博士
邮箱:jianzhang.zhang@foxmail.com
钉钉:张建章
办公室:仓前恕园2号楼1009

互动平台

课程钉钉群 ;课程讨论区

授课对象

本科生,电子商务/大数据管理与应用24级

授课时间

周五1-3节/6-8节(1-16周)[校历]

授课地点

下沙2号楼406/409

课程资料

【教材】《Speech and Language Processing (3rd ed. draft)》, Dan Jurafsky and James H. Martin, updating [电子版]

【图书】《Introduction to Natural Language Processing》, Jacob Eisenstein, 2018, MIT Press [电子版]

【图书】《大规模语言模型:从理论到实践》,张奇,桂韬,郑锐,黄萱菁 著,2024年,电子工业出版社 [电子版]

【图书】《自然语言处理:基于大语言模型的方法》,车万翔,郭江,崔一鸣 著,2025年,电子工业出版社 [简介]

【图书】《Build a Large Language Model (From Scratch)》, Sebastian Raschka, Manning Publications, 2024 [简介]

【图书】《文本数据挖掘》,宗成庆等 著,2019年,清华大学出版社 [简介]

【图书】《Natural Language Processing with Transformers》, Leandro von Werra et al., 2022, O'Reilly Media, Inc. [简介]

【图书】《Introduction to Information Retrieval》, Christopher D. Manning et al., 2008, Cambridge University Press [电子版]

【图书】《Foundations of Statistical Natural Language Processing》, Chris Manning and Hinrich Schütze, 1999, MIT Press [简介]

【图书】《Natural Language Processing with Python》, Steven Bird et al., 2009, O'Reilly Media, Inc. [电子版]

【图书】《组织与管理研究的实证方法(第四版)》, 陈晓萍 沈伟 主编, 2023, 北京大学出版社 [简介]

常用工具
成绩评定

本课程成绩主要由四部分组成,如下:

  • 期末成绩-50%
  • 课程作业/测验-30%
  • 课堂表现-10%
  • 日常考勤-10%

课程计划


章节 日期 内容 思考题 资料
第一讲 -
  • 文本挖掘概述 [ ]
  • - Kaggle示例代码 [ ]
    chatGPT科普视频
    第二讲 -
  • 文本预处理 [ ]
  • - 文本预处理 [ ]
    调用Deepseek API预处理文本 [ ]
    第三讲 -
  • N-gram语言模型 [ ]
  • - 训练N-Gram语言模型 [ ]
    第四讲 -
  • 生成模型-朴素贝叶斯 [ ]
  • - 朴素贝叶斯文本分类及性能评估 [ ]
    第五讲 -
  • 判别模型-逻辑回归 [ ]
  • - 逻辑回归文本分类及正则化 [ ]
    作业1 - 第一次作业题 [题目] 提交链接

    第16周结课之前

    第六讲 -
  • 向量语义 [ ]
  • - 文本向量化表示-稀疏 [ ]
    文本向量化表示-稠密 [ ]
    探索词嵌入的语义属性 [ ]
    第七讲 -
  • 神经网络 [ ]
  • - 前馈神经网络-文本分类 [ ]
    前馈神经网络-语言模型 [ ]
    前馈神经网络-fastText分类 [ ]
    第八讲 -
  • RNNs和LSTMs [ ]
  • - -
    作业1 - 第二次作业题 [题目] 提交链接

    第16周结课之前