文本数据挖掘  081104M05019H

学期:2020—2021学年(春)第二学期 | 课程属性:专业普及课 | 任课教师:张家俊
授课时间: 星期三,第6、7、8 节
授课地点: 教一楼109
授课周次: 4、5、6、7、8、9、10、11、12、13、14、15、16
课程编号: 081104M05019H 课时: 40 学分: 2.00
课程属性: 专业普及课 主讲教师:张家俊 助教:朱军楠
英文名称: Text Data Mining 召集人:

教学目的、要求

通过本课程的学习,希望学生能够掌握文本数据挖掘的基本思想和关键技术,了解文本数据挖掘的前沿研究领域,了解实际场景中的文本数据挖掘应用技术,从文本数据挖掘角度培养学生分析问题、解决问题的能力。
课程基本要求:建议学生掌握一定的理论基础知识和编程基础。理论基础知识包括:概率论与数理统计和机器学习基础。编程基础方面,建议选修学生了解算法分析的基本思想,至少掌握一种编程语言,尤其是适用于文本数据挖掘的python语言。
授课方式:课堂讲授与课程实践相结合的方式。课堂讲授文本数据挖掘的基本任务、核心思想和主要方法,并设计相应的实践课程。通过实践课程的设计,让学生更好地理论结合实际,将学到的知识能够灵活运用。

预修课程

机器学习基础、概率论与数理统计、算法分析与程序设计

教 材

宗成庆、夏睿、张家俊. 文本数据挖掘. 清华大学出版社, 2019年5月.

主要内容

课程讲授38学时+考试2学时=40学时。
第1章 绪论 (1个学时)
     1.1 基本概念
     1.2 文本挖掘任务和挑战
1.3 文本数据预处理技术
第2章 文本表示 (5个学时)
      2.1 向量空间模型
      2.2 词的分布式表示
      2.3 句子的分布式表示
      2.4 文档的分布式表示
第3章 预训练模型 (5个学时)
   3.1 预训练模型的基本思想
   3.2 ELMo模型
   3.3 GPT模型
   3.4 BERT模型及其他变种
第4章 文本分类和聚类 (6个学时)
   4.1 任务定义
   4.3 基于统计学习的文本分类方法
   4.4 基于深度学习的文本分类方法
   4.5 文本分类性能评估
   4.6 文本聚类
   4.7 文本聚类性能评估
第5章 主题模型 (3个学时)
   5.1 任务定义
   5.2 潜在语义分析
   5.3 概率潜在语义分析
   5.4 潜在狄利克雷分布
   5.5 基于主题模型的文本概念表示
第6章 情感分析与观点挖掘(4个学时)
   6.1 任务定义
   6.2 文档和句子级情感分析
   6.3 词语级情感分析与情感词典构建
   6.4 属性级情感分析
   6.5 情绪分析与立场分类
第7章 话题检测与跟踪(3个学时)
   7.1 任务定义
   7.2 话题检测
   7.3 话题跟踪
   7.4 评估方法
第8章 信息抽取(6个学时)
   8.1 任务定义
   8.2 命名实体识别
   8.3 实体消歧
   8.4 关系抽取
   8.5 事件抽取
第9章 自动摘要(5个学时)
   9.1 任务定义
   9.2 抽取式自动摘要
   9.3 生成式自动摘要
   9.4 基于查询的自动摘要
   9.5 多语言自动摘要
   9.6 多模态自动摘要
   9.7 评估方法

参考文献

[1] 宗成庆,统计自然语言处理(第2版),清华大学出版社, 2013.8
[2] Jiawei Han, Micheline Kamber, and Jian Pei. Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann, 2011.
[3] Michael W. Berry, Jacob Kogan. Text Mining: Applications and Theory. John Wiley & Sons, 2010. 
[4] C. D. Manning, Hinrich Schute, Foundations of Statistical Natural Language Processing. The MIT Press. 1999(苑春法等译,统计自然语言处理基础,电子工业出版社)