文本数据挖掘  081203M06002H

学期:2020—2021学年(春)第二学期 | 课程属性:专业研讨课 | 任课教师:宗成庆
授课时间: 星期二,第7、8 节
授课地点: 教一楼215
授课周次: 1、2、3、4、5、6、7、8、9、10、11、12
课程编号: 081203M06002H 课时: 20 学分: 1.00
课程属性: 专业研讨课 主讲教师:宗成庆 助教:赵阳
英文名称: Text Data Mining Seminar 召集人:

教学目的、要求

本课程是计算机应用专业研究生开设的专业研讨课,其目的是使学生初步掌握文本数据挖掘的基本概念和研究内容,并了解其应用领域。本课程聚焦文本数据挖掘常用的理论模型和实现方法,进行集中讲授和讨论,并进行上机实践,对学生的要求包括:熟练掌握文本数据挖掘的基本思路、方法和常用算法,通过研讨使计算机及相关专业的研究生深入掌握对主流文本数据挖掘方向的科研动态和最新技术趋势,对文本数据挖掘不同领域的应用有初步了解。培养研究生从事科研工作的基本思路和方法,使其开阔眼界,为将来的研究与应用打好基础。

预修课程

算法分析与程序设计、机器学习、自然语言处理

教 材

《文本数据挖掘》,清华大学出版社,中国科学院大学研究生教学辅导书

主要内容

内容提要:
Topic 1: 文本数据挖掘引言
了解文本数据挖掘的基本概念、发展历史、技术挑战及应用前景。
Topic 2: 文本表示与聚类
介绍各种文本表示方法及常用的聚类算法。
Topic 3: 文本分类模型与方法
介绍基于文本内容的分类方法、倾向性分类方法及实现算法。
Topic 4: 关系抽取方法
介绍常用的关系抽取模型、实现方法及应用。
Topic 5: 自动文摘生成
介绍文本自动摘要生成模型及实现算法。

教学方式:教师给出讨论的主题范围,引导学生进行文献阅读、演讲、讨论等。
考核方式:按照出勤情况、课堂发言、口头报告、书面报告等给出综合成绩。

参考文献

Jiawei Han, M. Kamber and Pei Jian. Data Mining-Concepts and Techniques (3rd Edition), Morgan Kaufmann, 2012, ISBN: 9780123814791.(范明,孟小锋译,数据挖掘-概念与技术,北京:机械工业出版社,2012)
Bing Liu. Sentiment Analysis: Mining Opinions, Sentiments and Emotions. Cambridge University Press, 2015. (刘康, 赵军 译. 情感分析: 挖掘观点、情感和情绪. 机械工业出版社, 2017)
Bing Liu. Web Data Mining: exploring hyperlinks, contents, and usage data. Springer, 2011