自然语言处理  081100M01005H

学期:2020—2021学年(春)第二学期 | 课程属性:一级学科核心课 | 任课教师:宗成庆,张家俊
授课时间: 星期二,第10、11、12 节
授课地点: 教一楼101
授课周次: 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16
课程编号: 081100M01005H 课时: 50 学分: 3.00
课程属性: 一级学科核心课 主讲教师:宗成庆,张家俊 助教:赵阳
英文名称: Natural Language Processing 召集人:

教学目的、要求

通过本课程的学习,学生能够掌握自然语言处理的基本概念、学科发展的历史和面临的主要问题和挑战,以及解决问题的理论方法,了解该技术当前应用的主要场景以及未来发展的趋势和方向。同时,通过课程项目实践体会和学习分析问题、解决问题的基本思路和方法。
学生应按时听课,具备基本的编程能力,并能结合课堂讲授的内容根据项目作业的要求按时完成课程作业,提交技术报告和程序实现代码,参加期末考核。
授课方式:以课堂教学为主,辅助课程项目作业练习。

预修课程

概率论与数理统计,算法分析与程序设计

教 材

[1]	宗成庆,统计自然语言处理(第2版),清华大学出版社, 2013.8
[2]	C. D. Manning, Hinrich Schute, Foundations of Statistical Natural Language Processing. The MIT Press. 1999(苑春法等译,统计自然语言处理基础,电子工业出版社)

主要内容

第1章:绪论(3个学时)
1.1 问题的提出
1.2 基本概念
1.3 学科的产生与发展
1.4 研究内容
1.5 面临的问题与挑战
1.6 基本研究方法和现状
第2章:数学基础(2个学时)
2.1 概率论基础
2.2 信息论基础
2.2 应用举例
第3章:形式语言与自动机及其在NLP中的应用(3个学时)
3.1 形式语言
3.2 有限自动机与正则文法
3.3 下推自动机与上下文无关文法
3.4 有限自动机在NLP中的应用
第4章:语料库与语言知识库(2个学时)
4.1 语料库基本概念
4.2 语料库技术发展与现状
4.3 典型语料库介绍
4.4 语言知识库
第5章:语言模型与文本表示(5个学时)
5.1 n元文法基本概念
5.2 参数估计
5.3 数据平滑方法
5.4 语言模型的自适应
5.5 n元文法模型的应用
5.6 神经语言模型
5.7 文本表示
  5.7.1 向量空间模型
  5.7.2 词的分布式表示
  5.7.3 句子和文档表示
第6章:隐马尔可夫模型与条件随机场(3个学时)
6.1 马尔可夫模型
6.2 隐马尔可夫模型
  6.2.1 前向算法
6.2.2 后向算法
6.2.3 维特比算法
6.2.4 参数学习
6.3 隐马尔可夫模型应用
6.4 条件随机场及应用
第7章:词法分析与词性标注(3个学时)
7.1 英语形态分析
7.2 汉语自动分词
  7.2.1 基本问题
  7.2.2 基本方法
  7.2.3 分词结果评估
7.3 未登录词识别
7.4 词性标注
第8章:句法分析(6个学时)
8.1 短语结构分析概述
8.2 经典的短语结构分析方法
  8.2.1 线图分析法
  8.2.2 CYK分析算法
  8.2.3 概率上下文无关文法
8.3 依存句法分析
8.4 基于深度学习的句法分析方法
8.5 短语结构与依存结构之间的关系
8.6 句法分析结果评估
第9章:语义分析(2个学时)
9.1 语义理论简介
9.1.1 格语法
9.1.2 语义网络
9.2 词义消歧
9.3 语义角色标注
第10章:篇章分析(2个学时)
10.1 篇章表示理论
10.2 篇章关系分析
第11章:机器翻译(9个学时)
11.1 机器翻译技术的产生与发展
11.2 机器翻译方法概述
11.2.1 基于模板的翻译方法
11.2.2 基于规则的翻译方法
11.2.3 基于中间语言的翻译方法
11.2.4 数据驱动的翻译方法
11.3 统计机器翻译
11.4 神经机器翻译
11.5 系统融合方法
11.6 译文质量评估
11.7 口语翻译
第12章:文本分类和聚类(4个学时)
12.1 基本概念
12.2 特征选择
12.3 分类算法
12.4 聚类算法
12.5 分类/聚类质量评估
第13章:人机对话系统(2个学时)
13.1 基本概念
13.2	 实现方法
13.3	 系统性能评估
第14章:信息抽取(4个学时)
14.1 基本概念
14.2 实体消歧
14.3 关系抽取
14.4 事件抽取

参考文献

宗成庆,夏睿,张家俊,文本数据挖掘,清华大学出版社,2019年5月