深度学习  081203M05009H-2

学期:2020—2021学年(春)第二学期 | 课程属性:专业普及课 | 任课教师:徐俊刚,张新峰
授课时间: 星期二,第9、10、11 节
授课地点: 教一楼107
授课周次: 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16
课程编号: 081203M05009H-2 课时: 40 学分: 2.00
课程属性: 专业普及课 主讲教师:徐俊刚,张新峰 助教:苏荔
英文名称: Deep Learning 召集人:

教学目的、要求

本课程为计算机应用技术、计算机软件与理论、软件工程等专业研究生的专业普及课。本课程讲授和讨论深度学习的主要理论和关键技术,主要内容有深度学习基础、卷积神经网络、循环神经网络、深度生成模型、深度学习正则化等以及上述深度学习理论在图像、语音、自然语言处理等领域的主要应用,同时也介绍了一些新兴的深度学习模型及其应用。课程注重深度学习实践能力的锻炼和培养,通过引入多个深度学习课程实验,提升同学们的动手能力。通过本课程的学习,希望相关专业研究生能够掌握深度学习的基本理论和关键技术,提高基于深度学习技术进行科学研究与应用开发的能力。

预修课程

计算机算法设计与分析,模式识别与机器学习

教 材

主要内容

第一章 引言(学时数:2)
1.1 深度学习的起源、发展和现状(含深度学习研发全球主要机构及科学家)
1.2 深度学习与机器学习、人工智能的关系
1.3 深度学习的定义、主要理论和方法概述
1.4 深度学习的主要应用概述
第二章  深度学习基础(学时数:5)
2.1 数学基础(向量、矩阵、概率及概率分布、微积分、熵等)
2.2 机器学习基础(最大似然估计、贝叶斯网络、无监督学习、有监督学习, 强化学习等)
2.3 神经网络基础(M-P模型、感知机/多层感知机、误差反向传播算法、误差函数/激活函数、随机梯度下降法、Hopfield神经网络、自编码器等)
第三章  卷积神经网络(Convolutional Neural Network,CNN)(学时数:3)
3.1 卷积神经网络基本结构
3.2 卷积神经网络的基本原理
3.3 卷积神经网络的变种
3.4 卷积神经网络的典型应用
第四章  循环神经网络(Recurrent Neural Network,RNN)(学时数:3)
4.1 循环神经网络
4.2 循环神经网络的训练方法
4.3 长短时记忆网络
4.4 双向循环神经网络
4.5循环神经网络的典型应用
第五章  深度生成模型(学时数:3)
5.1玻尔兹曼机
5.2 受限玻尔兹曼机
5.3 深度信念网
5.4 深度玻尔兹曼机
5.5 深度自编码器
5.6 深度生成模型的典型应用
第六章 其他典型深度学习方法(学时数:5)
6.1 生成对抗网络
6.2 胶囊网络
6.3 注意力网络
6.4 记忆网络
6.5 增强深度学习
6.6 深度森林
第七章  深度学习中的正则化(学时数:3)
7.1 正则化的概念
7.2 L1和L2正则化
7.3 数据增强
7.4 Bagging
7.5 Dropout和Dropconnect
7.6 提前终止
7.7 稀疏表示
第八章  深度学习工具(学时数:4)
8.1 深度学习工具概览
8.2 TensorFlow
8.3 PaddlePaddle
8.4 Keras
8.5 PyTorch
第九章 深度学习在图像识别中的典型应用(学时数:4)
9.1 图像分类
9.2 目标检测
9.3 图像分割
9.4 图像回归
第十章 深度学习在语音识别中的典型应用(学时数:3)
10.1 语音识别
10.2 声纹识别
10.3 语音合成
第十一章 深度学习在自然语言处理中的典型应用(学时数:5)
11.1 语言模型
11.2 机器翻译
11.3 自动摘要
11.4 机器阅读理解
11.5 图像描述

参考文献

主要参考书:

[1] Ian,Goodfellow等著,赵申剑等译. 深度学习. 北京: 人民邮电出版社, 2017.

[2] 山下隆义著,张弥译.图解深度学习. 北京:人民邮电出版社,2018.

[3] Yoav Goldberg著, 车万翔等译. 基于深度学习的自然语言处理. 北京: 机械工业出版社, 2018.

[4] 猿辅导研究团队. 深度学习核心技术与实践. 北京: 电子工业出版社, 2018.

[5] 林大贵. TensorFlow+Keras深度学习人工智能实践应用. 北京: 清华大学出版社, 2018.

[6] 刘祥龙等著.PaddlePaddle深度学习实战.北京: 机械工业出版社, 2018.



主要参考文献

[1] G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks, Science, 2006, 313 (5786): 504 -507.

[2] G. E. Hinton, S. Osindero, Y. W. Teh. A fast learning algorithm for deep belief nets. Neural computation, 2006, 18(7): 1527-1554.

[3] Y. LeCun and Y. Bengio. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 1995.

[4] N. Roux Le, and Y. Bengio. Representational power of restricted Boltzmann machines and deep belief networks. Neural Computation, 2008, 20(6): 1631-1649.

[5] J. Ngiam, A. Khosla, and M. Kim. Multimodal deep learning. Proceedings of International Conference on Machine Learning, 2011: 689-696.

[6] A. Graves, A. Mohamed, and G. E. Hinton. Speech recognition with deep recurrent neural networks. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2013. 

[7] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Computation, 1997.

[8] S. Sukhbaatar, J. Weston, R. Fergus. End-to-end memory networks.Z2 Advances in Neural Information Processing Systems, 2015: 2431-2439.

[9] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. Proceedings of the International Conference on Learning Representations, 2015.

[10] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair et al., and Y. Bengio. Generative adversarial nets. Advances in Neural Information Processing Systems, 2014.

[11] S. Sabour, N. Frosst, G. E. Hinton. Dynamic Routing Between Capsules. CoRR, abs/1710.09829, 2017.

[12] J. Xu, H. Li, S. Zhou. Improving mixing rate with tempered transition for learning restricted Boltzmann machines. Neurocomputing, 2014, 139:328-335.

[13] V. Mnih, N. Heess, A. Graves, K. Kavukcuoglu. Recurrent models of visual attention. Advances in Neural Information Processing Systems, 2014: 2204-2212.

[14] K. Xu, J. Ba, R. Kiros. Show, attend and tell: Neural image caption generation with visual attention. Proceedings of the International Conference on Machine Learning, 2015.

[15] K. M. Hermann, T. Kocisky, E. Grefenstette. Teaching machines to read and comprehend. Advances in Neural Information Processing Systems, 2015: 1684-1692.

[16] Y. Kim. Convolutional neural networks for sentence classification. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP),2014: 1746-1751.

[17] T. Mikolov, M. Karafiát, L. Burget, et al. Recurrent neural net-work based language model. Proceedings of Eleventh Annual Conference of the International Speech Communication Association, 2010: 1045–1048. 

[18] K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP),2014

[19] R. Kiros, R. Salakhutdinov, and R. S. Zemel. Unifying visual semantic embeddings with multi-modal neural language models. Transactions of the Association for Computational Linguistics, 2015.

[20] Z. Zhou, J. Feng. Deep Forest: Towards an alternative to deep neural networks. Proceedings of International Joint Conference on Artificial Intelligence, 2017.

[21] J. Mao, W. Xu, Y. Yang, J. Wang, Z. Huang, and A. Yuille. Deep captioning with multimodal recurrent neural networks (m-rnn). Proceedings of the International Conference on Learning Representations, 2014.

[22] J. Donahue, L. A. Hendricks. Long-term Recurrent Convolutional Networks for Visual Recognition and Description. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2015

[23] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan. Show and tell: A neural image caption generator. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015.

[24] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2016

[25] G. Jiaxian, L. Sidi, C. Han, Z. Weinan, W. Jun, Y. YuLong. Text generation via adversarial training with leaked information. arXiv:1709.08624v2 [cs.CL], 2017.