数据分析与优化建模  011M5023H

学期:2017—2018学年(春)第二学期 | 课程属性:专业普及课 | 任课教师:王勇
授课时间: 星期三, 第3、4节
授课地点: 教1-413
授课周次: 6、7、8、9、10、11、12、13、14、15、16
授课时间: 星期二, 第9、10节
授课地点: 教1-413
授课周次: 6、7、8、9、10、11、12、13、14、15、16
课程编号: 011M5023H 课时: 40 学分: 1.5
课程属性: 专业普及课 主讲教师:王勇
英文名称: Introduction of data analysis and optimization modeling

教学目的、要求

随着计算机和信息技术的迅速发展,在各个领域都积累了大量的数据。从数据存储、组织到搜索带来的需求衍生出大量基于“从数据中挖掘信息和知识”范式的新领域,例如针对生物数据分析的生物信息学。这里最大的挑战在于从数据中提取出重要的模式和趋势,倾听数据发出的声音,并能将新的数据和已有知识有机结合,对未知进行准确预测。这种从数据中的学习对统计、最优化、动力系统、信息论等数学分支形成了巨大的挑战,但也提供了各学科各显神通、交融贯通、并与计算机、工程等密切结合的机会。

本课程将重点讲授数据分析建模的主要思想、一些经典方法和应用实例,并对网络数据的建模和数据集成进行深入阐述。目的是使学生广泛地了解一般性的数据的数学表示、分析和建模方法,宏观地掌握的最优化和统计建模的基本范式,并通过对一些经典方法和应用体会建模的美感和统计和最优化等学科在数据分析中的交融。要求学生积极培养科学理性的思维方式、努力掌握系统深入的数据分析知识,为以后具备独立从事教学或科学研究工作的能力;以及拓展课内外、校内外、国内外各种学术交流打下坚实基础。

本课程一方面强调从数据出发,与现有数学模型课区分,另一方面强调统计、优化模型的重要性,与现有的数据挖掘、机器学习等课程区分。强调理论和实际应用密切结合,通过课后分组Project的形式,学会使用数据分析软件python 和R 来进行数据分析。适合未来有志于从事数据分析方向职业的研究生,背景可以来自于数学、信息、以及其他交叉学科。

预修课程

运筹学、最优化、数理统计学,一门程序设计语言

教 材

主要内容

1. 数据建模概论 (10学时)
1.1什么是数据科学?
1.2数据的数学表示
1.3什么是数学模型?
1.4最大似然模型
1.5最大似然模型的性质与求解
1.6贝叶斯模型与最大后验概率
1.7数据建模的三个层次

2. 数据的降维与可视化(6学时)
2.1 数据的计数分析
2.2 降维的优化模型
2.3  MDS
2.4  t-SNE
2.5 降维的稀疏优化
2.6 聚类的优化模型

3. 数据的关联建模(8学时)
3.1 刻画相关关系
3.2 联合概率列联表
3.3 相关与因果
3.4 互信息熵
3.5 条件相关与条件互信息熵
3.6 线性回归分析 
3.7 逻辑回归分析
3.8 相关性的微分方程刻画

4. 数据的集成建模(8学时)
4.1 数据集成的优化框架
4.2 朴素贝叶斯集成
4.2 贝叶斯网络集成
4.3 支持向量机方法

5. 网络数据的建模 (6学时)
5.1复杂网络的数学基础
5.2网络数据的降维
5.3网络模块探测的优化模型
5.4网络模块探测的生成模型

考试(2课时)

参考文献

1. Convex Optimization. Stephen Boyd and Lieven Vandenberghe. Cambridge University Press, 2016.
2. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition Trevor Hastie, Robert Tibshirani, and Jerome Friedman.  Springer Series in Statistics
3. Biomolecular Networks: Methods and Applications in Systems Biology. Luonan Chen, Ruisheng Wang, and Xiang-Sun Zhang,John Wiley & Sons, Hoboken, New Jersey. July, 2009.