数据科学R与Python实践  120500MGX003H

学期:2020—2021学年(春)第二学期 | 课程属性:公共选修课 | 任课教师:顾立平
授课时间: 星期五,第1、2、3 节
授课地点: 教二楼106
授课周次: 1、2、3、4、5、6、7、8、9、10、11、12、13、14
课程编号: 120500MGX003H 课时: 40 学分: 1.00
课程属性: 公共选修课 主讲教师:顾立平 助教:
英文名称: Practical Data Science by R and Python 召集人:

教学目的、要求

随着大数据国家战略出台,中央要求各级领导干部多一个基本功:增强利用数据推进各项工作的本领。2017年12月10日,习近平总书记在中央政治局第二次集体学习时的重要讲话指出:“...现在,世界各国都把推进经济数字化作为实现创新发展的重要动能,在技术研发、数据共享、安全保护等方面进行前瞻性布局。...善于获取数据、分析数据、运用数据,是领导干部做好工作的基本功。懂得大数据,用好大数据,增强利用数据推进各项工作的本领,已经成为领导干部的新时代必修课。...” 

科学数据已成为科技发展的“头等公民”(Research Data as First-Class citizen)。当前,数据科学家、数据公民、数据管理员正在成为创新社会的新兴动力。目前环绕数据科学、数据政策、数据管理的课题日益重要,不仅社会各界都已面临实际发展战略上的这个核心问题,而且也将直接影响个人职业生涯的生存与未来发展。 

本课程旨在通过案例数据的R与Python的上机操作,辅之讲解必要的知识理论,以及介绍运用在科学研究和企业服务的经验,以“从做中学”的方式进行授课。课程秉持“不谈颠覆、不侃概念、只做实践”的原则,环绕六项指示精神“技术研发、数据共享、安全保护、获取数据、分析数据、运用数据”等进行设计,上课同学可以把具体科研课题与授课老师进行交流,将会取得更好的学习成效。授课12堂、期中期末开卷测验2堂、自习2堂。

预修课程

教 材

主要内容

第一章:数据世界与真实世界(第01周) 

1.数据密集型科研的介绍 

2.开放科学文化介绍 

3.开放科研数据介绍 

4.数据资产管理介绍 

5.开源社群文化介绍 

6.R Language基础知识、安装与常用技巧 

7.Python基础知识、安装与常用技巧 

8.问题解决模式的思维 

9.数据质量高于一切 


第二章 数据处理篇(第02周) 

1. 数据框 

2. 列表 

3. 矩阵 

4. 编写函数 

5. 控制语句 

6. 循环迭代 

7. 导入导出 

8. 数据整理 

9. 字符串处理 


第三章  数据型塑篇(第03周) 

1.增删修改数据框的列 

2.建立索引的方式 

3.从数据集中抽取子集 

4.改变因子水平向量的顺序 

5.分类变量转化新的变量 

6.连续变量转换分类变量 

7.多个变量转换新的变量 

8.缺失值的处理 

9.空组合的处理 


第四章 数据可视化篇(第04、05周) 

1.数据探索 

2.条形图 

3.QQ图 

4.经验累积分布图 

5.函数曲线图 

6.社会网络图 

7.矩阵图 

8.温度图 

9.树状图 

10.向量场 

11.三维散点图 

12.地图 


第五章 统计分析篇(第07周) 

1.数据类型 

2.数据的关联关系 

3.实验以及抽样的数据获取 

4.概率与抽样分布 

5.列联表与拟合优度 

6.统计推论:估计 

7.统计推论:显著检验 

8.简单线性回归 

9.多元线性回归 


第六章 数据建模篇(第08周) 

1.问题驱动的数据建模思路 

2.数据模型的检验 

3.因变量为数量变量的回归方程模型 

4.因变量为数量变量的统计学习模型 

5.因变量为分类变量的数据建模 

6.因变量为计数/频数的数据建模 

7.纵向数据、多水平数据、面板数据的模型 

8.多元分析(不分自变量及因变量)的模型 

9.算法模型:PageRank、MapReduce、推荐算法、遗传算法 


第七章 机器学习篇(第10、11、12周) 

1.贝叶斯与案例练习 

2.决策树与案例练习 

3.线性回归与案例练习 

4.模型树与案例练习 

5.神经网络与案例练习  

6.支持向量机与案例练习 

7.关联规则与案例练习 

8.聚类与案例练习 

9.最近邻算法与案例练习 


第八章 大数据篇(第13周) 

1.Hadoop及其HDFS、MapReduce 

2.Hadoop的YARN、HBase、Hive组件 

3.HaddopR 

4.SPARK的Streaming流式计算框架 

5.Spark的Scale函数式编程 

6.SparkSQL 

7.SparkMLib 

8.SparkGraphX 

9.SparkR 


第九章 深度学习篇(第14周) 

1.深度学习的发展背景与历史 

2.特征表示的细粒度问题 

3.深度学习的解决方案 

4.基本数学基础 

5.神经网络基础 

6.卷积神经网络 

7.循环神经网络 

8.图像识别案例 

9.影像识别案例

参考文献

(略)