R语言在生态与进化中的应用  061M5034H

学期:2017—2018学年(春)第二学期 | 课程属性:专业普及课 | 任课教师:肖治术,李欣海
授课时间: 星期三, 第5、6、7节
授课地点: 教2-104
授课周次: 2、3、4、5、6、7、8、9、10、11、12、13、14、15、16
授课时间: 星期三, 第5、6、7节
授课地点: 教2-104
授课周次: 2、3、4、5、6、7、8、9、10、11、12、13、14、15、16
课程编号: 061M5034H 课时: 40 学分: 3.0
课程属性: 专业普及课 主讲教师:肖治术,李欣海
英文名称: Using R in the studies of ecology and evolution

教学目的、要求

教学目的:
本课程讲授R语言的编程技巧。教学内容以统计学的基本概念和基本分析方法为核心,通过大量实例讲解统计思想,并提供R语言的代码方便同学自己进行统计分析。
没有统计学基础的同学,可以理解大约90%的课堂讲授内容,掌握统计学的基本框架,借助课件完成统计分析。有一定统计学基础的同学(学习过概率分布、假设检验、相关与回归、方差分析等)将是获益最多的群体。这些同学可以通过学习较深地理解统计学原理,并熟练地应用统计软件。
本课程强调统计方法的整体性和统一性。推荐的教材为英文原版的Biostatistical Analysis(生物统计分析)(Zar 1999),这是北美经典的生物统计教材。R的内容主要参考了Crawley 的The R Book第一版(Crawley 2007)和第二版(Crawley 2012),以及Zuur等的几本书(Zuur et al. 2009a; Zuur et al. 2009b; Zuur et al. 2007)和Faraway的著作(Faraway 2004)。
我们使用英文课件辅助教学,以便促使学生熟悉英文统计词汇,阅读英文专业文献。本课程的特点是内容比较多,包括相对简单的假设检验、方差分析、相关和回归,以及较为复杂的多元的、非线性的统计方法。整个授课内容是相对完整的一个体系,授课时会强调不同内容间的比较。
2006-2009年,本课程(原名“生物统计学”)都是使用SAS进行教学和做练习。2011年,本课程改用R作分析工具,原因有四点:(1) R是使用最多的统计软件,是主流大学统计系的核心工具。在工业界(主要是药学等领域)SAS依旧是排行第一的统计工具;然而在学术界,R已经后来居上,成为排行首位的统计软件。最近几年来,生物学领域的重要研究成果几乎都是用R做统计分析的。(2)个人感觉上,R易用而高效,编程效率比SAS快10倍以上。(3) R的许多软件包可以非常方便地处理一些统计问题。例如R在混合效应模型(Mixed effect model)方面有无与伦比的优势,而混合效应模型是本课程的重点之一。(4) R免费开源,使用不受限制。
学习要求:
课前不需要预习;课堂上要认真听讲,对不明白的问题及时反馈(在课堂上和课间提问);课后认真复习课堂内容(每次课后至少花一小时,否则很容易遗忘);认真完成作业(每次大约需要一个多小时);课堂上会强调关键词和关键问题,推荐同学自己查询资料解决疑难问题。通过本课程的学习,要求学生较好地掌握生物统计学的原理和应用方法,以及统计软件R的基本分析方法,并培养出一定的自学能力。本课程内容偏多,讲课内容重复较少,课后复习至关重要!

预修课程

教 材

教材:Zar, J. H. 1999. Biostatistical Analysis. Pearson.

主要内容

第一章	History and development of biostatistics 生物统计学的历史和发展 (3学时,教师:肖治术)
	Introduction 前言
	The role of statistics in ecological research统计方法在生态学中的地位
	Best practice in this class 本课程学习方法
	Using the text books 教科书阅读方法
	Statistical language R  R语言
	Brief history of biostatistics 生物统计学简史
	Key persons 关键历史人物
	Basic concepts 基本概念
	Data types 数据类型
	Descriptive statistics 描述性统计 
第二章	Probability distribution 概率分布 (3学时,教师:肖治术、李欣海)
	Probability theory 概率论
	Axioms and corollaries 基本定理
	Permutations and combinations 排列与组合
	The Monty Hall problem 蒙提卡尔问题
	Common distributions of random variables 常见的随机变量的分布
	Binomial distribution 二项分布
	Poisson distribution 泊松分布
	Negative binomial distribution 负二项分布
	Uniform distribution 均匀分布
	Normal distribution 正态分布
	Chi square distribution 卡方分布
	F distribution F分布
第三章	Hypothesis testing 1 假设检验1 (3学时,教师:肖治术、李欣海)
	What is hypothesis testing? 什么是假设检验?
	Standard procedures 标准步骤
	Case studies 案例分析
	T test and Z test  T检验和Z检验
	Situations of one tail and two tails 单尾和双尾的情况
	One sample hypothesis tests and two samples hypothesis tests 单样本和双样本的假设检验
	Paired test 配对检验
第四章	Hypothesis testing 2 假设检验2 (3学时,教师:李欣海)
	Type I and Type II Errors 第一和第二类错误
	Chi-square test 卡方检验
	Power of test 统计功效
	Sample size样本量
	Philosophy of hypothesis testing 假设检验的哲学基础
第五章	Analysis of variance (ANOVA) 1 方差分析1 (3学时,教师:李欣海)
	Rationale of ANOVA 方差分析的基本原理
	Compared with T test, Chi-square test 同T检验、卡方检验的比较
	Generic Recipe of general linear model一般线形方程的标准分析步骤
	One-way ANOVA 单因素方差分析
	Random blocked design 随机区组设计
	Two-way ANOVA 双因素方差分析
第六章	Analysis of variance (ANOVA) 2 方差分析2 (3学时,教师:李欣海)
	Three-way ANOVA 三因素方差分析
	Latin Square Design 拉丁方实验设计
	Hierarchical (nested) ANOVA 嵌套方差分析
	Split Plot Design 裂区设计
	Repeated measures ANOVA 重复实验的方差分析
	Mixed effects models 混合效应模型
第七章	Simple linear regression and correlation 简单线性回归和相关 (3学时,教师:李欣海)
	Rationale of simple linear regression简单线性回归的原理
	Least square 最小二乘法
	Regression coefficient (slope) and intercept 斜率和截距
	Significance of a regression 回归的显著性
	Assumptions of regression analysis 线性回归的假设
	Applications of simple linear regression 简单线性回归的应用
	Rationale of simple linear correlation 简单线性相关的原理
	Coefficient of correlation 相关系数
	Power and sample size in correlation 相关分析的统计功效和样本量
第八章	Analysis of covariance (ANCOVA) 协方差分析 (3学时,教师:李欣海)
	Rationale of analysis of covariance 协方差分析的原理
	Assumptions of analysis of covariance 协方差的假设条件
	Compared with ANOVA and regression 与方差分析和回归的比较
	Mixed effect model for ANCOVA 协方差的混合效应模型
	Case studies 案例分析
	Coding convention of R  R语言编程的通用习惯
第九章	Data transformation and Nonparametric statistics 数据转化和非参数检验 (3学时,教师:李欣海)
	Data transformation数据转化 
	Logarithmic transformation 对数转化
	Square root transformation 平方根转化
	Arcsine transformation 反正旋转化
	Reciprocal transformation 倒数转化
	Square transformation 平方转化
	Box-Cox transformation  Box-Cox转化
	Rationale of nonparametric statistics 非参数检验的原理
	Sign test 符号检验
	Wilcoxon signed rank test 符号秩检验
	Wilcoxon rank sum test 秩和检验
	Kruskal-Wallis test  Kruskal-Wallis检验
	Friedman’s test  Friedman检验
	Bootstraping  Bootstraping重取样
第十章	Multivariate analysis 1 多元统计分析1 (3学时,教师:李欣海)
	Multiple regression 多元回归
	Linear regression 线性回归
	Non-linear regression 非线性回归
	Evaluating multiple regression model 模型评价
	Multiple correlation 多元相关
	Partial correlation 偏相关
	Canonical correlation analysis 典型相关分析
第十一章	Multivariate analysis 2 多元统计分析2 (3学时,教师:李欣海)
	Cluster analysis 聚类分析
	Discriminant analysis 判别分析
	Principal component analysis 主成分分析
	Factor analysis 因子分析
	Correspondence analysis 对应分析
	Redundancy analysis 冗余分析
	Canonical correspondence analysis 典型对应分析
	Multidimensional scaling (principal coordinate analysis) 多维尺度分析
第十二章	Generalized linear model 广义线性模型 (3学时,教师:李欣海)
	Rationale of generalized linear model广义线形模型的原理
	Logistic regression 逻辑斯蒂回归
	Assumptions 前提条件
	Biological means of the coefficients 系数的生物学意义
	Goodness of fit 拟合优度
	Maximum likelihood estimation 最大似然估计
	Structure of generalized linear model 广义线形模型的结构
	Random component 随机组分
	Systematic component 系统组分
	Link function 连接方程
	Compared with general linear model 同一般线性方程的比较
	Case studies 案例分析
第十三章	Advanced models 高级统计模型 (3学时,教师:肖治术、李欣海)
	Generalized linear model (GLM) 广义线性模型
	Generalized additive model (GAM) 广义可加模型
	Multivariate Adaptive Regression Splines (MARS) 多元自适应回归样条
	Mixture discriminant analysis (MDA) 混合判别分析
	Classification and Regression Tree (CART) 分类与回归树
	Generalized Boosting Models (GBM) 广义推进模型
	Artificial neural networks (ANN) 人工神经网络
	Random Forest (RF) 随机森林
	Genetic Algorithm for Rule Set Production (GARP) 遗传算法
	Maximum entropy method (Maxent) 最大熵模型
	Bayesian method 贝叶斯方法
	Hierarchical modeling 分级模型
考试(2学时)

教学方式: 100 % 课堂授课
考核方式:课后作业(20%)+ 闭卷考试(80%)

参考文献

参考书:
Crawley, M. J. 2007. The R Book. John Wiley & Sons Ltd.
Crawley, M. J. 2012. The R book. Second Edition. John Wiley & Sons Ltd.
Faraway, J. J. 2004. Linear models with R. CRC Press.
Quinn, G. P. and M. J. Keough. 2002. Experimental design and data analysis for biologists. Cambridge University Press.
Sokal, R. R. and F. J. Rohlf. 1995. Biometry. Third Edition. W. H. Freeman and Company, New York.
Zuur, A., E. N. Ieno, and E. Meesters. 2009a. ABeginner’s Guide to R. Springer.
Zuur, A., E. N. Ieno, N. Walker, A. A. Saveliev, and G. M. Smith. 2009b. Mixed effects models and extensions in ecology with R. Springer.
Zuur, A. F., E. N. Ieno, and G. M. Smith. 2007. Analysing ecological data. Springer.