R语言在生态与进化中的应用  061M5034H

学期:2017—2018学年(春)第二学期 | 课程属性:专业普及课 | 任课教师:肖治术,李欣海
授课时间: 星期三, 第5、6、7节
授课地点: 教2-104
授课周次: 2、3、4、5、6、7、8、9、10、11、12、13、14、15、16
课程编号: 061M5034H 课时: 40 学分: 3.0
课程属性: 专业普及课 主讲教师:肖治术,李欣海
英文名称: Using R in the studies of ecology and evolution

教学目的、要求

教学目的:
本课程讲授R语言的编程技巧。教学内容以统计学的基本概念和基本分析方法为核心,通过大量实例讲解统计思想,并提供R语言的代码方便同学自己进行统计分析。
没有统计学基础的同学,可以理解大约90%的课堂讲授内容,掌握统计学的基本框架,借助课件完成统计分析。有一定统计学基础的同学(学习过概率分布、假设检验、相关与回归、方差分析等)将是获益最多的群体。这些同学可以通过学习较深地理解统计学原理,并熟练地应用统计软件。
本课程强调统计方法的整体性和统一性。推荐的教材为英文原版的Biostatistical Analysis(生物统计分析)(Zar 1999),这是北美经典的生物统计教材。R的内容主要参考了Crawley 的The R Book第一版(Crawley 2007)和第二版(Crawley 2012),以及Zuur等的几本书(Zuur et al. 2009a; Zuur et al. 2009b; Zuur et al. 2007)和Faraway的著作(Faraway 2004)。
我们使用英文课件辅助教学,以便促使学生熟悉英文统计词汇,阅读英文专业文献。本课程的特点是内容比较多,包括相对简单的假设检验、方差分析、相关和回归,以及较为复杂的多元的、非线性的统计方法。整个授课内容是相对完整的一个体系,授课时会强调不同内容间的比较。
2006-2009年,本课程(原名“生物统计学”)都是使用SAS进行教学和做练习。2011年,本课程改用R作分析工具,原因有四点:(1) R是使用最多的统计软件,是主流大学统计系的核心工具。在工业界(主要是药学等领域)SAS依旧是排行第一的统计工具;然而在学术界,R已经后来居上,成为排行首位的统计软件。最近几年来,生物学领域的重要研究成果几乎都是用R做统计分析的。(2)个人感觉上,R易用而高效,编程效率比SAS快10倍以上。(3) R的许多软件包可以非常方便地处理一些统计问题。例如R在混合效应模型(Mixed effect model)方面有无与伦比的优势,而混合效应模型是本课程的重点之一。(4) R免费开源,使用不受限制。
学习要求:
课前不需要预习;课堂上要认真听讲,对不明白的问题及时反馈(在课堂上和课间提问);课后认真复习课堂内容(每次课后至少花一小时,否则很容易遗忘);认真完成作业(每次大约需要一个多小时);课堂上会强调关键词和关键问题,推荐同学自己查询资料解决疑难问题。通过本课程的学习,要求学生较好地掌握生物统计学的原理和应用方法,以及统计软件R的基本分析方法,并培养出一定的自学能力。本课程内容偏多,讲课内容重复较少,课后复习至关重要!

预修课程

教 材

教材:Zar, J. H. 1999. Biostatistical Analysis. Pearson.

主要内容

第一章	History and development of biostatistics 生物统计学的历史和发展 (3学时,教师:肖治术)
	Introduction 前言
	The role of statistics in ecological research统计方法在生态学中的地位
	Best practice in this class 本课程学习方法
	Using the text books 教科书阅读方法
	Statistical language R  R语言
	Brief history of biostatistics 生物统计学简史
	Key persons 关键历史人物
	Basic concepts 基本概念
	Data types 数据类型
	Descriptive statistics 描述性统计 
第二章	Probability distribution 概率分布 (3学时,教师:肖治术、李欣海)
	Probability theory 概率论
	Axioms and corollaries 基本定理
	Permutations and combinations 排列与组合
	The Monty Hall problem 蒙提卡尔问题
	Common distributions of random variables 常见的随机变量的分布
	Binomial distribution 二项分布
	Poisson distribution 泊松分布
	Negative binomial distribution 负二项分布
	Uniform distribution 均匀分布
	Normal distribution 正态分布
	Chi square distribution 卡方分布
	F distribution F分布
第三章	Hypothesis testing 1 假设检验1 (3学时,教师:肖治术、李欣海)
	What is hypothesis testing? 什么是假设检验?
	Standard procedures 标准步骤
	Case studies 案例分析
	T test and Z test  T检验和Z检验
	Situations of one tail and two tails 单尾和双尾的情况
	One sample hypothesis tests and two samples hypothesis tests 单样本和双样本的假设检验
	Paired test 配对检验
第四章	Hypothesis testing 2 假设检验2 (3学时,教师:李欣海)
	Type I and Type II Errors 第一和第二类错误
	Chi-square test 卡方检验
	Power of test 统计功效
	Sample size样本量
	Philosophy of hypothesis testing 假设检验的哲学基础
第五章	Analysis of variance (ANOVA) 1 方差分析1 (3学时,教师:李欣海)
	Rationale of ANOVA 方差分析的基本原理
	Compared with T test, Chi-square test 同T检验、卡方检验的比较
	Generic Recipe of general linear model一般线形方程的标准分析步骤
	One-way ANOVA 单因素方差分析
	Random blocked design 随机区组设计
	Two-way ANOVA 双因素方差分析
第六章	Analysis of variance (ANOVA) 2 方差分析2 (3学时,教师:李欣海)
	Three-way ANOVA 三因素方差分析
	Latin Square Design 拉丁方实验设计
	Hierarchical (nested) ANOVA 嵌套方差分析
	Split Plot Design 裂区设计
	Repeated measures ANOVA 重复实验的方差分析
	Mixed effects models 混合效应模型
第七章	Simple linear regression and correlation 简单线性回归和相关 (3学时,教师:李欣海)
	Rationale of simple linear regression简单线性回归的原理
	Least square 最小二乘法
	Regression coefficient (slope) and intercept 斜率和截距
	Significance of a regression 回归的显著性
	Assumptions of regression analysis 线性回归的假设
	Applications of simple linear regression 简单线性回归的应用
	Rationale of simple linear correlation 简单线性相关的原理
	Coefficient of correlation 相关系数
	Power and sample size in correlation 相关分析的统计功效和样本量
第八章	Analysis of covariance (ANCOVA) 协方差分析 (3学时,教师:李欣海)
	Rationale of analysis of covariance 协方差分析的原理
	Assumptions of analysis of covariance 协方差的假设条件
	Compared with ANOVA and regression 与方差分析和回归的比较
	Mixed effect model for ANCOVA 协方差的混合效应模型
	Case studies 案例分析
	Coding convention of R  R语言编程的通用习惯
第九章	Data transformation and Nonparametric statistics 数据转化和非参数检验 (3学时,教师:李欣海)
	Data transformation数据转化 
	Logarithmic transformation 对数转化
	Square root transformation 平方根转化
	Arcsine transformation 反正旋转化
	Reciprocal transformation 倒数转化
	Square transformation 平方转化
	Box-Cox transformation  Box-Cox转化
	Rationale of nonparametric statistics 非参数检验的原理
	Sign test 符号检验
	Wilcoxon signed rank test 符号秩检验
	Wilcoxon rank sum test 秩和检验
	Kruskal-Wallis test  Kruskal-Wallis检验
	Friedman’s test  Friedman检验
	Bootstraping  Bootstraping重取样
第十章	Multivariate analysis 1 多元统计分析1 (3学时,教师:李欣海)
	Multiple regression 多元回归
	Linear regression 线性回归
	Non-linear regression 非线性回归
	Evaluating multiple regression model 模型评价
	Multiple correlation 多元相关
	Partial correlation 偏相关
	Canonical correlation analysis 典型相关分析
第十一章	Multivariate analysis 2 多元统计分析2 (3学时,教师:李欣海)
	Cluster analysis 聚类分析
	Discriminant analysis 判别分析
	Principal component analysis 主成分分析
	Factor analysis 因子分析
	Correspondence analysis 对应分析
	Redundancy analysis 冗余分析
	Canonical correspondence analysis 典型对应分析
	Multidimensional scaling (principal coordinate analysis) 多维尺度分析
第十二章	Generalized linear model 广义线性模型 (3学时,教师:李欣海)
	Rationale of generalized linear model广义线形模型的原理
	Logistic regression 逻辑斯蒂回归
	Assumptions 前提条件
	Biological means of the coefficients 系数的生物学意义
	Goodness of fit 拟合优度
	Maximum likelihood estimation 最大似然估计
	Structure of generalized linear model 广义线形模型的结构
	Random component 随机组分
	Systematic component 系统组分
	Link function 连接方程
	Compared with general linear model 同一般线性方程的比较
	Case studies 案例分析
第十三章	Advanced models 高级统计模型 (3学时,教师:肖治术、李欣海)
	Generalized linear model (GLM) 广义线性模型
	Generalized additive model (GAM) 广义可加模型
	Multivariate Adaptive Regression Splines (MARS) 多元自适应回归样条
	Mixture discriminant analysis (MDA) 混合判别分析
	Classification and Regression Tree (CART) 分类与回归树
	Generalized Boosting Models (GBM) 广义推进模型
	Artificial neural networks (ANN) 人工神经网络
	Random Forest (RF) 随机森林
	Genetic Algorithm for Rule Set Production (GARP) 遗传算法
	Maximum entropy method (Maxent) 最大熵模型
	Bayesian method 贝叶斯方法
	Hierarchical modeling 分级模型
考试(2学时)

教学方式: 100 % 课堂授课
考核方式:课后作业(20%)+ 闭卷考试(80%)

参考文献