实用生物信息学(2):多组学数据整合与深度挖掘  100100M01012H

学期:2020—2021学年(春)第二学期 | 课程属性:一级学科核心课 | 任课教师:韩春生,周兵
授课时间: 星期三,第10、11、12 节
授课地点: 图书馆145(机房)
授课周次: 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16
课程编号: 100100M01012H 课时: 50 学分: 3.50
课程属性: 一级学科核心课 主讲教师:韩春生,周兵 助教:林羲雯
英文名称: Practical Bioinformatics (2): Integration and Deep Mining of Multi-Omics Data 召集人:

教学目的、要求

通过该课程的学习,学生将能够掌握当代生物信息学研究的基本概念、原理和技能;将能够利用网络版和自己编写的软件进行基本的生物信息学分析。这是一门理论结合实际操作的重要课程,能够使一名有志于利用生物信息学方法从事生物医学研究的学生开启旅程,而不是停留在纸上谈兵和临渊羡鱼的境地。本课程注重实战,将会最大限度简化理论和算法的讲解。必须重点提醒学生,该课程要求学生具有初步的编程经验和数据库知识,但更大的挑战在于需要花较多时间进行课外自学和完成作业。

预修课程

分子生物学、统计学、C语言(若不符合要求,需要主讲教师特殊批准才可注册该课程)

教 材

自编讲义

主要内容

第一章  生物数据的存储与可视化 (9学时,韩春生)
1.	计算技术与操作基础(Linux操作系统、网站建设(HTML/PHP)、数据库建设(SQL),布置第一次大作业)(3学时)
2.	数据分析与可视化基础(R/Tidyverse)(3学时)
3.	科学数据分析工具平台(Bioconductor/Bioconda/Python)(3学时)
教学重点与难点: 掌握计算技术的基本操作,熟悉网站建设与展示方法,熟悉结构性数据的存储与数据库建设(动态网站和数据呈现);掌握数据分析与可视化的编程语言R和功能包Tidyverse(ggplot2实现精美作图);熟悉科学数据分析的流行工具平台(Bioconducor/R,Bioconda/Python)。难点在于要在较短时间内熟练掌握计算机语言的基础知识和生物大数据存储与可视化的基本分析操作,为后续的学习打好基础。

第二章  序列分析 (15学时 韩春生、周兵)
1.	序列比对分析(经典FASTA/BLAST,短序列BWA,布置第二次大作业)(3学时,韩春生)
2.	序列模式分析(Motif/ profile)(3学时,韩春生)
3.	转录本剪切模式分析(Splicing reads)(3学时,韩春生)
4.	序列富集分析(ChIP-seq/ATAC-seq/WGBS/RIP-seq/CLIP-seq)(3学时,韩春生)
5.	序列关联分析(Hi-C/ChIA-PET/GRID-seq等)(3学时,周兵)

教学重点与难点: 掌握从经典序列比对引出的序列分析的基本概念和理论以及由此发展起来的多种测序数据的分析方法;难点在于掌握多种测序数据分析的特殊点。

第三章  多组学数据的整合分析 (12,韩春生)
1.	生物芯片数据分析(3学时, 布置第三次大作业)
2.	差异基因的分析(3学时)
3.	聚类分析(clustering)和主成分分析(Principal Component Analysis)(3学时)
4.	单细胞转录组测序分析(scRNA-seq)(3学时)

教学重点与难点: 这个章节的重点是了解从表达数据的高级分析方法及其发展历程;学生以后的科研活动中会经常用到的这些知识和技能;难点在于掌握这些分析方法的内在算法及实际意义,并能够灵活应用。

第四章  多组学数据的深度分析 (12,周兵)
1. 深度学习的计算基础(3学时)
2. 卷积神经网络与图像识别(3学时)
3. 生物影像组数据的深度处理(3学时)
4. 神经网络的应用与局限性(3学时)
教学重点与难点:这个章节的重点是了解深度学习的理论基础,掌握基于卷积神经网络进行图像识别和生物影像组数据的深度处理,明确神经网络应用中的优势与局限性。

考试 (2学时)
考核方式: 课后作业(70%)+ 闭卷考试(30%)

参考文献

Bioinformatics: sequence and genome analysis, David W. Mount, New York : Cold Spring Harbor Laboratory, 2004