视觉信息学习与分析  081203 M06001H

学期:2020—2021学年(春)第二学期 | 课程属性:专业研讨课 | 任课教师:黄庆明
授课时间: 星期一,第5、6 节
授课地点: 教一楼114
授课周次: 3、4、5、6、7、8、9、10、11、13、14
授课时间: 星期六,第5、6、7、8 节
授课地点: 教一楼113
授课周次: 13
课程编号: 081203 M06001H 课时: 20 学分: 1.00
课程属性: 专业研讨课 主讲教师:黄庆明 助教:李亮
英文名称: Visual Information Learning and Analysis Seminar 召集人:

教学目的、要求

教学目的和要求:

    本课程是计算机应用技术专业研究生开设的专业研讨课,也可供电子科学与技术等相关专业的研究生选择,其目的是使学生初步掌握模式识别与机器学习的基本内容和算法原理,并了解其在图像与视频等分析中的最新进展和应用。本课程聚焦模式识别与机器学习的热点方向和主题,对学生的要求包括:熟练掌握模式识别和机器学习的基本方法和常用模型,通过实践和研讨使得学生对该学科前沿相关研究有比较深入的理解,培养研究生利用相关方法解决实际问题的能力,为下一步课题研究阶段运用模式识别和机器学习方法完成论文工作并进行相关的科研工作打下良好的基础。

预修课程

模式识别与机器学习,图像处理,视频分析,多媒体技术

教 材

与各主题相关的学术论文

主要内容

内容提要:
Topic 1: Text Detection;	检测图像及视频中出现的文字
Topic 2: Visual Object Tracking;	给定目标在视频第一帧的位置,确定目标在每一帧中的位置
Topic 3: Face Recognition;	识别图像中的人脸
Topic 4: Cross-Modal Retrieval;	实现文本与图像之间的相互检索、及图像之间的相互检索
Topic 5: Image Tagging;	对图像进行自动的语义标注
Topic 6: Visual Saliency Detection;	检测视频及图像中的显著区域
Topic 7: Natural Scene Categories Recognition;	对自然场景图像进行场景识别
Topic 8: Single Image Haze Removal;对图像中的雾进行去除
Topic 9: Generative Adversarial Networks; 使用深度卷积GAN来生成人脸
Topic 10: Image Captioning;对图像自动生成自然语言级的描述

教学方式:教师给出讨论的主题范围,引导学生进行文献检索、阅读、演讲、讨论等

考核方式:按照出勤情况、课堂发言、口头报告、书面报告等给出综合成绩

参考文献

1. TextSnake: A Flexible Representation for?Detecting Text of Arbitrary Shapes.ECCV18
2. CREST:Convolutional RESidual learning for visual Tracking.ICCV17
3. FaceNet: A unified embedding for face recognition and clustering. CVPR15
4. Cross-Modal Retrieval With CNN Visual Features: A New Baseline. IEEE TCYB16
5. Semantic Regularisation for Recurrent Image Annotation. CVPR17
6. Visual Saliency Detection Based on Multiscale Deep CNN Features. IEEE TIP16
7. Scene classification with semantic Fisher vectors. CVPR15
8. DehazeNet: An End-to-End System for Single Image Haze Removal. TIP16
9: Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, ICLR2016
10:BEGAN: Boundary Equilibrium Generative Adversarial Networks,arXiv2017
11:Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge. IEEE TPAMI16
12:Watch What You Just Said: Image Captioning with Text-Conditional Attention. CVPR16