科技情报数据分析方法与技术  120500M01003H

学期:2020—2021学年(春)第二学期 | 课程属性:一级学科核心课 | 任课教师:乐小虬,钱力,李春旺
授课时间: 星期三,第5、6、7 节
授课地点: 教一楼227
授课周次: 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16
授课时间: 星期四,第5、6、7 节
授课地点: 教一楼223
授课周次: 15
课程编号: 120500M01003H 课时: 50 学分: 3.00
课程属性: 一级学科核心课 主讲教师:乐小虬,钱力,李春旺 助教:
英文名称: Analysis of Scientific and Technological Information 召集人:

教学目的、要求

本课程为情报学与图书馆学硕士研究生专业核心课。教学目的:1)使情报学专业研究生系统性掌握情报研究中数据分析的基本流程、理论体系及主要技术实现方法; 2)从应用案例出发,重点阐述情报分析过程中的数据采集、数据清洗、计量分析、数据分析模型、文献内容挖掘、技术挖掘、数据可视化等技术方法;3)采用理论与实践相结合的方法,旨在提高学生的动手能力,注重实用,为情报学专业研究生从事专业方向研究提供核心技能。

预修课程

数理统计

教 材

主要内容

第一章 绪论 (3学时)(乐小虬) 
教学重点:情报研究中的数据科学相关概念、研究范畴、主要理论及技术体系、数据分析基本处理流程、关键问题、发展趋势、典型系统案例等。1.1科技情报数据分析技术主要研究内容及范畴、解决情报研究中何种问题、意义(典型应用案例、实例说明)、在情报研究学科体系中的角色和地位以及相关学科交叉体系,如情报学与数据科学、计算机科学、统计学等。1.2 发展脉络,梳理数据分析技术在科技情报研究中的发展历程、发展趋势。1.3 主要理论体系。1.4 主要技术体系。1.5 面临的挑战。
第二章 数据来源与获取 (6学时)(李春旺) 
教学重点:支持情报分析的大数据资源体系 ( 从情报分析产品应用的角度 )以及数据获取方法。2.1情报分析资源体系结构、主要数据类型,以一个领域为例,介绍该领域相关资源组成以及这些资源可能存放的地方;对于重点资源类型,特别是新型资源类型,举典型实例。2.2情报数据获取方式与方法,包括Web数据采集关键技术(网络爬虫、网页解析、正文提取、归并等)、基于开放接口(OAI整合、RSS聚合等)、基于主题爬虫、基于FTP同步等,开源工具示例,典型实例(SCI数据采集工具)分析等。2.3数据获取相关问题,如数据权威性问题、数据权益问题、数据格式问题、元数据质量问题、数据规范变更问题、数据获取批量规模问题、数据更新问题等。

第三章 数据汇聚与融合 (6学时)(李春旺)
  教学重点:大数据体系下数据预处理及融合技术。3.1数据描述规范,不同来源数据采用不同的结构描述规范,常用描述规范:基于关系数据库的元数据描述规范、简单元数据描述、数字对象描述(METS/PREMIS)、开放文档格式(ODF/Open xml)、JSON数据格式;基于RDF描述数据(Linked Data)等;面向情报分析的大数据描述方案。3.2数据清洗,包括缺失数据识别与补全、冗余数据识别与处理、噪声数据识别与处理(错误数据、虚假数据、无效数据、异常数据等)3.3 数据实体抽取,如作者名、机构名抽取等,实体规范化处理,包括分级处理、名称规范处理、中英文多形式映射等。主要方法包括模式匹配技术、规范库动态扩展方法、数据内容完整性检测、语义标注等。3.4数据汇聚,阐述如何将多来源、多类型的科技成果数据、科技活动数据、科技管理数据、科技资讯、自媒体、日志行为数据等数据,按照配置化的思路,基于统一表征进行汇聚,形成基础知识库、数据汇聚更新机制。3.5数据融合,基于多源异构的科技情报大数据外部特征与内部语义特征,讲解大数据从元数据记录层、知识实体层以及知识关系层等多层次的融合关键技术,建立对象之间的关联融合,实现相同实体对象的属性集成融合,包括数据消歧及同一对象数据的归一化处理等,剖析数据融合关键技术。
参观内容: 参观中科院计算机网络信息中心超级云计算中心(怀柔),参观云存储机房、超算机房,学习了解超级云计算数据平台组成及应用情况。


第四章 基础数据分析技术 (9学时)(乐小虬) 
教学重点:科技情报研究中常用的几种数据分析模型的基本原理、方法、处理流程、适用范围。4.1文献知识网络分析:;4.1.1 引文网络、学术关系网络、共词网络的构建;4.1.2 社会网络分析;4.1.3复杂网络分析;4.1.4 几种常见文献计量指标、专利计量指标计算方法;4.1.5 应用案例(科学地图)。4.2 机器学习模型:4.2.1 典型统计学习方法:逻辑回归模型、CRF、SVM;4.2.2 深度学习(CNN,RNN);4.2.3 迁移学习;4.2.4 强化学习。4.3 文本分析技术:4.3.1 文本特征及表示方法(TF/IDF、词向量); 4.3.2 命名实体识别、关系抽取; 4.3.3 主题识别模型(LDA); 4.3.4 文本分类与聚类模型; 4.3.5 关联分析模型(推荐模型)。4.4 创新分析技术:4.4.1 新颖性分析;4.4.2 异常分析;4.4.2 Triz创新理论;4.4.3颠覆性技术、新兴技术、科技前沿分析方法

第五章 智能数据分析技术 (6学时)(乐小虬)
 教学重点:科技情报数据分析中具有前沿性、挑战性的技术。   5.1 语义理解理论与方法:5.1.1文本语义表示;5.1.2 语义关系识别;5.1.3 语义分析与计算;5.1.4 科技文献机器阅读理解(QA)。  5.2 认知计算理论与方法:5.2.1 感知技术;5.2.2 自主学习;5.2.3人机认知融合与交互。  5.3 自动化知识技术:5.3.1 科技文献自动综述;5.3.2 自动科技查新;5.3.3 写作机器人

第六章 大数据计算平台 (6学时)(钱力)
 教学重点:大数据计算分析平台,介绍分布式大数据采集、分布式存储、分布式计算、分布式索引以及微服务等,结合实际案例讲解其支撑大数据分析与计算的效果。6.1科技情报大数据技术整体架构;6.2分布式技术技术选型:分布式存储系统、计算系统、检索系统、服务系统;6.3分布式存储平台(包括结构化与非结构化数据),大文件系统工作原理(Hadoop-HDFS)、小文件系统工作原理(FastDFS)、数据仓库系统(HIVE)。6.4分布式计算平台:计算资源管理系统、Yarn、实时计算、Hadoop-Mapreduce计算框架原理、Spark计算框架原理、离线计算、Sparkstreaming计算引擎原理、Storm计算引擎原理、Kafka工作原理。6.5分布式检索平台(Elasticsearch),分布式索引、检索的工作原理,以及在生产环境中计算索引与服务索引的定位。6.6基于微服务架构的大数据服务平台,微服务模式与传统服务方式的区别,SpringCloud的技术组件。6.7  大数据计算案例,基于大数据计算的科技情报知识图谱构建

第七章 数据可视化技术 (6学时)(钱力)
教学重点:知识图谱可视化技术、实体关系网络图、趋势图、热点图、专利地图等常见情报分析图的构建方法,相关开源工具、例程、应用实例。7.1  数据可视化概念理论与意义;7.2  数据可视化模型;7.3 大数据可视化技术,WebGL原理与方法;7.3  数据可视化开源工具:7.3.1 可视化图表;7.3.2 可视化图形;7.3.3 3D可视化。7.4 情报分析数据可视化案例

第八章 科技情报数据分析典型应用 (6学时) (乐小虬)
教学重点:科技情报数据分析方法的综合利用问题。以情报产品为例,阐述科技情报数据分析全流程,介绍几种常见情报产品处理流程、技术实现方法、应用案例(根据实际情况选取案例)。简述常用分析工具、训练数据集。8.1 科技前沿分析(全球科技前沿分析应用案例);8.2 专题情报分析(石墨烯等);8.3 常见分析工具,TDA、Citespace等。

参考文献

《统计学习方法》,李航,清华大学出版社,2012.《数据科学理论与实践》,朝乐门,清华大学出版社,2017;《技术挖掘与专利分析》,Alan L. Porter, Scott W. Cunningham ,清华大学出版社,2012