加入收藏  || English Version 
 
《数据挖掘技术》教学大纲

  发布日期:2015-03-11  浏览量:1183


                                                 

“数据挖掘”又称“常识发现”,是一个从大量的数据中抽取出未知的、有价值规律或常识的过程,它包括数据清洗、数据集成、数据转换、数据挖掘、模式评估和常识表示等部分组成。数据挖掘涉及数据库技术、数据仓库技术、人工智能、机器学习、统计学、模式识别等多个学科中的常识,它的挖掘对象可以是文件、数据库、数据仓库、Web数据库等。就功能而言,数据挖掘主要是对所挖掘对象中的数据进行概念描述、关联规则的获取。

 

本课程的学习目的是通过深入探讨数据挖掘原理,把信息科学、计算科学和统计学对数据挖掘的贡献融合在一起,培养信息专业高年级本科学生具备初步的科研能力和创造能力。

 

本课程是信息与计算科学专业的一门选修课。学习本课程的要求是:使学生初步掌握数据挖掘的基本概念,了解数据挖掘的定义和功能以及实现数据挖掘的主要步骤和具体实现方法,初步掌握数据挖掘的算法。使同学们在学习本课程后,能实现简单的数据挖掘算法编程、了解实现数据挖掘的具体操作,以及数据挖掘当前的研究动向。

 

先修课程高等数学、概率论与数理统计、程序设计语言、数据库原理及应用、计算机网络

本课程计划:54学时,2学分

选用教材陈文伟,黄金才编著,《数据仓库与数据挖掘》,北京:人民邮电出版社,2004

教学手段本门课采用课堂讲授,课堂教学采用多媒体与板书结合的教学手段。

考核方法本课程为考查课。期末笔试占总成绩的60%,平时作业、考勤占总成绩的40%。

 

 

 

 

教学进度表

周次

学时数

教学主要内容

教学环节

备注

1

3

数据挖掘基本概念,包括数据挖掘的产生、特点和数据集市。常识发现和数据挖掘的定义

讲课

 

2

3

数据挖掘的任务、分类、对象和常识表示、数据挖掘方法和技术

讲课

 

3

3

数据仓库和数据挖掘的发展、数据仓库组织结构和数据存储类型

讲课与习题相结合

 

4

3

元数据、数据仓库的数据获取(包括数据质量、数据变换、数据清理)

讲课与习题相结合

 

5

3

数据集成、聚集和概括、装载数据、数据管理和系统管理

讲课

 

6

3

数据仓库设计和多维表设计、数据仓库的查询与索引技术以及数据仓库开发

讲课与习题相结合

 

7

3

数据仓库发展阶段与应用、OLAP的概念

讲课

 

8

3

OLAP的数据组织和多维数据分析

讲课与习题相结合

 

9

3

OLAP的体系结构、工具及评价

讲课

 

10

3

文本挖掘的概念、特征表示与提取、文本分类

讲课

 

11

3

关联分析、文档聚类、Web挖掘

讲课与习题相结合

 

12

3

决策树方法综述、ID3方法、C4.5方法

讲课

 

13

3

粗糙集理论概况、获取规则与应用

讲课与习题相结合

 

14

3

关联规则挖掘算法原理

讲课

 

15

3

Apriori算法和基于FP-tree的关联规则挖掘算法

讲课与习题相结合

 

16

3

数据挖掘的应用,主要先容针对生物医学和DNA数据、金融数据等其他领域的数据分析的挖掘

讲课

 

17

3

数据挖掘的其他主题和社会影响、数据挖掘的发展趋势

讲课

 

18

3

总复习

讲课与习题相结合

 


第一章 数据仓库与数据挖掘概述

一、学习目的

通过本章学习,理解数据仓库概念,掌握数据仓库的特点。理解数据挖掘的概念以及数据挖掘的任务、分类、对象和常识表示、方法和技术等等,简单了解数据仓库与数据挖掘的发展。

 

二、课程内容

本章应掌握的课程内容有:

1.数据仓库的概念,包括:数据仓库的兴起、特点、数据集市的定义。

2.常识发现和数据挖掘的概念,包括:数据挖掘的定义、任务、分类以及对象和数据挖掘的常识表示。

3.数据挖掘的各种方法和技术:归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法和可视化技术。

4.数据仓库和数据挖掘的发展,先容数据仓库和数据挖掘的结合等。

 

三、重点、难点提示

本章重点要理解数据仓库和数据挖掘的概念,同时熟悉各种数据挖掘方法(如归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法及可视化技术等)。

 

四、思考与练习

数据库数据和数据仓库数据有什么不同?

聚类与分类有什么不同?

第二章 数据仓库系统

一、学习目的

掌握数据仓库的组织结构、存储的数据类型以及元数据的概念。

 

二、课程内容

1.数据仓库的组织结构,包括基本结构、系统结构、运行结构和数据集市的结构等内容。

2.数据仓库的存储数据模型,主要先容星型模型、雪花模型、星网模型。

3.先容元数据的概念,以及不同类型的元数据:包括关于数据源的元数据、关于数据模型的元数据、关于数据仓库映射的元数据、关于数据仓库使用的元数据等。

 

三、重点、难点提示

本章重点在于理解数据仓库的系统、运行结构和数据集市的结构,常见的多维数据模式之间的联系与差别,以及关于不同对象的元数据的概念。难点在于数据仓库的结构和元数据的相关概念。

 

四、思考与练习

1、画出数据仓库结构图,并说明各部分内容。

2、数据仓库存储的数据模型有哪些?说明它们的不同点。

3、说明数据库中的元数据以及数据仓库中的元数据的不同点。

 

第三章 数据仓库的数据获取与管理

一、学习目的

熟练掌握从数据仓库获取数据的步骤、方法和需要注意的问题,以及如何对数据本身和系统进行管理。

 

二、课程内容

1、数据仓库的数据获取,主要先容数据质量、数据变换、数据清理、数据集成、聚集和概括、装载数据等几部。

2、数据管理:主要先容脏数据的清理、休眠数据和元数据管理等常识。

3、系统管理,包括:服务水平、性能监控、存储器管理、网络管理和安全管理等多方面。

 

三、重点、难点提示

本章重点在于数据预处理所包含的内容以及预处理主要的方法。难点在于数据的聚集和概括技术、装载数据、离散化和概念分层生成等,以及一些特殊数据的管理。

 

四、思考与练习

1、数据仓库的数据清理有哪些工作?

2、数据仓库的数据集成有哪些工作?

3、元数据的管理功能包括哪些内容?

4、数据仓库的系统管理共包括哪些内容?

5、 

第四章 数据仓库的设计、开发与应用

一、学习目的

    掌握数据仓库设计的目的、方法、多维表技术、数据仓库的查询与索引技术。了解数据仓库开发的方法,数据仓库发展阶段与应用实例。

 

、课程内容

1、数据仓库设计方法,主要先容“数据驱动”的系统设计方法、概念模型、逻辑模型和物理模型的设计方法。

2、多维表设计,先容设计的步骤与示例。

3、数据仓库的查询与索引技术,先容查询的方法和位索引、标识和广义索引技术。

4、数据仓库开发,包括数据仓库规划、体系结构、数据仓库技术、源系统分析与数据变换设计、建立数据仓库和用户访问方法的设计和开发等。

5、先容数据仓库的5个发展阶段与应用实例。

三、重点、难点提示

本章重点在于数据仓库的设计、多维数据表的设计和查询与索引技术,难点在于多维数据表的设计等。

 

四、思考与练习

1、数据仓库的系统设计方法是什么?它的特点是什么?

2、数据分割的策略是什么?

3Bit-Wise索引与B-Tree索引有什么不同?

4、数据仓库开发中定义体系结构与数据仓库设计的关系是什么?

 

第五章 联机分析处理

一、学习目的

了解OLAP的概念,理解OLAP的数据组织、多维数据分析、体系结构以及OLAP的工具和评价。

 

二、课程内容

1OLAP的概念,包括定义、准则、基本概念,以及OLAPOLTP的关系与比较。

2OLAP的数据组织,主要先容关系数据组织和多维数据组织以及两种数据组织的比较。

3OLAP的多维数据分析,先容它的基本功能和广义OLAP功能。

4OLAP的体系结构,先容多层结构和Web结构。

5OLAPOracle OLAP工具及评价指标。

 

三、重点、难点提示

本章重点在于OLAP的数据组织、多维数据分析和体系结构(包括多层和WEB结构)。难点在于OLAP的多维数据分析和体系结构。

 

四、思考与练习

1、OLAP的简单定义是什么?它体现的特征是什么?

2、说明OLAPOLTP比较的主要点。

3、举例说明OLAP的多维数据分析的钻取功能。思考在计算机中如何实现这种功能。

4、OLAP技术用于数据仓库时,如何提高数据仓库的分析能力?

5、 

第六章 文本数据挖掘与Web挖掘

一、学习目的

 

理解文本挖掘与Web挖掘的概念,熟悉文本挖掘与Web挖掘的方法。

 

二、课程内容

1、文本挖掘的基本概念,文本的特征表示与提取。

2、本文的分类、关联分析、文档聚类。

3Web挖掘的特点、分类,以及结构的挖掘和使用记录的挖掘。

 

三、重点、难点提示

本章重点在于文本的特征提取、文本分类以及关联分析、文档聚类等方面。

 

四、思考与练习

1、文本特征提取的思路是什么?

2、文本分类的基本步骤是什么?

3、文本聚类的基本思想是什么?

 

 

 

 


第七章 决策树方法

一、学习目的

理解决策树方法基本原理,熟悉掌握ID3C4.5方法。

 

二、课程内容

1、决策树方法基本概念以及原理。

2、ID3方法的基本思想、算法以及实例计算和讨论。

3、C4.5方法的基本思想、连续属性的处理、决策树剪枝、抽取规则。

 

三、重点、难点提示

本章重点在于ID3C4.5方法的实现。

 

四、思考与练习

1、决策树方法的基本思想是什么?

2、说明ID3方法的建树算法步骤。

3、C4.5方法对ID3方法的改进主要体现在什么地方?

 

第八章 粗糙集方法与关联规则挖掘

一、学习目的

了解粗糙集的基本理论,熟悉粗糙集的规则获取和应用,掌握关联规则的基本原理以及几种关联规则挖掘算法,特别是Apriori算法。

 

二、课程内容

1、粗糙集的概念和最小属性集。

2、粗糙集的规则获取与应用实例。

3、关联规则的挖掘原理、种类和关联规则价值的衡量方法。

4、关联规则的Apriori算法和基于FP-tree的关联规则挖掘算法。

三、重点、难点提示

本章重点在于关联规则的基本概念及各种关联规则的挖掘算法。难点在于Apriori算法。

 

四、思考与练习

1、如何利用集合之间的上下近似关系获得规则?

2、Apriori算法的改进策略有哪些?简述其主要思想。

 

第九章 数据挖掘的应用与发展趋势

一、学习目的

了解神经网络基本概念,掌握BP神经网络,熟悉超曲面神经网络。理解遗传算法的基本流程、算子和特点,熟悉基于遗传的分类学习系统。

 

二、课程内容

1、数据挖掘的应用,包括在生物医学、金融数据、零售业和电信业中的应用。

2、数据挖掘系统产品和研究原型。

3、数据挖掘的其他主题。

4、数据挖掘的社会影响。

 

三、重点、难点提示

本章重点在于理解数据挖掘的应用技术。

 

四、思考与练习

1、假设要在市场上购买一个数据挖掘系统。

A)考虑数据挖掘系统与数据库和/或数据仓库系统耦合方式,试述无耦合、松耦合、半紧耦合和紧耦合之间的区别。

B)行可伸缩性和列可伸缩性之间的区别是什么?

2、为什么说理论基础的建立对数据挖掘是十分重要的?列出并描述现已提出的数据挖掘的主要理论基础。

阅读书目

1、陈京民编著,《数据仓库与数据挖掘技术》,电子工业出版社,2002

2Richard J. Roiger, Michael W. Geatz , 翁敬农译《数据挖掘教程》,清华大学出版社,2003

3、武森等编著,《数据仓库与数据挖掘》,冶金工业出版社,2003

4Jiawei Han, Micheline Kamber. 著,范明、孟小峰等译《数据挖掘概念与技术》(第2版),机械工业出版社,2007

5淑芝等编著,《数据仓库与数据挖掘》,清华大学出版社,2005

打印此页】【顶部】【关闭
   
版权所有 2019 澳门赌搏网站大全 All rights reserved 皖ICP备05018241号
地址:安徽省合肥市九龙路111号澳门新莆京娱乐网站磬苑校区理工楼H楼 邮编:230601 E-mail:math@ahu.edu.cn
访问统计:自2013年9月1日以来总访问:1000  后台管理


XML 地图 | Sitemap 地图