加入收藏  || English Version 
 
《计算统计学》教学大纲

  发布日期:2015-03-11  浏览量:247


  

《计算统计学》是统计学专业一门专业选修课程,本课程以数据分析工作为起点,先容统计思想应用于计算的技术方法,了解数据分析的处理方法与基本统计计算方法

设置本课程的目的是使学生掌握基本的统计计算数值方法,了解产生U(0,1)分布随机数的各种同余方法及其基本定理及产生其他分布随机数的一些基本的数学方法,掌握概率统计模拟方法在定积分计算中的应用与多元线性回归的计算方法,了解常见的数据处理方法与最近出现的部分新方法理论

学习本课程的要求是:使学生能够把统计推导、数值计算和计算机实现有机地结合起来,从而掌握用统计方法解决实际问题的过程,为后继课程的学习奠定基础。

先修课程要求:《数值分析》、《应用多元统计分析》、《Matlab程序设计》

本课程计划总学时54学时,3学分。

选用教材:自编与参考教材相结合。

参考教材为:高惠璇编著,《统计计算》,北京大学出版社,1995

教学手段:课堂讲授为主,习题课与讨论课为辅

考核方法:考查

 

 

教学进程安排表

周次

学时数

教学主要内容

教学环节

备注

1

3

第一章 Monte Carlo方法及其应用

1.1 Monte Carlo 方法

1.2 简单应用的例子

讲课+课堂讨论

 

2

3

第二章   误差与数据处理,分布函数算法

2.1试验误差

2.2计算误差

2.3 数据的变换与校正

讲课

 

3

3

2.4分布函数的一般算法

   1)积分的近似算法

   2)函数逼近法   

讲课

 

4

3

第三章   样本抽样方法

3.1 随机数生成  

3.2 均匀随机数的产生 

讲课

 

5

3

3.2 均匀随机数的产生

3.3 均匀随机数的检验

讲课

 

6

3

3.3 均匀随机数的检验

3.4 非均匀随机数的产生

讲课

 

7

3

3.4 非均匀随机数的产生

讲课

 

8

3

3.5 减少方差的重要抽样法(相似密度抽样法)

3.6 减少方差的分层抽样法与MCMC方法

    习题选讲

讲课+习题课

 

9

3

第四章 聚类分析

4.1 常用的距离

4.2相似系数 

4.3系统聚类方法 

4.4聚类算法的性能比较

讲课

 

10

3

4.5聚类方法

  1以点与点之间的相似性信息进行聚类分析

  2以空间点分布的密度信息进行聚类分析

4.6两种聚类方法的比较

4.7聚类分析在数据挖掘中的应用

讲课

 

11

3

期中考查

课堂讨论

 

12

3

第五章 多元线性回归的计算方法

5.1多元线性回归模型的参数估计与假设检验

5.2基于正规方程的回归算法 

讲课

 

13

3

5.2基于正规方程的回归算法 

5.3利用正交-三角分解进行回归计算

讲课

 

14

3

5.3利用正交-三角分解进行回归计算

5.4谱分解在岭回归估计中的应用

讲课

 

15

3

5.5利用消去变换进行逐步回归计算

讲课

 

16

3

5.6线性约束回归及其计算

讲课

 

17

3

第六章  有限混合模型与EM算法

6.1希望值最大化方法EM算法

6.2有限混合模型                           

讲课

 

18

3

总复习

课堂讨论

 

 

第一章 Monte Carlo方法及其应用

一、学习目的

了解Monte Carlo 方法的基本思想,以及运用该方法的基本思路,即蒙特卡罗求解问题首先要建立一个概率模型或随机过程,使它的参数等于问题的解,然后通过对模型或过程的观察或抽样试验来计算所求参数的统计特征,最后再输出所求解的近似值。第一章计划3学时。

二、课程内容

1.1 Monte Carlo 方法

    蒙特卡罗(Monte Carlo)方法是一种独特的科学计算方法,既可求解随机性问题,又可以求解确定性问题。该方法有其独特的优点:1)与所求解问题的几何维数及问题条件关系不大,几何越复杂,它相对优点越明显;2)适应性强;3)程序结构简单,所需计算机存贮单元比其他数值方法少,容易建立通用性很强的应用App。

1.2简单应用的例子

1蒲丰投针问题

2任意曲边梯形面积的近似计算

三、重点、难点提示和教学手段

Monte Carlo 方法的基本思想,以及该方法的基本思路

四、思考与练习

如何应用Monte Carlo方法对确定性问题进行求解?

 

第二章 误差与数据处理,分布函数算法

一、学习目的

了解试验误差与计算误差的处理方法,掌握数据的变换与校正方法,基本掌握分布函数的一般算法过程。第二章计划6学时

二、课程内容

2.1试验误差

   1系统误差

   2随机误差

   3过失误差

2.2计算误差

2.3 数据的变换与校正

   1数据的近似正态化变换

   2试验误差的校正

2.4分布函数的一般算法

   1积分的近似算法

     1)等距内插求积公式

     2)高斯型求积公式

   2函数逼近法

     1)有理函数逼近

     2)连分式逼近

三、重点、难点提示和教学手段

重点 试验误差的校正;  分布函数的一般算法

难点: 积分的近似算法中的高斯型求积公式;连分式逼近

四、思考与练习

1. 误差产生的原因分析及其处理方法

2. 等距内插求积公式法近似求积分的误差分析

 

第三章 样本抽样方法

一、学习目的

掌握随机数生成与变换的基本定理;

掌握均匀随机数与非均匀随机数的产生方法;了解减少方差的相似密度抽样法与减少方差的分层抽样法;了解MCMC方法。第三章计划15学时

二、课程内容

3.1 随机数生成

   1随机数的定义

在计算机上用数学方法产生均匀随机数是指按照一定的计算方法而产生的数列,它们具有类似于均匀随机变量的独立抽样序列的性质,这些数既然是依照确定算法产生的,因而不可能是真正的随机数,但是具有真正随机数的一些统计性质,就可以作为真正随机数使用。

   2随机数生成与变换的基本定理

3.2 均匀随机数的产生

  1线性同余法(线性同余发生器)

利用数论中的同余运算来产生随机数,故称为同余发生器,包括混合同余发生器和乘同余发生器。

  2混合同余法(混合式LGC)

  3乘同余法(积式发生器

  4素数模乘同余

3.3 均匀随机数的检验

    1参数检验

均匀随机数的参数检验是检验由某个发生器产生的随机数序列的均值,方差或各阶矩等均匀分布的理论值是否有显著的差异。

   2均匀性检验

随机数的均匀性检验又称为频率检验,它用来检验由某个发生器产生的随机数序列是否均匀的分布在[0,1]区间上,即是检验经验频率与理论频率的差异是否显著。

     1) 检验

     2)柯氏检验

柯氏检验是连续分布的拟合性检验。它检验样本的经验分布函数与总体的分布函数间的差异是否显著。

     3)序列检验

    3独立性检验

     1)相关系数检验1

     2)相关系数检验2

     3)列联表检验

3.4 非均匀随机数的产生

3.5 减少方差的重要抽样法(相似密度抽样法)

重要抽样法把积分区域上的均匀抽样改为按对积分值I贡献大的某个密度抽样,这就是重要抽样法的基本思想,也是减少随机模拟试验的误差,加快收敛速度的技巧。

3.6 减少方差的分层抽样法与MCMC方法

分层抽样法的基本思想与重要抽样法相似,它们都是使得对积分值贡献大的抽样更多的出现,不同之处是:分层抽样法不改变原来的概率分布,而是将抽样区间分成一些小区间,在各个小区间内的抽样点数根据贡献大小决定,使得对积分值贡献大的抽样更多的出现,以便提高抽样效率。MCMC方法能够为后验概率得到一致估计,这是因为采样过程最终会进入一种动态平衡,即长期来看在每个状态上花费的时间都与其后验概率成正比。

三、重点、难点提示和教学手段

重点1. 随机数生成与变换的基本定理

2均匀随机数的产生方法

3均匀随机数的均匀性检验与独立性检验

4相似密度抽样法与分层抽样法

难点1. 非均匀随机数的产生方法

2. MCMC方法原理

四、思考与练习

1. 分析MCMC抽样方法与减少方差的重要抽样法之间内在联系

2.给出随机数生成与变换基本定理的证明过程

3. MCMC方法试验(基于matlab语言)

 

第四章 聚类分析

一、学习目的

了解常用距离的表示与系统聚类方法;了解相似性聚类的各种变形与以空间点分布的密度信息进行聚类分析的方法;了解FCM算法.第四章计划6学时。

二、课程内容

4.1 常用距离

  1明氏距离

  2马氏距离

4.2相似系数

  1夹角余弦

  2相关系数

4.3 系统聚类方法

  1最短距离法

  2划分方法

  3层次方法

  4基于密度,网格,模型的方法

4.4 聚类算法的性能比较

4.5 聚类方法

   1以点与点之间的相似性信息进行聚类分析

1)相似性聚类方法

给定集合KÌX,给定X上的一个相似性函数f(x,y)正数g,求K的一个划分,并满足:若两元素x,yf(x,y)³g,x,y分到同一类.这种聚类随g不同而不同,而且所有可能的聚类构成一个分层递阶结构。

2)相似性聚类的各种变形

  2以空间点分布的密度信息进行聚类分析

因为聚类不但与聚类中的个别点的相似性有关,而且与其周围环境的点的相似性也有关,一般“周围环境”的情况用“密度”、“分布函数”来表示。故统计学中的总体分布的非参数估计法(如Parzen窗法、kn-邻近估计等),均可移植到聚类分析中来

4.6 两种聚类方法的比较

4.7 聚类分析在数据挖掘中的应用

三、重点、难点提示和教学手段

点与点之间的相似性信息进行聚类分析, 空间点分布的密度信息进行聚类分析

四、思考与练习

    1. 明氏距离与马氏距离的特点是什么?

    2.给出系统聚类方法的各种表示

 

第五章 多元线性回归的计算方法

一、学习目的

掌握基于正规方程的回归算法以及利用消去变换进行逐步回归计算方法;了解岭回归估计中谱分解;了解正交-三角分解进行回归计算过程与线性约束回归及其计算方法。第五章计划15学时、

二、课程内容

5.1 多元线性回归模型的参数估计与假设检验

回归分析是处理变量间相关关系的一种很有效的统计方法,通过观测数据,寻找某些指标(因变量)与另一些变量(自变量)之间的相互依赖关系。若当假设它们满足线性关系时,所使用的回归方法就称为线性回归分析。设因变量Y与自变量 线性相关,n次观测数据 满足以下多元线性回归模型:

其中 是观测误差,且假定 N 相互独立,记:

   

 则上式可以写为矩阵形式:

        {

回归分析主要讨论以下几方面的问题:

       1)参数 的估计问题

       2)对参数 的线性函数进行统计检验

       3)预测问题

       4)回归变量的筛选问题

5.2 基于正规方程的回归算法

回归模型中参数 的最小二乘估计量 的常用算法是求解正规方程,即求线性方程组 的解。

  1用消去变换进行回归计算

  2用Cholerky分解进行回归计算

rank ,S    ,对SCholerky分解:S      =    ,其中Tm+1阶上三角形矩阵,比较两式,得到:

,由此可得:

5.3利用正交-三角分解进行回归计算

  1变换在回归中的应用

  2Givens变换在增删观测的回归计算中的应用

1) Givens变换

化矩阵A为上三角形矩阵的另一种正交变换,Givens变换,于1954年提出。

2) 应用于回归计算

在回归分析的计算过程中,经回归诊断,若发现某个观测是异常值,则应删除,再用余下的n-1组正常数据重新建立回归模型,且希翼利用已有的结果经少量计算来获得删除某个观测后的回归结果。

5.4谱分解在岭回归估计中的应用

  1利用谱分解计算

  2岭回归估计的算法

5.5利用消去变换进行逐步回归计算

  1逐步筛选变量的过程

逐步回归的基本想法:逐个引入自变量,每次引入对因变量Y影响最显著的变量,每引入一个新变量,对先前引入方程的老变量逐个进行检验,将变为不显著的变量,从影响最小的开始,逐个剔除,直到没有可剔除时考虑引入新变量,此过程反复进行直到不能再引入新变量为止。由此得到的回归方程中所有变量对Y的作用都是显著的,而不在方程中的变量对Y的作用都是不显著的,这样的回归方程称为“最优”回归方程。

  2 逐步筛选法的基本步骤

1) 考虑可否剔除变量的基本步骤

假设已引入回归方程的变量为 ( ),计算已在方程中的变量 的偏回归平方和 ,并设 ,即相应的变量 是方程中对Y影响最小的变量 ;检验变量 Y的影响是否显著:对变量 进行回归系数的显著性检验,即检验 ,检验统计量为:

  ,给定检验水平 ,若 ,则剔除 ,重新建立Y与余下的r-1个变量的回归方程,再检验方程中最不重要的变量可否剔除,直到方程中没有变量可剔除后,转入考虑能否引入新变量的步骤。

2) 考虑可否引入新变量的基本步骤

假设已入选r变量,不在方程中的变量记为 ,计算不在方程中变量 的偏回归平方和 ,并设 ,即不在方程中的变量 是对Y影响最大的变量;检验变量 Y的影响是否显著:对变量 作回归系数的显著性检验,即检验 ,检验统计量为: ,给定水平 ,若 ,则引入变量 ,并转入考虑可否剔除变量的步骤。若 则逐步筛选变量的过程结束。  假设用逐步筛选方法得到r变量 逐立Y与这t变量的回归方程,就是用逐步回归方法得到的“最优”回归方程。

  3用消去变换进行逐步回归计算

5.6线性约束回归及其计算

  1化为无约束回归的算法

  2拉格朗日乘子法

三、重点、难点提示和教学手段

用Cholerky分解进行回归计算方法;用消去变换进行逐步回归计算步骤

四、思考与练习

MatlabApp的统计App包或SPSS统计App作回归分析的一个试验,数据可选用UCI中的某个数据集,并分析试验结果。

 

第六章  有限混合模型与EM算法

一、学习目的

了解EM算法的一般步骤与有限混合模型的基本思想。第六章计划3学时。

二、课程内容

6.1 希望值最大化方法(EM算法)

EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法。在每一迭代循环过程中交替实行两个步骤:E步,在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件希望;M步,用极大化对数似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛,

6.2 有限混合模型

数据集中数据是由一个混合分布P(x)生成的,这样的分布有k种成份,每种成份自身为一个概率分布,数据的生成是通过先选择一种成份,然后根据该成份生成此数据,这里成份表示样本类别。取随机变量S表示样本类别,共有k样本类别且为有限正整数值,即S的值域为{1,2,,k},则有限混合模型的概率分布为:

其中X表示个数据点的属性值

三、重点、难点提示和教学手段

EM算法的本质,有限混合模型的表示方法

四、思考与练习

    EM算法与极大似然估计法有何关系?

    有限混合模型表示的含义是什么?

 

 

 

参考书目

[1] 肖云茹, 概率统计计算方法,南开大学出版社,1994.

[2] 吴国富等,实用数据分析方法,中国统计出版社,1992.

[3] James E. Gentle, Elements of Computational Statistics 影印版,科学出版社,2006.

打印此页】【顶部】【关闭
   
版权所有 2019 澳门赌搏网站大全 All rights reserved 皖ICP备05018241号
地址:安徽省合肥市九龙路111号澳门新莆京娱乐网站磬苑校区理工楼H楼 邮编:230601 E-mail:math@ahu.edu.cn
访问统计:自2013年9月1日以来总访问:1000  后台管理


XML 地图 | Sitemap 地图