view-count: 3

概率论与数理统计笔记

什么是统计学？

人生，是从不充分的证据开始，引出完美结论的一种艺术。——Samuel Bulter

如果我们不在同一时期，把理解了的科学知识变为我们日常生活的一部分，科学家降不可能提高他们互相拥有的知识。——J.D.Bernal

与人类有关的事实，可以由数量来表示，并且经过大量的积累重复可以导出一般规律。——英国皇家统计学会

一事件与概率

1.1 随机试验和随机事件

随机现象：自然界中的客观现象，当人们观测它时，所得结果不能预先确定，而仅仅是多种可能结果之一。
随机试验：随机现象的实现和对它某个特征的观测。
基本事件：随机试验中的每个单一结果，犹如分子中的原子，在化学反应中不可再分。

e.g. 硬币抛3次，有8种结果：正正正、正正反、正反正……这8种可能结果的每一个都是基本事件。
随机事件：简称事件，在随机试验中我们所关心的可能出现的各种结果，它由一个或若干个基本事件组成。通常用英文大写字母表示或{一种叙述}来表示。
样本空间：随机试验中所有基本事件所构成的集合，通常用或表示。

e.g. 掷一枚骰子，观察出现的点数，则.
必然事件（）：在试验中一定会发生的事件。
不可能事件（）：在试验中不可能发生的事件。

1.2 事件的运算

子事件：事件发生蕴含时间一定发生，则时间成为事件的子事件。若，且，则称时间与事件相等，记为.

事件的和（）：事件和事件中至少有一个发生称为事件和事件的和。

事件的积（）：事件和事件同时发生称为和事件的积。如果，则称和不相容，即事件和不能同时发生。
对立事件（或）：不发生这一事件称为事件的对立事件（或余事件）。

事件和事件的差（）：事件发生而事件不发生这一事件称为事件和事件的差，或等价于.

De Morgan対偶法则及其推广

上式可推广到n个事件：

1.3 概率的定义

概率是随机事件发生可能性大小的数字表征，其值在0和1之间，即概率是事件的函数。概率有以下定义：

1.3.1 古典概率

设一个试验有N个等可能的结果，而事件恰包含其中的个结果，则事件的概率，记为，定义为

或

其中，为事件中基本事件的个数。

古典概型有两个条件：

有限性，试验结果只有有限个（记为n），
等可能性，每个基本时间发生的可能性相同。

注：古典概率可引申出“几何概率”。

1.3.2 概率的统计定义

古典概率的两个条件往往不能满足，但可以将事件的随机试验独立反复做n次（Bernouli试验），设事件发生了次，称比值为事件发生的频率，当n越来越大时，频率会在某个值p附近波动，且波动越来越小，这个值p就定义为事件的概率。该学派为频率派。

注：不能写为，因为不是n的函数。

1.3.3 主观概率

主观概率可以理解为一种心态或倾向性。究其根由，大抵有二：一是根据其经验和知识，二是根据其利害关系。该学派在金融和管理有大量的应用，这一学派成为Bayes学派。

1.3.4 概率的公理化定义

对概率运算规定一些简单的基本法则：

设是随机事件，则,
设为必然事件，则,
若事件和不相容，则,

可推广至无穷：.

注：

一般情况下，，

1.4 古典概率计算

1.4.1 排列组合

选排列：从n个不同元素中取r个不同取法（），.
重复排列：从n个不同元素中可重复地取r个不同取法（），.
组合：同选排列，但不考虑次序，.

注：

排列英文为Permutation，组合英文为Combination.

为1。当r不是非负整数时，记号没有意义.

一些书中将组合写成或，更通用的是.

1.4.2 其他公式

组合系数又常称为二项式系数

n个相异物件分成k堆，各堆物件数分为的方法是

1.5 条件概率

条件概率就是知道了一定信息下得到的随机事件的概率。设事件和是随机试验中的两个事件，，称

为事件发生条件下事件发生的条件概率，可用图形表示：

注：事实上，我们所考虑的概率都是在一定条件下计算的，因为随机试验就是在一定条件下进行的。

1.5.1 条件概率性质

给定发生，：

若，则，可推广至无穷。

1.5.2 乘法定理

由，可推广至

注：右边看似麻烦，其实容易算，左边看似简单，但是难算。

1.6 全概率

设是样本空间中的两两不相容的一组事件，即，，且满足，则称是样本空间的一个分割（又称为完备事件群，英文为partition）。

设是样本空间的一个分割，为的一个事件，则

推导：

注：有时不易直接计算事件的概率，但是在每个上的条件概率容易求出

1.7 Bayes公式

设是样本空间的一个分割，为中的一个事件，，，，则

注：当有因果关系互换时必须用Bayes公式。

1.8 事件的独立性

设，是随机试验中的两个事件，若满足，则称事件和相互独立。判断事件的独立，应该是从实际出发，如果能够判断事件的发生与否对事件的发生与否不产生影响，则事件，即为独立。

设表示事件发生和不发生之一，表示事件发生和不发生之一。有独立性的定义可推至（一共有四个等式）。可推广至：

上面有个等式。

注：独立（independent）和不相容（exclusive）是不同的两个概念，前者有公共部分，后者没有公共部分，独立一定相容。

1.9 重要公式与结论

若 相 独 立 ， 则

二随机变量及其分布

2.1 随机变量的概念

随机变量（Random variable）：值随机会而定的变量，研究随机试验的一串事件。可按维数分为一维、二维至多维随机变量。按性质可分为离散型随机变量以及连续型随机变量。
分布（Distribution）：事件之间的联系，用来计算概率。
示性函数（Indication function）： $反之$ ，事件有随机变量表示出来，称为事件的示性函数。

2.2 离散型随机变量及其分布

离散型随机变量：设为一随机变量，如果只取有限个或可数个值，则称为一个（一维）离散型随机变量。
概率函数：设为一随机变量，其全部可能值为，则称为的概率函数。
概率分布：离散型随机变量的概率分布可以用分布表来表示：

可能值 ... ...

概率 ... ...
概率分布函数：
- 定义：设为一随机变量，则函数
称为的分布函数。（注：这里并未限定为离散型的，它对任何随机变量都有定义。）
- 性质：
  - $是单调非降的：当$ 时，有.
  - 当时，；当时，.
- 离散型随机变量分布函数：
  
  对于离散型随机变量，。
二项分布（Bionomial distribution）：
- 定义：设某事件在一次试验中发生的概率为，先把试验独立地重复n次，以记在这n次试验中发生的次数，则取值，且有
  
  称服从二项分布，记为.
- 服从二项分布的条件：1. 各次试验的条件是稳定的，即事件的概率在各次试验中保持不变；2. 各次试验的独立性
泊松分布（Poisson distribution）：
- 定义：设随机变量的概率分布为
  
  则称服从参数为的Poisson分布，并记.
- 特点：
  - 描述稀有事件发生概率
  - 作为二项分布的近似。若，其中很大，很小，而不太大时（一般），则的分布接近泊松分布.
    
    推导：
    
    若事件，且很大，很小，而不太大时，设，

可能值			...		...
概率			...		...

2.3 连续型随机变量及其分布

连续型随机变量：设为一随机变量，如果不仅有无限个而且有不可数个值，则称为一个连续型随机变量。
概率密度函数：
- 定义：设连续型随机变量有概率分布函数，则的导数称为的概率密度函数。
- 性质：
  - 对于所有的，有；
  - ；
  - 对于任意的，有.
- 注：
  - 对于任意的，有.
  - 假设有总共一个单位的质量连续地分布在上，那么表示在点的质量密度且表示在区间上的全部质量。
概率分布函数：设为一连续型随机变量，则
正态分布（Normal distribution）：
- 定义：如果一个随机变量具有概率密度函数
  
  其中，则称为正态随机变量，并记为.特别地，的正态分布成为标准正态分布。用和表示标准正态分布的分布函数和密度函数。
- 性质：
  - 正态分布的密度函数是以为对称轴的对称函数，称为位置参数，密度函数在处达到最大值，在和内严格单调。
  - 的大小决定了密度函数的陡峭程度，通常称为正态分布的形状参数。
  - 若，则.
- 图像（密度和分布函数图）：

指数分布（Exponential distribution）：
- 定义：若随机变量具有概率密度函数
  
  其中为常数，则称服从参数为的指数分布。
- 概率分布函数：
- 性质：
  - 无后效性，即无老化，要来描述寿命（如元件等）的分布。
    
    证明：
    
    “无老化”就是说在时刻正常工作的条件下，其失效率总保持为某个常数，与无关，可表示
    $证：$
  - 为失效率，失效率越高，平均寿命就越小。
- 图像（密度函数）：
均匀分布（Uniform distribution）：
- 定义：设，如果分布具有密度函数
  $其它$
  则该分布为区间上的均匀分布。
- 概率分布函数：
- 性质：

2.4 多维随机变量（随机向量）

随机向量：设.如果每个都是一个随机变量，，则称为维随机变量或者随机向量。
离散型随机向量的分布：如果每一个都是一个离散型随机变量，，则称为一维离散型随机变量。设的所有可能取值为，则称

为维随机变量的概率函数，这也是其联合分布。

其具有下列性质：
注：对于高维离散型随机变量，一般不使用分布函数
多项式分布
- 定义：设是某一试验之下的完备事件群，分别以记事件的概率，则.将试验独立地重复次，以记在这次试验中事件出现的次数，则为一个维随机向量。该分布记作.
- 概率分布函数：
连续型随机向量的分布：为维连续型随机变量，如果存在上的非负函数，使得对任意的，有

则称为为的概率密度函数。有

则称为为的（联合）分布函数。其中分布函数具有下述性质：
- 单调非降；
- 对任意的，有；
边缘分布：因为的每个分量都是一维随机变量，故它们都有各自的分布，这些都是一维分布，称为随机向量或其分布的边缘分布。
- 离散型随机向量
  
  行和与列和就是边缘分布。即固定某个，即可计算边缘分布，故有
- 连续型随机向量
  
  为求某分量的概率密度函数，只需把中的固定，然后对在到之间做定积分，如

注：二维正态分布的边缘分布密度分别是一维正态分布和。因此联合分布可推边缘分布，而边缘分布不可推联合分布。

2.5 条件分布和随机变量的独立性

离散型随机变量的条件分布：设为二维离散型随机变量，对于给定的事件，其概率，则称

为在给定的条件下的条件分布律。类似的，称

为在给定的条件下的条件分布律。
连续型随机变量的条件分布：设为二维连续型随机变量，对于给定条件下的条件概率密度为

类似的，在下的条件概率密度为

二维正态分布时，其联合密度分布等于条件密度分布的乘积。
随机变量的独立性

称随机变量相互独立，
- 离散型随机变量
  
  则联合分布律等于各自的边缘分布律的乘积，即
  
  其中为的值域中的任意一点。
- 连续型随机变量
  
  则联合密度等于各自的边缘密度的乘积，即
- 更具一般地
  
  设为个随机变量，如果它们的联合分布函数等于各自边缘分布函数的乘积，即
  
  则称随机变量相互独立。
一些重要的结论

2.6 随机变量的函数的概率分布

最简单的情形，是由一维随机变量的概率分布去求其一给定函数的分布。较为常见的，是由的分布去求的分布。更一般地，由的分布去求的分布，其中.

离散型分布的情形：设的分布律为

，令，则的分布律为

即把可以取的不同值找出来，把与某个值相应的全部值的概率加起来，即得取这个值的概率。
连续型分布的情形
- 一个变量的情况
  
  设有密度函数.设，是一个严格单调的函数，即当时，必有或当时，必有.又设的导数存在。由于的严格单调性，其反函数存在，且的导数也存在。有的密度函数为
- 多个变量的情形
  
  以两个为例，设的密度函数，都是的函数：
  
  要求的概率密度函数.假定到的一一对应变换有逆变换：
  
  即雅可比行列式
  
  不为0.在的平面上任取一个区域，变换后到平面的区域，则有
- 随机变量和的密度函数
  
  设的联合密度函数为，的密度函数：
  - 一般的，.
  - 若独立，则.
  两个独立的正态变量的和仍服从正态分布，且有关的参数相加，其逆命题也成立。
- 随机变量商的密度函数
  设的联合密度函数为，的密度函数：
  - 一般的，.
  - 若独立，则.

统计学三大分布

引入两个重要的特殊函数：

和

其中，
- 卡方分布，记作
  
  密度函数：
  
  性质：1. 设独立，，则
  
  2. 若独立，且都服从指数分布，则
- 分布，记作
  
  设 $，$ 独立，，而，则.
  
  密度函数：
  
  性质：密度函数关于原点对称，其图形与正态分布的密度函数的图形相似。
- 分布，记作
  
  设独立，，而，则
  
  密度函数：
三大分布的几个重要性质
1. 设独立同分布，有公共的正态分布.记.则.
2. 设的假定同1，则
3. 设独立，各有分布，各有分布，则
  
  若，则

三随机变量的数字特征

3.1 数学期望（均值）与中位数

数学期望
- 定义：设随机变量只取有限个可能值，其概率分布为.则的数学期望记作或，定义为.数学期望也常称为”均值“，即指以概率为权的加权平均。
- 离散型变量的数学期望：（当级数绝对收敛，即）
- 连续型变量的数学期望：.（当）
- 常见分布的数学期望：
  - 泊松分布：.
  - 二项分布：.
  - 均匀分布：.
  - 指数分布：.
  - 正态分布：.
  - 卡方分布：.
  - 分布：.
  - 分布：.
- 性质：
  - 若干个随机变量之和的期望等于各变量的期望值和，即
  - 若干个独立随机变量之积的期望等于各变量的期望之积，即
  - 设随机变量为离散型，有分布；或者为连续型，有概率密度函数.则
  $当时或当时$
  - 若为常数，则.
条件数学期望
- 定义：随机变量Y的条件期望就是它在给定的某种附加条件下的数学期望。.它反映了随着取值的变化的平均变化的情况如何。在统计上，常把条件期望作为的函数，称为对的回归函数。
- 性质：
  - .
  - .
中位数
- 定义：设连续型随机变量的分布函数为，则满足条件的数称为或分布的中位数。即这个点把的分布从概率上一切两半。
- 性质：
  - 与期望值相比，中位数受特大值或特小值影响很小，而期望不然。
  - 中位数可能不唯一，且在某些离散型情况下，中位数不能达到一分两半的效果。

3.2 方差与矩

方差与标准差
- 定义：设为随机变量，分布为，则称为（或分布）的方差，其平方根（取正值）称为（或分布）的标准差。
- 常见分布的方差：
  - 泊松分布：.
  - 二项分布：.
  - 正态分布：.
  - 指数分布：.
  - 均匀分布：.
  - 卡方分布：.
  - 分布：.
  - 分布：.
- 性质：
  - .
  - 常数的方差为0，即.
  - 若为常数，则.
  - 若为常数，则.
  - 独立随机变量和的方差等于各变量方差和，即.
矩
- 定义：设为随机变量，为常数，为正整数。则量称为关于点的阶矩。特别地，有两种重要的情况：
  
  (1) .这时称为的阶原点矩。
  
  (2).这时称为的阶中心矩。
  
  一阶原点矩就是期望，一阶中心距，二阶中心距就是的方差.
- 两种重要应用：
  - 偏度系数：.衡量概率分布函数是否关于均值对称。如果，则称分布为正偏或右偏；如果，则称分布为负偏或左偏；如果，则对称。（注：为标准差的三次方，可将缩放到一次因次）
  - 峰度系数：.衡量概率分布函数在均值附近的陡峭程度。若有正态分布，则.(注：为标准差的四次方，将缩放到一次因次。为了迁就正态分布，也常定义为峰度系数，以使正态分布的峰度系数为0)

3.3协方差与相关系数

两者都反映了随机变量之间的关系。

协方差（Covariance）
- 定义：称为，的协方差，并记为.
- 性质：
  - 与的次序无关，即.
  - .
  - .
  - 若独立，则.
  - .等号当且仅当之间有严格线性关系（）时成立。
注：协方差的结果受随机变量量纲影响。
相关系数（Correlation coefficient）
- 定义：称为的相关系数，并记为.
- 性质：
  - 若独立，则.
  - ，或，等号当且仅当和有严格线性关系时达到。当时，推出不线性相关。
注：相关系数常称为“线性相关系数”，实际上相关系数并不是刻画了之间消除量纲后“一般”关系的程度，而只是“线性关系的程度”。即使与有某种严格的函数关系但非线性关系，不仅不必为1，还可以为0.

3.4大数定理和中心极限定理

大数定理

“大数”的意思，就是指涉及大量数目的观察值，它表明这种定理中指出的现象只有在大量次数的试验和观察之下才能成立。
- 定义：设是独立同分布的随机变量，记它们的公共均值为.又设它们的方差存在并记为.则对任意给定的，有.（该式表明，当很大时，接近）
中心极限定理

即和的分布收敛于正态分布。
- 定义：设为独立同分布的随机变量，.则对任何实数，有.（为标准正态分布的分布函数）
- 特例：设独立同分布，分布是，.则对任何实数，有.
  
  注：如果是两个正整数，.则当相当大时，近似地有
  
  其中
  
  若把修正为
  
  在应用上式，则一般可提高精度。

四统计量及其分布

该部分后续需拓展

4.1 总体与样本

总体

在一个统计问题里，研究对象的全体叫做总体，构成总体的每个成员称为个体。根据个体的数量指标数量，定义总体的维度，如每个个体只有一个数量指标，总体就是一维的，同理，个体有两个数量指标，总体就是二维的。总体就是一个分布，数量指标就是服从这个分布的随机变量。
总体根据个体数分为有限总体和无限总体，当有限总体的个体数充分大时，其可以看为无限总体。
样本
- 定义：
从总体中随机抽取的部分个体组成的集合称为样本，样本个数称为样本容量。
- 性质：
  - 二重性：抽取前随机，是随机变量；抽取后确定，是一组数值。
  - 随机性：每个个体都有同等的机会被选入样本。
- 独立性：每个样本的取值不影响其他样本取值，即分部独立。
  
  满足后面两个性质称为简单随机样本，则
分组样本

只知样本观测值所在区间，而不知具体值的样本称为分组样本。缺点：与完全样本相比损失部分信息。优点：在样本量较大时，用分组样本既简明扼要，又能帮助人们更好地认识总体。

4.2 样本数据的整理与显示

经验分布函数

若将样本观测值由小到大进行排列，得到有序样本，用有序样本定义如下函数
$当当当$
则称为为该样本的经验分布函数。
格里纹科定理

设是取自总体分布函数为的样本，是该样本的经验分布函数，则当时，有

表明当n相当大时，经验分布函数是总体分布函数的一个良好的近似。它是经典统计学的一块基石。
频数频率分布表

有样本制作频数频率分布表的操作步骤如下：
- 确定组数k；
- 确定每组组距，通常取每组组距相等为d（方便起见，可选为整数）；
- 确定组限（下限略小于最小观测值，上限略大于最大观测值）；
- 统计样本数据落入每个区间的频数，并计算频率。
该表能够简明扼要地把样本特点表示出来。不足之处是该表依赖于分组，不同的分组方式有不同的频数频率分布表。
直方图
- 利用频数频率分布表上的区间（横坐标）和频数（纵坐标）可作为频数直方图；
- 若把纵坐标改为频率就得频率直方图；
- 若把纵坐标改为频率/组距，就得到单位频率直方图。这时长条矩形的面积之和为1.
茎叶图

把样本中的每个数据分为茎与叶，把茎放于一侧，叶放于另一侧，就得到一张该样本的茎叶图。比较两个样本时，可画出背靠背的茎叶图。茎叶图保留数据中全部信息，当样本量较大，数据很分散，横跨二、三个数量级时，茎叶图并不适用。

4.3 统计量及其分布

统计量

不含未知参数的样本函数称为统计量。统计量的分布称为抽样分布。
样本均值
- 定义：
  
  样本的算数平均值称为样本均值，记为.分组样本均值，其中n为样本量，k为组数，与为第i组的组中值和频率，分组样本均值是完全样本均值的一种较好的近似。
  
  样本均值是样本的位置特征，样本中大多数值位于左右。平均可消除一些随机干扰，等价交换也是在平均数中实现的。
- 性质：
  - ，样本数据对样本均值的偏差之和为零；
  - 样本数据与样本均值的偏差平方和最小，即对任意的实数c有;
  - 若总体分布为，则的精确分布为；
  - 若总体分布未知，但其期望与方差存在，则当n较大时，的渐进分布为，这里渐进分布是指n较大时的近似分布。
样本方差与样本标准差

样本方差有两种，与，后者为无偏方差，也是最常用的。（这是因为当为总体方差时，总有,，表明有系统偏小的误差，无此系统偏差。）称为样本标准差。

样本方差是样本的散布特征，越大样本越分散，越小分布越集中，样本标准差比样本方差使用更频繁，因为前者和样本均值有着相同的单位。

的计算有如下三个公式可供选用：

在分组样本场合，样本方差的近似计算公式为

其中k为组数，分别为第i个区间的组中值与频数，为分组样本的均值。
样本矩及其函数
- 样本的k阶原点矩，样本均值为样本的一阶原点矩；
- 样本的k阶中心距，样本方差和都为样本的二阶中心矩；
- 样本变异系数；
- 样本的偏度，反映样本数据与对称性偏离程度和偏离方向；
- 样本的峰度，反映总体分布密度曲线在其峰值附近的陡峭程度和尾部粗细.

次序统计量及其分布

设是取自某总体的一个样本，称为该样本的第i个次序统计量（升序排序后，第i个样本）。
- 称为该样本的最小次序统计量；
- 称为该样本的最大次序统计量；
- 称为该样本的次序统计量，即不独立也不同分布；
- 称为样本极差。
  设总体的密度函数为，分布函数为，为样本，则有
- 样本第k个次序统计量的密度函数为
- 样本第i个与第j个次序统计量的联合密度函数为
样本中位数与样本分位数

设是取自某总体的样本，为该样本的次序统计量，则样本中位数定义为
$为奇数为偶数$
样本的p分位数定义为
$不是整数是整数$
其中[x]表示向下取整。中位数对样本的极端值有抗干扰性，或称有稳健性。
样本分位数的渐近分布：设总体的密度函数为，为总体的p分位数。若在处连续且，则当n充分大时，有
五数概括与箱线图

五数指用样本的五个次序统计量，即最小观测值，最大观测值，中位数，第一4分位数和第三4分位数。其图形为箱线图，可描述样本分布形状。

五参数估计

统计学与概率论的区别就是归纳和演绎，前者通过样本推测总体的分布，而后者已知总体分布去研究样本。因此参数估计则是归纳的过程，参数估计有两种形式：点估计和区间估计（点估计和区间估计都是对于未知参数的估计，而点估计给出的是一个参数可能的值，区间估计给出的是参数可能在的范围）。

5.1 点估计

5.1.1 点估计的概念

点估计（Point estimation）：设是来自总体的一个样本，用于估计未知参数的统计量成为的估计量，或称为的点估计。

5.1.2 点估计的方法

矩估计

定义：设总体概率函数已知，为，是未知参数或参数向量，是样本，假定总体的阶原点矩存在，则对所有的，，都存在，若假设能够表示成的函数，则可给出诸的矩估计：

其中是前阶样本原点矩.

矩估计基于大数定律（格里纹科定理），实质是用经验分布函数去替换总体分布，矩估计可以概括为：

用样本矩代替总体矩（可以是原点矩也可以是中心矩）；
- 用样本矩的函数去替换相应的总体矩的函数。
注：矩估计可能是不唯一的，尽量使用低阶矩给出未知参数的估计。

最大似然估计

定义：设总体的概率函数为，其中是一个未知参数或几个未知参数组成的参数向量，是参数空间，是来自该总体的样本，将样本的联合概率函数看成的函数，用表示，简记为，

称为样本的似然函数。若统计量满足

则称是的最大似然估计，简称MLE（maximum likelihood estimate）.

注：最大似然估计基于样本观测数据，根据概率论思想进行参数估计，首先抽取一定样本，默认这些样本的出现概率是符合原始分布的，即恰好抽到这些样本是因为这些样本出现的概率极大，然后根据概率密度计算联合概率，形成似然函数，似然函数极值位置即为参数的估计值。最大似然估计的前提是已知数据的分布。

最大似然估计步骤：
- 写出似然函数；
- 对似然函数取对数，并整理；
- 求参数向量的偏导，令其为0，得到似然方程；
- 求解似然方程，其解为参数值。
最小均方误差估计

在样本量一定时，评价一个点估计好坏的度量指标可使用估计值与参数真值的距离函数，最常用的是距离平方，由于具有随机性，对该函数求期望即得均方误差：
$点估计的方差偏差的平方$
其中，如果是的无偏估计，则，此时用均方误差评价点估计与用方差是完全一样的。如果如果不是的无偏估计，就要看其均方误差，即不仅要看其方差大小，还要看其偏差大小。

定义：设有样本，对待估参数，设有一个估计类，如果对该估计类中另外任意一个的估计，在参数空间上都有，称是该估计类中的一致最小均方误差估计。
最小方差无偏估计

定义：设是的一个无偏估计，如果对另外任意一个的无偏估计，在参数空间上都有，则称是的一致最小方差无偏估计，简记为UMVUE。

判断准则：设是的一个无偏估计，.如果对任意一个满足的，都有

则是的UMVUE.
贝叶斯估计

区别于频率学派，在统计推断中贝叶斯用到了三种信息：总体信息、样本信息和先验信息（频率学派只用了前两种），其中：
- 总体信息：总体信息即总体分布或总体所属分布族提供的信息，如，若已知总体是正态分布，则可以知道很多信息；
- 样本信息：样本信息即抽取样本所得观测值提供的信息，如，在有了样本观测值后，可以根据它知道总体的一些特征数；
- 先验信息：若把抽取样本看作做一次试验，则样本信息就是试验中得到的信息，如，在一次抽样后，这第一次的抽样就是先验信息。先验信息来源于经验和历史资料。
回顾贝叶斯公式：设是样本空间的一个分割，为中的一个事件，，，，则

贝叶斯密度函数形式：
- 在参数分布已知（已假设）的情况下，表示随机变量取某个给定值时总体的条件概率函数，（参考）；
- 任一未知量都可以看作随机变量，可用一个概率分布去描述，这个分布成为先验分布，该先验分布，（参考）；
- 贝叶斯的观点，样本的产生需分两步：
- 从先验分布产生一个样本；
- 从中产生一组样本。
此时，样本的联合条件概率函数（参考）为
- 因为未知，是从先验分布中产生的，所以需要考虑它的发生概率，样本和参数的联合分布（参考）为
- 因为目的是对进行推断，所以在有样本观测值之后，可依据对作出推断，按照乘法公式（参考1.5.2节），可分解为
  
  其中，是的边际概率函数，类比，
  
  所以可通过条件概率推断的分布
  
  该分布成为的后验分布。它其实是利用总体和样本对先验分布调整的结果，比更接近的实际情况（机器学习里的贝叶斯模型就是基于这样的原理）。
  
  Flag：感觉贝叶斯定理很有意思，今后也会学习相关的贝叶斯分析数据，敬请期待～

5.1.3 点估计的优良性准则

无偏性：设是的一个估计，的参数空间为，若对任意的，有

则称是的无偏估计，否则称为有偏估计。无偏性的要求也可以改写为，无偏性表示表示估计参数与真实参数没有系统偏差。
一个重要的结论：样本均值是总体均值的无偏估计。样本方差不是总体方差的无偏估计（而是渐进无偏估计），因此需要对样本方差进行修正，.
- 样本均值的无偏性推导
$为$
- 样本方差的有偏性推导 $其中当时代入式$
有效性

无偏估计往往有很多种，以总体均值为例，是取自某总体的样本，样本均值和样本都是总体均值的无偏估计，对于两个估计参数的选取需要基于一个度量无偏估计优劣的准则。有效性作为这样的准则，反映了参数估计值和参数真值的波动，波动大小可用方差来衡量，波动越小表示参数的估计越有效。

设，是的两个无偏估计，如果对任意的有

且至少有一个使得上述不等号严格成立，则称比有效。
相合性

根据格里纹科定理，随着样本量不断增大，经验分布函数逼近真实分布函数，即设为未知参数，是的一个估计量，是样本容量，若对任何一个，有

则称为参数的相合估计。

定理1：设是的一个估计量，若

则是的相合估计。

定理2：若分别是的相合估计，是的连续函数，则是的相合估计。
矩估计一般都具有相合性：
- 样本均值是总体均值的相合估计；
- 样本标准差是总体标准差的相合估计；
- 样本变异系数是总体变异系数的相合估计。
渐进正态性（MLE）

在很一般条件下，总体分布中的的MLE具有相合性和渐进正态性，即，其中为样本容量，为费希尔信息量。
充分性（UMVUE）
- 任一参数的UMVUE不一定存在，若存在，则它一定是充分统计量的函数；
- 若的某个无偏估计不是充分统计量的函数，则通过条件期望可以获得一个新的无偏估计，且方差比原估计的方差要小；
- 考虑的估计时，只需要在其充分统计量的函数中寻找即可，该说法对所有统计推断都是正确的，这便是充分性原则。

5.2 区间估计

5.2.1 区间估计的概念

双侧区间

设是总体的一个参数，其参数空间为，是来自该总体的样本，对给定的一个，假设有两个统计量和，若对任意的，有

其中，总体为连续分布时取等号，表示用足了置信水平。称随机区间为的置信水平为的置信区间，或简称是的置信区间，和分别称为的置信下限和置信上限。

置信水平的频率解释：在大量的区间估计观测值中，至少有包含，如下图所示，其置信度为0.95.
单侧区间

设是统计量，对给定的和任意的，有

则称为的置信水平为的置信下限。同理，设是统计量，对给定的和任意的，有

则称为的置信水平为的置信上限。

5.2.2 区间估计的方法

枢轴量法

Step 1：设法构造一个样本和的函数使得的分布不依赖于未知参数，称具有这种性质的为枢轴量。

Step 2：适当地选择两个常数c，d，使对给定的，有

（在离散场合，将上式等号改为）

Step 3：假如能将进行不等式等价变形化为，则有

表明是的同等置信区间。

注：满足条件的c和d有很多，最终选择的目的是希望平均长度尽可能短，但在一些场合中很难做到这一点，因此可以选择c和d，使得两个尾部概率各为，即

得到等尾置信区间。
例：设是来自均匀总体的一个样本，试对设定的给出的同等置信区间。

解：三步法：
- 已知的最大似然估计为样本的最大次序统计量，而的密度函数为
  
  它与参数无关，故可取作为枢轴量。
- 由于的分布函数为，，故，因此可以选择适当的c和d满足
- 在及的条件下，当时，取最小值，所以是置信区间

5.2.3 一些情况下的区间估计

单个正态总体参数的置信区间
- 已知时的置信区间：
- 未知时的置信区间：
- 的置信区间（未知）：
大样本置信区间：
两个正态总体下的置信区间
- 的置信区间
  - 和已知时：
  - 未知时：
  - 已知时：
  - 当m和n都很大时的近似置信区间：
  - 一般情况下的近似置信区间：
- 的置信区间：

六假设检验

6.1 假设检验的基本思想和概念

基本思想

以“女士品茶”为例，对于该女士有没有品茶的能力，有两种假设：该女士没有品茶能力和该女士有品茶能力。在统计上这两个非空不相交参数集合称作统计假设，简称假设。通过样本对一个假设作出对与不对的判断，则称为该假设的一个检验。若检验结果否定该命题，则称拒绝这个假设，否则就接受（不拒绝）这个假设。

假设可分为两种：1. 参数假设检验，即已经知道数据的分布，针对总体的某个参数进行假设检验；2. 非参数假设检验，即数据分布未知，针对该分布进行假设检验。
假设检验的基本步骤

建立假设—>选择检验统计量，给出拒绝域形式—>选择显著性水平—>给出拒绝域—>做出判断

Step 1：建立假设

主要针对参数假设检验问题

设有来自某分布族的样本，其中为参数空间，设，且，则命题称为原假设或零假设（null hypothesis），若有另一个（，常见的一种情况是），则命题称为的对立假设或备择假设（alternative hypotheis），当为简单假设，即只含一个点时，备择假设有三种可能：，，。

Step 2：选择检验统计量，给出拒绝域形式

根据样本计算统计量（如样本均值、标准差等，称为检验统计量），并基于某个法则既可以决定接受还是拒绝，具体地，当统计量在拒绝域中即拒绝，在接受域中即接受。由此可见，一个拒绝域唯一确定一个检验法则，反之，一个检验法则也唯一确定一个拒绝域。

注：不能用一个样本（例子）证明一个命题（假设成立），但是可以用一个样本（例子）去推翻一个命题。此外，拒绝域与接受域之间有一个模糊域，即统计量恰好符合法则，通常将模糊域归为接受域，因此接受域是复杂的。

Step 3：选择显著性水平

假设检验基于小概率事件，即小概率事件在一次试验中几乎不会发生，因此选择一个很小的概率值，令 $拒绝为真$ ，表示是一个小概率事件，在一次试验中不应该发生。如果通过样本得到的统计量，即不该发生的小概率事件竟然发生了，那么应该拒绝。

由于向本是随机的，通常做检验时可能做出错误判断，由此引入了两个错误，分别为第一类错误和第二类错误，如下表所示。

观测数据情况总体情况总体情况

为真为真

接受第一类错误（拒真）正确

拒绝正确犯第二类错误（取伪）

犯第一类错误概率：，即 $拒绝为真$ ；

犯第二类错误概率：，即 $接受为假$ 。

可以证明的，在一定样本量下，两类错误概率无法共同减小，但是当样本增加时，可以同时减小。

证明该问题需要引入是函数，下面将简单介绍势函数，但不对上述结论证明。

定义：设检验问题的拒绝域为，则样本观测值落在拒绝域内的概率称为该检验的势函数，记为

第一类错误概率即为初始设定的很小的概率，称为置信水平，称该检验时显著性水平为的显著性检验，简称水平为的检验。为了尽量减少两类错误，可简单的将其简化为减小第一类错误概率（第二类错误概率难求）。常用的有时也选择0.1或0.01。

Step 4：给出拒绝域

为了使得第一类错误的概率尽可能小，给定一个较小的，并选择一个数，设定若拒绝，使得，所以。

注：算拒绝域时，需基于标准正态分布。

Step 5：做出判断

通过样本计算统计量，若统计量在拒绝域中，则拒绝原假设，否则接受原假设。
检验的值

不同置信水平的取值，可能会存在不同的结果。因此引入新的指标，即利用样本观测值能够作出拒绝原假设的最小显著水平，称为检验的值。由检验的值与心目中的显著性水平进行比较，可以容易做出检验结论：
- 若，则在显著性水平下拒绝；
- 若，则在显著性水平下接受.
注：一般以为有统计学差异，为有显著统计学差异，为有极其显著的统计学差异。

观测数据情况	总体情况	总体情况
	为真	为真
接受	第一类错误（拒真）	正确
拒绝	正确	犯第二类错误（取伪）

Author：钱小z

Email：qz_gis@163.com

Bio：GISer，Spatiotemporal data mining

GitHub：QianXzhen