『Statistics』方差分析

2020-10-09

Statistics

字数统计: 7.4k | 阅读时长≈ 27 分钟

方差齐性检验

目的：方差齐性是方差分析和一些均数比较 $t$ 检验的重要前提，利用 $F$ 检验进行方差齐性检验是最原始的，但对数据要求比较高。

要求：样本来自两个独立的、服从正态分布的总体。

检验原理

记两独立总体为：

$$
\begin{equation}X_{1} \sim N\left(\mu_{1}, \sigma_{1}^{2}\right), \quad X_{2} \sim N\left(\mu_{2}, \sigma_{2}^{2}\right)\end{equation}
$$

从两总体中抽取的样本为：

$$
\begin{equation}X_{1 i}\left(i=1,2, \cdots, n_{1}\right), \quad X_{2 j}\left(j=1,2, \cdots, n_{2}\right)\end{equation}
$$
定义样本均值和样本方差：

方差齐性双侧检验的原假设和备择假设：

由 $F$分布的构造定义：

$$
\begin{equation}\frac{s_{1}^{2} / \sigma_{1}^{2}}{s_{2}^{2} / \sigma_{2}^{2}} \sim F\left(n_{1}-1, n_{2}-1\right)\end{equation}
$$
其中 $$n_{1}-1, n_{2}-1$$ 分别为分子自由度和分母自由度。

在 $H_0$成立的条件下，即 $$\sigma_{1}^{2}=\sigma_{2}^{2}$$ 成立的条件下：

一般约定取较大的方差作为分子，较小的方差作为分母，这样计算出来的 $F>1$，缩小了范围，便于查表做出结论。给定显著性水平 $\alpha$，利用样本数据计算统计量 equation (2) ，若 MommyTalk1601003500615 ，这在一次抽样中几乎是不可能发生的（其发生的可能性为 $p$ 值）此时拒绝原假设，认为方差不齐，否则就不拒绝原假设（即认为方差齐）。

对于单侧检验：

若 equation (6) ，则拒绝原假设，否则不拒绝原假设。

基本思想和原理

1. 图形描述

可以绘制各个总体的箱线图，或者带有均值的散点图

从散点图可以看出，不同行业被投诉的次数是有明显差异的，而且，即使是在同一个行业，不同企业被投诉的次数也明显不同。从图中可以看出，家电制造业被投诉的次数较多，而航空公司被投诉的次数较少。这表明行业与被投诉次数之间有一定的关系。如果行业与被投诉次数之间没有关系，那么它们被投诉次数的均值应该差不多相同，在散点图上所呈现的模式就应该很接近。

2. 误差分解

随机误差

因素的同一水平(总体)下，样本各观察值之间的差异，比如，同一行业下不同企业被投诉次数是不同的。这种差异可以看成是随机因素的影响，称为随机误差

系统误差

因素的不同水平(不同总体)下，各观察值之间的差异，比如，不同行业之间的被投诉次数之间的差异。这种差异可能是由于抽样的随机性所造成的，也可能是由于行业本身所造成的，后者所形成的误差是由系统性因素造成的，称为系统误差

首先，注意到在同一行业(同一个总体)中，样本的各观测值是不同的。例如，在零售业中，所抽取的7家企业之间被投诉的次数是不同的。由于企业是随机抽取的，因此它们之间的差异可以看成是随机因素的影响造成的，或者说是由抽样的随机性所造成的随机误差。这种来自水平内部的数据误差也称为组内误差。例如，零售业中所抽取的7家企业被投诉次数之间的误差就是组内误差，它反映了一个样本内部数据的离散程度。显然，组内误差只含有随机误差。

其次，不同行业(不同总体)之间的观测值也是不同的。来自不同水平之间的数据误差称为组间误差。这种差异可能是由抽样本身形成的随机误差，也可能是由行业本身的系统性因素造成的系统误差。因此，组间误差是随机误差和系统误差的总和。例如，四个行业被投诉次数之间的误差就是组间误差，它反映了不同样本之间数据的离散程度。

在方差分析中，数据的误差用平方和 (sum of squares) 表示的。称为方差

总平方和(sum of squares for total, $SST$) 反应全部数据误差大小的平方和。例如，所抽取的全部 23 家企业被投诉次数之间的误差平方和，它反映了全部观测值的离散状况

组内平方和 (sum of squares of error, $SSE$) 反映组内误差大小的平方和，也称误差平方和或残差平方和。例如，每个样本内部的数据平方和加在一起就是组内平方和，它反映每个样本内观测值的离散状况。

因素平方和 (sum of squares for factor A, $SSA$) 它反映组间误差大小的平方和，也称为因素平方和。例如，四个行业被投诉次数之间的误差平方和就是组间平方和，它反映样本均值之间的差异程度

Untitled Diagram

3. 误差分析

若因素不同水平对试验指标没有影响，则组间误差中只包含随机误差，没有系统误差。这时，组间误差与组内误差经过平均后的数值就应该很接近，它们的比值就会接近1
若因素不同水平对试验指标有影响，在组间误差中除了包含随机误差外，还会包含有系统误差，这时组间误差平均后的数值就会大于组内误差平均后的数值，它们之间的比值就会大于1
当这个比值大到某种程度时，就可以说不同水平之间存在着显著差异，也就是自变量对因变量有影响

方差分析中的基本假定

方差分析中有三个基本假定：

（1）每一个总体都应服从正态分布。也就是说，对于因素的每一个水平，其观察值是来自服从正态分布总体的简单随机样本

（2）各个总体的方差 $\sigma^2$ 必须相同。也就是说，各组观察数据是从具有相同方差的正态总体中抽取的。

（3）观测值是独立的。例如，在例10.1中，要求每个被抽中的企业被投诉的次数都与其他企业被投诉的次数独立。

问题的一般提法

如果原假设成立，即 $H_{0}: \mu_{1}=\mu_{2}=\mu_{3}=\mu_{4}$

四个行业被投诉次数的均值都相等
意味着每个样本都来自均值为 $\mu$、方差为 $\sigma^2$ 的同一正态总体

若备择假设成立，即 $H1 ：\mu_i (i=1,2,3,4)$不全相等

至少有一个总体的均值是不同的
四个样本分别来自均值不同的四个正态总体

单因素方差分析

根据所分析的分类型自变量的多少，方差分析可分为单因素方差分析和双因素方差分析。

单因素方差分析

当方差分析中只涉及一个分类型自变量时称为单因素方差分析(one-way analysis of variance，One Way ANOVA) 。单因素方差分析研究的是一个分类型自变量对-一个数值型因变量的影响。例如，要检验不同行业被投诉次数的均值是否相等，这里只涉及行业-一个因素，因而属于单因素方差分析。

1. 数据结构

进行单因素方差分析时，需要得到下面的数据结构。

为叙述方便，在单因素方差分析中，用 $A$ 表示因素，因素的 $k$ 个水平(总体)分别用 $A_1, A_2, ..，A_k$ 表示，每个观测值用 $x_{ij}(i=1，2，..，k; j=1, 2，.，. n)$ 表示，即 $xij$ 表示第 $i$ 个水平(总体)的第 $j$ 个观测值。例如，$x_{21}$ 表示第二个水平的第一个观测值。其中，从不同水平中所抽取的样本量可以相等，也可以不相等。

2. 分析步骤

为检验自变量对因变量是否有显著影响，首先需要提出 “两个变量在总体中没有关系”的原假设，然后构造一个用于检验的统计量来检验这一假设是否成立。具体来说，方差分析包括提出假设、构造检验的统计量、统计决策等步骤。

提出假设

在方差分析中，原假设所描述的是在按照自变量的取值分成的类中，因变量的均值相等。因此，检验因素的 $k$ 个水平(总体)的均值是否相等，需要提出如下形式的假设:

式中， $\mu_i$ 为第 $i$ 个总体的均值。

注意：拒绝原假设，只表明至少有两个总体的均值不相等，并不意味着所有的均值都不相等

构造检验的统计量

为检验 $H_0$。是否成立，需要确定检验的统计量。如何构造统计量呢? 在此结合例 10.1 的数据结构说明其计算过程。

（1）计算各样本的均值

假定从第 $i $ 个总体中抽取一个容量为 $n_i$ 的简单随机样本，令 $\bar{x_i}$ 为第 $i$ 个总体的样本均值，则有：

式中，$n_i$为第 $i$ 个总体的样本量; $x_{ij}$ 为第 $i$ 个总体的第 $j$ 个观测值。

（2）计算全部观察值的总均值

它是全部观测值的总和除以观测值的总个数，

$$
\begin{equation}\bar{\bar{x}}=\frac{\sum_{i=1}^{k} \sum_{j=1}^{n_{i}} x_{i j}}{n}=\frac{\sum_{i=1}^{k} n_{i} \bar{x}_{i}}{n}\end{equation}
$$

式中：$n= n_1+n_2+ \cdots +n_k $

根据上述两个步骤则有

（3）计算各误差平方和

为构造检验的统计量，在方差分析中，需要计算三个误差平方和，它们是总平方和、组间平方和(因素平方和)、组内平方和(误差平方和或残差平方和)。

1）总平方和 (sum of squares for total), 记为 $SST$ .全部观察值 $x_{ij}$与总平均值 $\bar{\bar{x}}$的离差平方和，反映全部观察值的离散状况。计算公式为：

$$
\begin{equation}S S T=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\bar{\bar{x}}\right)^{2}\end{equation}
$$

前例的计算结果为：

$$
\begin{aligned}
S S T &=(57-47.869565)^{2}+\ldots+(58-47.869565)^{2} \
&=115.9295
\end{aligned}
$$

2）组间平方和 (sum of squares for factor A)，记为 $SSA$ , 它是各组均值元 $x_i (i=1, 2, .，k)$ 与总均值 $\bar{\bar{x}}$的误差平方和，反映各样本均值之间的差异程度，因此又称为因素平方和。该平方和既包括随机误差，也包括系统误差

其计算公式为:

前例的计算结果为：

3）组内平方和 (sum of squares of error), 它是每个水平或组的各样本数据与其组平均值的离差平方和，

反映每个样本各观察值的离散状况，又称组内平方和，该平方和反映的是随机误差的大小。计算公式为：

$$
\begin{equation}S S E=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\bar{x}_{i}\right)^{2}\end{equation}
$$

前例的计算结果为：

零售业：$$\sum_{j=1}^{7}\left(x_{1 j}-\bar{x}_{1}\right)^{2}=(57-49)^{2}+(66-49)^{2}+\cdots+(44-49)^{2}=700$$

旅游业：$$\sum_{j=1}^{6}\left(x_{2 j}-\bar{x}_{2}\right)^{2}=(68-48)^{2}+(39-48)^{2}+\cdots+(51-48)^{2}=924$$

航空业：$$\sum_{j=1}^{5}\left(x_{3 j}-\bar{x}_{3}\right)^{2}=(31-35)^{2}+(49-35)^{2}+\cdots+(40-35)^{2}=434$$

家电制造：$$\sum_{j=1}^{5}\left(x_{4 j}-\bar{x}_{4}\right)^{2}=(44-59)^{2}+(51-59)^{2}+\cdots+(58-59)^{2}=650$$

然后将其加总可以得到：$$S S E=700+924+434+650=2708$$

三个平方和的关系

总离差平方和($SST$)、水平项离差平方和 ($SSA$) 、误差项离差平方和 ($SSE$)之间的关系

前例的计算结果为：$$4164.608696=1456.608696+2708$$

三个平方和的作用

$SST$ 反映全部数据总的误差程度；$SSE$ 反映随机误差的大小；$SSA$ 反映随机误差和系统误差的大小。
如果原假设成立，则表明没有系统误差，组间平方和 $SSA$ 除以自由度后的均方与组内平方和$SSE$ 和除以自由度后的均方差异就不会太大；如果组间均方显著地大于组内均方，说明各水平(总体)之间的差异不仅有随机误差，还有系统误差。
判断因素的水平是否对其观察值有影响，实际上就是比较组间方差与组内方差之间差异的大小

（4）计算统计量

由于各误差平方和的大小与观测值的多少有关，为了消除观测值多少对误差平方和大小的影响，需要将其平均，也就是用各平方和除以它们所对应的自由度，这一结果称为均方(mean square，$MS$)，也称为方差。三个平方和所对应的自由度分别为:

$SST$ 的自由度为 $n-1$ ，其中 $n$ 为全部观察值的个数。
$SSA$ 的自由度为 $k-1$ ，其中 $k$ 为因素水平(总体)的个数。
$SSE$ 的自由度为 $n-k$ .

组间方差：$SSA$ 的均方，记为 $MSA$ ，计算公式为

$$
\begin{equation}M S A=\frac{S S A}{k-1}\end{equation}
$$

前例的计算结果为：$M S A=\frac{1456.608696}{4-1}=485.536232$$

组内方差：$SSE$ 的均方，记为$MSE$ ，计算公式为

$$
\begin{equation}M S E=\frac{S S E}{n-k}\end{equation}
$$

前例的计算结果为：$M S E=\frac{2708}{23-4}=142.526316$

计算检验统计量 $F$

将 $MSA$ 和 $MSE$ 进行对比，即得到所需要的检验统计量 $F$

当 $H_0$为真时，二者的比值服从分子自由度为 $k-1$、分母自由度为 $n-k$ 的 $F $ 分布，即

$$
\begin{equation}F=\frac{M S A}{M S E} \sim F(k-1, n-k)\end{equation}
$$

前例的计算结果为：$F=\frac{485.536232}{142.526316}=3.406643$

统计决策

将统计量的值 $F$ 与给定的显著性水平$\alpha$ 的临界值 $F_{\alpha}$进行比较，作出对原假设 $H_0$的决策

根据给定的显著性水平$\alpha$ ，在 $F$ 分布表中查找与第一自由度$df_1 ＝k-1$、第二自由度 $df_2 =n-k $相应的临界值 $F_{\alpha}$
若$F>F_{\alpha} $，则拒绝原假设 $H_0 $，表明均值之间的差异是显著的，所检验的因素对观察值有显著影响
若$F<F_{\alpha} $, 则不能拒绝原假设 $H_0 $, 表明所检验的因素对观察值没有显著影响

方差分析表

为使计算过程更加清晰，通常将上述过程的内容列在一张表内，这就是方差分析表 (analysis of variance table)

结果输出：

表中的“SUMMARY”部分是有关各样本的一些描述统计量，它们可以作为方差分析的参考信息。“方差分析”部分即为方差分析表，其中，$SS$ 表示平方和; $df$ 为自由度; $MS$ 表示均方; $F$ 为检验的统计量; $P-value$ 为用于检验的 $P$ 值; $F crit $ 为给定的 $\alpha$ 水平下的临界值。

从方差分析表可以看到，由于$F=3.406 643>F_{0.05}(3，19)=3. 127 354$，所以拒绝原假设Ho，表明$$\mu_{1}, \mu_{2}, \mu_{3}, \mu_{4}$$ 之间的差异是显著的，即行业对被投诉次数的影响是显著的。

在进行决策时，可以直接利用方差分析表中的 $P$ 值与显著性水平 $\alpha$ 的值进行比较。若 $P<\alpha $，则拒绝$H_0$; 若$P>\alpha$，则不拒绝$H_0$。在本例中，$P=0. 038765<\alpha=0.05$，所以拒绝 $H_0$。

回顾： P-value

P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小，说明这种情况发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由就越充分。

关系强度的测量

例10.1 的方差分析结果显示，不同行业被投诉次数的均值之间有显著差异，这意味着行业(自变量)与被投诉次数(因变量)之间的关系是显著的。

上例中的数据，给出了组间平方和(组间SS)，它度量了自变量(行业)对因变量(被投诉次数)的影响效应。实际上，只要组间平方和(SSA)不等于零，就表明两个变量之间有关系(只是是否显著的问题)。当组间平方和比组内平方和(SSE)大，而且大到一定程度时，就意味着两个变量之间的关系显著，大得越多，表明它们之间的关系就越强; 反之，当组间平方和比组内平方和小时，就意味着两个变量之间的关系不显著，小得越多，表明它们之间的关系就越弱。

可以用组间平方和($SSA$) 占总平方和($SST$) 的大小来反映，这一比例记为 $R^2$ , 即

$$
R^{2}=\frac{S S A(\text { 组间平方和 })}{S S T(\text { 总平方和 })}
$$

前述例题 $R^2$
$$
R^{2}=\frac{S S A}{S S T}=\frac{1456.608696}{4146.608696}=0.349759=34.9759 %
$$

$R=0.591404$

结论：

行业(自变量)对投诉次数(因变量)的影响效应占总效应的 34.9759%，而残差效应则占 65.0241%。即行业对投诉次数差异解释的比例达到近 35%，而其他因素(残差变量) 所解释的比例近为65%以上, 尽管 $R^2$ 并不高，但行业被投诉次数的影响已经达到统计上显著的程度。
$R=0.591404$ ，表明行业与投诉次数之间有中等以上的关系\

双因素方差分析

two-way analysis of variance

单因素方差分析只是考虑一个分类型自变量对数值型因变量的影响。在对实际问题的研究中，有时需要考虑几个因素对试验结果的影响。例如，分析影响彩电销售量的因素时，需要考虑品牌、销售地区、价格、质量等多个因素的影响。当方差分析中涉及两个分类型自变量时，称为双因素方差分析(two-way analysis of variance)。

【例 10.3】有4个品牌的彩电在个品牌的彩电在5个地区销售，为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量是否有影响对销售量是否有影响，对每种品牌在各地区的销售量取得以下数据对每种品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响销售地区对彩电的销售量是否有显著影响？( $\alpha$=0.05)

分析两个因素(行因素Row和列因素Column)对试验结果的影响。

如果两个因素对试验结果的影响是相互独立的，分别判断行因素和列因素对试验数据的影响，这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析(Two-factor without replication)

如果除了行因素和列因素对试验数据的单独影响外，两个因素的搭配还会对结果产生一种新的影响，这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析 (Two-factor with replication )

1、双因素方差分析的基本假定

每个总体都服从正态分布

对于因素的每一个水平，其观察值是来自正态分布总体的简单随机样本
各个总体的方差必须相同

对于各组观察数据，是从具有相同方差的总体中抽取的
观察值是独立的

2、无交互作用的双因素方差分析

(1) 数据结构

$\bar{x_{i}}$ 是行因素的第 $i$ 个水平下各观察值的平均值个水平下各观察值的平均值
$\bar{x_{.j}}$ 是列因素的第 $j$ 个水平下的各观察值的均值个水平下的各观察值的均值
$\bar{\bar{x}}$ 是全部 $kr$ 个样本数据的总平均值：

与单因素方差分析类似，双因素方差分析也包括提出假设、构造检验的统计量、统计决策等步骤。

(2) 提出假设

为了检验两个因素的影响，需要对两个因素分别提出如下假设。

对行因素提出的假设为:

式中， $\mu_i$ 为列因素的第 $i$个水平的值。

对列因素提出的假设为：

式中， $\mu_j$ 为列因素的第 $j$个水平的值。

(3) 构造检验统计量

计算平方和

总误差平方和：

$$
\begin{equation}S S T=\sum_{i=1}^{k} \sum_{j=1}^{r}\left(x_{i j}-\bar{\bar{x}}\right)^{2}\end{equation}
$$

行因素误差平方和:

$$
\begin{equation}S S R=\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{i .}-\bar{\bar{x}}\right)^{2}\end{equation}
$$

列因素误差平方和

$$
\begin{equation}S S C=\sum_{i=1}^{k} \sum_{j=1}^{r}\left(\bar{x}_{j}-\bar{\bar{x}}\right)^{2}\end{equation}
$$

随机误差项平方和

上述平方和的关系为：

$$
\begin{equation}\mathrm{SST}=\mathrm{SSR}+\mathrm{SSC}+\mathrm{SSE}\end{equation}
$$

计算均方(MS)

误差平方和除以相应的自由度
三个平方和的自由度分别是
- 总离差平方和$SST$ 的自由度为 $ kr-1$
- 行因素的离差平方和 $SSR$ 的自由度为 $k-1$
- 列因素的离差平方和 $SSC$ 的自由度为 $r-1$
- 随机误差平方和$SSE$ 的自由度为 $(k-1)×(r-1)$

行因素的均方，记为 $MSR$，计算公式为

$$
\begin{equation}M S R=\frac{S S R}{k-1}\end{equation}
$$

列因素的均方，记为MSC ，计算公式为

$$
\begin{equation}M S C=\frac{S S C}{r-1}\end{equation}
$$

随机误差项的均方，记为 $MSE$ ，计算公式为

$$
\begin{equation}M S E=\frac{S S E}{(k-1)(r-1)}\end{equation}
$$

为检验行因素对因变量的影响是否显著，采用下面的统计量:

$$
\begin{equation}F_{R}=\frac{M S R}{M S E} \sim F(k-1,(k-1)(r-1))\end{equation}
$$

为检验列因素的影响是否显著，采用下面的统计量:

$$
\begin{equation}F_{C}=\frac{M S C}{M S E} \sim F(r-1,(k-1)(r-1))\end{equation}
$$

统计决策

计算出检验统计量后，根据给定的显著性水平 $\alpha$ 和两个自由度，查 $F$ 分布表得到相应的临界值 $F_{\alpha}$，然后将 $F_R$ 和 $F_C$与 $F_{\alpha}$进行比较。

若 $F_R>F_{\alpha}$ ，则拒绝原假设 $H_0$ ，表明均值之间的差异是显著的，即所检验的行因素对观察值有显著影响
若 $F_C > F_{\alpha}$ ，则拒绝原假设 $H_0$ ，表明均值之间有显著差异，即所检验的列因素对观察值有显著影响

为使计算过程更加清晰，通常将上述过程的内容列成方差分析表：

4、关系强度的测量

行平方和(行SS)度量品牌对销售量的影响效应

列平方和(列SS)度量地区对销售量的影响效应

两个平方和加在一起度量品牌和地区对销售量的联合效应

联合效应与总平方和的比值定义为 $R^2$

$$
\begin{equation}R^{2}=\frac{\text { 联合效应 }}{\text { 总效应 }}=\frac{S S R+S S C}{S S T}\end{equation}
$$

其平方根 $R$ 反映这两个自变量合起来与因变量之间的关系强度

$$
R^{2}=\frac{S S R+S S C}{S S T}=\frac{13004.55+2011.70}{17888.95}=0.8394=83.94 %
$$

品牌因素和地区因素合起来总共解释了销售量差异的83.94%

$R=0.9162$，表明品牌和地区两个因素联合与销售量有较强的关系

当然，也可以分别考察品牌和地区与销售量之间的关系，这就需要分别作每个自变量与销售量的单因素方差分析，并分别计算每个$R^2$。

3、可重复双因素分析

在上面的分析中，假定两个因素对因变量的影响是独立的，但如果两个因素搭配在一起会对因变量产生一种新的效应，就需要考虑交互作用对因变量的影响，这就是有交互作用的双因素方差分析。

参考：

一文详解F检验
王晨阳,王成.线性回归方程显著性的事先检验问题[J].延安大学学报(自然科学版),2005(02):32-34.
如何理解统计学中「自由度」这个概念？
数模系列(6)：方差分析（ANOVA）

打赏

版权声明： 本博客所有文章除特别声明外，著作权归作者所有。转载请注明出处！

方差齐性检验

检验原理

相关术语

基本思想和原理

1. 图形描述

2. 误差分解

3. 误差分析

方差分析中的基本假定

方差分析中有三个基本假定：

问题的一般提法

单因素方差分析

单因素方差分析

1. 数据结构

2. 分析步骤

提出假设

构造检验的统计量

（1）计算各样本的均值

（2）计算全部观察值的总均值

（3）计算各误差平方和

（4）计算统计量

统计决策

方差分析表

关系强度的测量

双因素方差分析

1、双因素方差分析的基本假定

2、无交互作用的双因素方差分析

(1) 数据结构

(2) 提出假设

(3) 构造检验统计量

4、关系强度的测量

3、可重复双因素分析