『Statistics』 假设检验

假设检验的原理以及相关的概念。

参数估计和假设检验

参数估计( parameter estimation) 和 假设检验 ( hypothesis testing) 是统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法,总体参数 μ 在估计前是未知的。而在假设检验中,则是先对 μ 的值提出一个假设,然后利用样本信息去检验这个假设是否成立。

假设检验( hypothesis testing)

包括参数和非参数检验:

  • 参数假设检验(parametric test):总体的 分布形式已知,需要对总体的未知参数进行 假设检验。
  • 非参数假设检验(non-parametric test):对 总体分布形式所知甚少,需对未知分布函数 的形式及其他特征进行假设检验。

参数假设检验举例

根据1989年的统计资料,某地女性新生儿的平均体重为3190 克。为判断该地1990年的女性新生儿体重与1989年相比有无显著差异,从该地1990年的女性新生儿中随机抽取30人,测得其平均体重为3210克。从样本数据看,1990年女新生儿体重比 1989年略高,但这种差异可能是由于抽样的随机性带来的,也 许这两年新生儿的体重并没有显著差异。究竟是否存在显著差异?可以先假设这两年新生儿的体重没有显著差异,然后利用 样本信息检验这个假设能否成立。这是一个关于总体均值的假 设检验问题。

假设检验的原理

小概率原理。假设检验的基本思想是概率性质的反证法。(不同于纯数 学中的反证法)

什么是小概率?

  • 概率是0~1之间的一个数,因此小概率就是接近0的一个 数
  • 著名的英国统计家 Ronald Fisher 把 20 分之 1 作为标准,也 就是0.05,从此0.05或比0.05小的概率都被认为是小概率
  • Fisher没有任何深奥的理由解释他为什么选择0.05,只是 说他忽然想起来的

什么是小概率原理

  • 小概率原理——发生概率很小的随机事件(小概率事件) 在一次实验中几乎是不可能发生的。
  • 根据这一原理,可以先假设总体参数的某项取值为真, 也就是假设其发生的可能性很大,然后抽取一个样本 进行观察,如果样本信息显示出现了与事先假设相反的结果且与原假设差别很大,则说明原来假定的小概率事件在一次实验中发生了,这是一个违背小概率原 理的不合理现象,因此有理由怀疑和拒绝原假设;否则不能拒绝原假设。
  • 检验中使用的小概率是检验前人为指定的。

小概率原理举例

某工厂质检部门规定该厂产品次品率不超过4%方能 出厂。今从1000件产品中抽出10件,经检验有4件次 品,问这批产品是否能出厂?

如果假设这批产品的次品率P≤4%,则可计算事件 “抽10件产品有4件次品”的出现概率为:
$$
\begin{equation}P_{10}(4)=C_{10}^{4}(0.04)^{4}(1-0.04)^{6}=0.00042\end{equation}
$$
可见,概率是相当小的,1万次实验中可能出现4次, 然而概率如此小的事件,在一次实验中居然发生了, 这是不合理的,而不合理的根源在于假设次品率 P≤4% ,因而认为假设次品率P≤4%是不能成立的, 故按质检部门的规定,这批产品不能出厂。

可见,概率是相当小的,1万次实验中可能出现4次, 然而概率如此小的事件,在一次实验中居然发生了, 这是不合理的,而不合理的根源在于假设次品率 P≤4% ,因而认为假设次品率P≤4%是不能成立的, 故按质检部门的规定,这批产品不能出厂。

可见,概率是相当小的,1万次实验中可能出现4次, 然而概率如此小的事件,在一次实验中居然发生了, 这是不合理的,而不合理的根源在于假设次品率 P≤4% ,因而认为假设次品率P≤4%是不能成立的, 故按质检部门的规定,这批产品不能出厂。

假设检验的基本思想

假设检验的两个特点

  • 第一,假设检验采用逻辑上的反证法,即为了检验 一个假设是否成立,首先假设它是真的,然后对 样本进行观察,如果发现出现了不合理现象,则 可以认为假设是不合理的,拒绝假设。否则可以 认为假设是合理的,接受假设。
  • 第二,假设检验采用的反证法带有概率性。所谓假 设的不合理不是绝对的,而是基于实践中广泛采用的 小概率事件几乎不可能发生的原则。至于事件的概率 小到什么程度才算是小概率事件,并没有统一的界定 标准,而是必须根据具体问题而定。如果一旦判断失 误,错误地拒绝原假设会造成巨大损失,那么拒绝原 假设的概率就应定的小一些;如果一旦判断失误,错 误地接受原假设会造成巨大损失,那么拒绝原假设的 概率就应定的大一些。
  • 小概率通常用 $\alpha$ 表示,又称为检验的显著性水平。通 常取 $\alpha$ =0.05 或$\alpha$ =0.01,即把概率不超过 0.05 或 0.01 的事 件当作小概率事件。

原假设和备择假设

原假设

一种叫原假设,也叫零假设,用H0表示。原假设一般是统计者想要拒绝的假设。原假设的设置一般为:等于=、大于等于>=、小于等于<=。

备择假设

另外一种叫备择假设,用H1表示。备则假设是统计者想要接受的假设。备择假设的设置一般为:不等于、大于>、小于<。

例子在进行假设检验时,我们希望接受版本2的假设,想拒绝接受版本1的假设。所以我们的假设设置为:H0 :μ版本1 >= μ版本2 ,H1 : μ版本1 < μ版本2。

为什么统计者想要拒绝的假设放在原假设呢?因为原假设备被拒绝如果出错的话,只能犯第I类错误,而犯第I类错误的概率已经被规定的显著性水平所控制。

假设检验的两类错误

根据假设检验做出判断无非下述四种情况:

1、原假设真实, 并接受原假设,判断正确;

2、原假设不真实,且拒绝原假设,判断正确;

3、原假设真实, 但拒绝原假设,判断错误;

4、原假设不真实,却接受原假设,判断错误。

假设检验是依据样本提供的信息进行判断,有犯错误的可能。所犯错误有两种类型:一种是弃真错误,另一种是取伪错误。

弃真错误也叫第I类错误或α错误:它是指 原假设实际上是真的,但通过样本估计总体后,拒绝了原假设。明显这是错误的,我们拒绝了真实的原假设,所以叫弃真错误,这个错误的概率我们记为α。这个值也是显著性水平,在假设检验之前我们会规定这个概率的大小。

取伪错误也叫第II类错误或β错误:它是指 原假设实际上假的,但通过样本估计总体后,接受了原假设。明显者是错误的,我们接受的原假设实际上是假的,所以叫取伪错误,这个错误的概率我们记为β。

显著性水平

显著性水平是指当原假设实际上正确时,检验统计量落在拒绝域的概率,简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者根据业务情况定好的。

显著性水平α越小,犯第I类错误的概率自然越小,一般取值:0.01、0.05、0.1等

当给定了检验的显著水平a=0.05时,进行双侧检验的Z值为1.96 。

当给定了检验的显著水平a=0.05时,进行单侧检验的Z值为1.645 。

当给定了检验的显著水平a=0.01时,进行双侧检验的Z值为2.58 。

当给定了检验的显著水平a=0.01时,进行单侧检验的Z值为2.33

检验统计量

定义:据以对原假设和备择假设作出决策的某个样本统计量,称为检验统计量。

拒绝域、接受域和临界值

在规定了检验的显著性水平 α 后,根据容量为 n 的样本,按照统计量的理论概率分布规律,可以确定据以判断拒绝和接受原假设的检验统计量的临界值

临界值将统计量的所有可能取值区间分为两互不相交的部分,即原假设的拒绝域和接受域。

接受域: 原假设为真时允许范围内的变动,应该接受原假设。

拒绝域: 当原假设为真时只有很小的概率出现,因而当统计量的结果落入这一区域便应拒绝原假设,这一区域便称作拒绝域。

利用 P 值进行决策

进行检验的程序可以根据检验统计量落人的区域作出是否拒绝原假设的决策。

在确定 α 以后,拒绝域的位置也就相应确定了,其好处是进行决策的界限清晰,但缺陷是进行决策面临的风险是笼统的。在上面的例子中,计算的 z=2.5,落入拒绝域,我们拒绝原假设,并知道犯弃真错误的概率(面临的风险)为0.05, 如果计算的 z=2.0,同样落人拒绝域,我们拒绝原假设面临的风险也是0.05。0.05 是一个通用的风险概率,这是用域表示的缺陷,但根据不同的样本结果进行决策,面临的风险事实上是有差别的。

为了精确地反映决策的风险度,可以利用P值进行决策。

为了解什么是P值,如前面的举例:根据随机抽样测得1990年的样本均值x=3210克,与1989年的总体均值3190克相差20克,异究竟是大还是小?换句话说,如果原假设成立,即1990年新生儿体重的与1989年新生儿体重的总体均值相同,那么随机抽取出n=100的样本3210克的概率有多大呢?我们把这个概率称为P值,所以P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由就越充分。

例题:由统计资料得知,1989年某地新生儿的平均体重为3190克,现从1990年的新生儿中随机抽取100个,测得其平均体重为3210克,问1990年的新生儿与1989年相比,体重有无显著差异?

解答:从调查结果看,1990年新生儿的平均体重3210克,比1989年新生儿的平均体重3190克增加了20克,但这20克的差异可能源于不同的情况。一种情况是,1990年新生儿的体重与1989年相比没有什么差别,20克的差异是由于抽样的随机性造成的;另一种情况是,抽样的随机性不可能造成20克这样大的差异,1990年新生儿的体重与1989年新生儿的体重相比确实有所增加。

P值是通过计算得到的,P值的大小取决于三个因素,一个是样本数据与原假设之间的差异,在新生儿体重的例子里这个差异是20克;另一个是样本量,这里n=100;再一个是被假设参数的总体分布。在这个例子中计算出的P=0.012 42,这就是说,如果原假设成立,样本均值等于和大于3210克的概率只有0.012 42,这是很小的,由此我们可以拒绝原假设,得到与前面z值检验相同的结论,如图8–4所示。

P 值的长处是它反映了观察到的实际数据与原假设之间不一致的概率值,与传统的拒绝域范围相比,P是一个具体的值,这样就提供了更多的信息。如果事先确定了显著性水平,如 $\alpha$ =0.05,则在双侧检验中,P>0. 025( $\alpha$ /2=0.025)不能拒绝原假设; 反之,P<0. 025则拒绝原假设。在单侧检验中,P>0. 05不能拒绝原假设,P<0.05则拒绝原假设。当然,也可以直接使用 P 值进行决策,这时 P 值本身就代表了显著性水平。我们也可以使用P值,按照所需要的显著性水平进行判断和决策,具体做法就是用P值和需要的显著性水平进行比较。

例题

某批发商欲从厂家购进一批灯泡,根据合同规定灯泡的使用寿命平均不能低于1 000小时。已知灯泡燃烧寿命服从正态分布,标准差为200小时。在总体中随机抽取了100个灯泡,得知样本均值为960小时,批发商是否应该购买这批灯泡?

这是一个单侧检验问题。显然,如果灯泡的燃烧寿命超过了1000小时,批发商是欢迎的,因为他用已定的价格(灯泡寿命为1000小时的价格)购进了更高质量的产品。因此,如果样本均值超过1000小时,他会购进这批灯泡。问题在于样本均值为960小时他是否应当购进。因为即便总体均值为1000小时,由于抽样的随机性,样本均值略小于1000小时的情况也是会经常出现的。在这种场合下,批发商更为关注可以容忍的下限,即当灯泡寿命低于什么水平时拒绝。于是检验的形式为:
$$
\begin{equation}\begin{array}{l}
H_{0}: \mu \geqslant 1000 \
H_{1}: \mu<1000
\end{array}\end{equation}
$$

左单侧检验如下图所示($\alpha=0.5$) , 也可以把左单侧检验称为下限检验。

image-20200924000137151

解答:根据分析,采用左单侧检验。

在该例中已知 $\mu_0$=100,$\bar{x}$=960,$\sigma$=200,n=100,并假定显著性水平 $\alpha$=0.05.由上图可知拒绝域在左侧,所以临界值为负,即$z_{\alpha} = -1.645$. z的下标$\alpha$表示单侧检验。

进行检验的过程为:
$$
\begin{equation}\begin{array}{l}
H_{0}: \mu \geqslant 1000 \
H_{1: \mu}<1000 \
z=\frac{\bar{x}-\mu_{0}}{\sigma / \sqrt{n}}=\frac{960-1000}{200 / \sqrt{100}}=-2
\end{array}\end{equation}
$$
由于 $|z|>\left|z_{a}\right|$ ,即 $z$ 的值位于拒绝域内,所以拒绝 $H0$ , 即这批灯泡的使用寿命低于1000小时,批发商不应购买。

如果用 P 值进行检验,查表可得,统计量 $z$ 的绝对值 2,与之对应 的函数值为 0.97725,由于这是单侧检验,故 P 值为:
$$
P=1-0.97725=0.02275
$$
在单侧检验中,用 P 值直接与 $\alpha$ 进行比较,由于 $P(0.02275)<\alpha(0.05)$ ,故拒绝 $H0$。

如果在此例的假设检验中,显著性水平 $\alpha = 0.02$ , 则有 P> $\alpha$ ,这时就不能拒绝$H0$。

假设检验的步骤

(一)、根据研究需要提出原假设 H0 和备择假设 H1

(二)、确定适当的检验统计量

(三)、确定显著性水平 α 和临界值及拒绝域

(四)、根据样本数据计算检验统计量的值(或 p值)

(五)、做出决策:(两种方法)

a. 将检验统计量的值和临界值比较,做出拒绝或接受原假设的决策。

b. 由步骤五的检验统计量计算 p 值,利用 p值确定时候拒绝原假设。

样本均值和方差检验的场景

均值检验:适用于均值是否存在差别的问题,反应的是集中趋势

单样本均值检验:测试某批产品是否正常,或者某个部件是否正常,以及评价风险是否在可控范围内等。视总体方差已知和未知分为z检验和t检验。api: stats.ttest_1samp

双样本均值检验:测试两个总体的均值是否有差别。api: stats.ttest_indttest_ind_from_stats

两条数据相减得到一列数据,再用单样本均值检验看其均值是否为0

方差检验:适用方差是否存在差别的问题,反应的离中趋势

这里要说明因素及其水平。假如收入是目标变量,它受学历的影响。那么学历是一个因素,学历的等级是水平。试验的目的是查看不同学历水平下的收入是否存在显著差别,或者说收入是否受学历的影响。

单因素方差分析:连续变量是否受某分类变量不同水平的影响。

多因素方差分析:已经过渡为一般线性模型,连续变量是否受某些分类变量的影响,以及分量变量对连续变量的影响是否受到别的分类变量的影响[交互项]。

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!

扫一扫,分享到微信

微信分享二维码
  • Copyrights © 2019-2021 HG | 访问人数: | 浏览次数:

请我喝瓶农夫三拳吧~

支付宝
微信