『Statistics』 平均值,标准差,方差,协方差、相关系数的区别与联系

平均值,标准差,方差,协方差都属于统计数学;期望属于概率数学。

均值(期望)

概率论统计学中,一个离散性随机变量期望值(或数学期望,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和

均值描述的是样本集合的中间点。

定义

设$P(x)$是一个离散概率分布函数,自变量的取值范围为{ $x_{1}, x_{2},, x_{n}$}。

其期望被定义为:

MommyTalk1599817844027

设 $p(x)$是一个连续概率密度函数。其期望为:
$$
\begin{array}{c}
E(x) = \int_{-\infty}^{+\infty} x p(x) d x
\end{array}
$$

性质

1、线性运算规则

期望服从线性性质(可以很容易从期望的定义公式中导出)。因此线性运算的期望等于期望的线性运算:

MommyTalk1599818126754

2、乘积的期望:

一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。因此,如果x和y相互独立,则
$$
E(x y)=E(x) E(y)
$$
期望的运算构成了统计量的运算基础,因为方差、协方差等统计量本质上是一种特殊的期望。

方差

方差(英语:Variance),应用数学里的专有名词。在概率论统计学中,一个随机变量方差描述的是它的离散程度,也就是该变量离其期望值(均值)的距离。

方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

定义

方差是一种特殊的期望,被定义为:

MommyTalk1599828942690

性质

这个定义涵盖了连续、离散、或两者都有的随机变量。方差亦可当作是随机变量与自己本身的协方差(或协方差):

MommyTalk1599876596197

1、展开表示

反复利用期望的线性性质,可以算出方差的另一种表示形式:

MommyTalk1599829001389

2、常数的方差

常数的方差为0,由方差的展开表示很容易推得。

3、线性组合的方差

方差不满足线性性质,两个变量的线性组合方差计算方法如下:

MommyTalk1599829079367

4、独立变量的方差

如果两个变量相互独立,则:

MommyTalk1599829148693

两个随机变量合的方差为:

MommyTalk1599876729539

方差和标准差的区别

那么问题来了,既然有了方差来描述变量与均值的偏离程度,那又搞出来个标准差干什么呢?

方差与我们要处理的数据的量纲是不一致的,多了个平方,虽然能很好的描述数据与均值的偏离程度,但是处理结果是不符合我们的直观思维的。 而标准差的根号就抵消了这个平方,就能相对直观了描述数据与均值之间的偏离程度。

举个例子:一个班级里有60个学生,平均成绩是70分,标准差是9,方差是81,成绩服从正态分布,那么我们通过方差不能直观的确定班级学生与均值到底偏离了多少分,通过标准差我们就很直观的得到学生成绩分布在[61,79]范围的概率为0.6826,即约等于下图中的34.2%*2

20170104181533024

标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。

均方差、均方误差的区别

方差的平方根被称为标准差(standard deviation)。简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

标准差(Standard Deviation) ,中文环境中又常称均方差,但不同于均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方和的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。

从上面定义我们可以得到以下几点:
1、均方差就是标准差,标准差就是均方差
2、均方差不同于均方误差
3、均方误差是各数据偏离真实值的距离平方和的平均数

举个例子:我们要测量房间里的温度,很遗憾我们的温度计精度不高,所以就需要测量5次,得到一组数据$[x_1,x_2,x_3,x_4,x_5]$,假设温度的真实值是 $x$,数据与真实值的误差 $e=x-x_i$

那么均方误差:

MommyTalk1601015529577

总的来说,均方差是数据序列与均值的关系,而均方误差是数据序列与真实值之间的关系,所以我们只需要搞清楚真实值和均值之间的关系就行了。

协方差

协方差(Covariance)在概率论统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
期望值分别为 $E(X) = \mu$与 $E(X) = \nu $ 的两个具有有限二阶实数随机变量XY 之间的协方差定义为:

MommyTalk1599877428261

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差 不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

协方差只表示线性相关的方向,取值正无穷到负无穷。

如果XY统计独立的,那么二者之间的协方差就是0,这是因为:

MommyTalk1599877540529

性质

如果XY 是实数随机变量,ab 是常数,那么根据协方差的定义可以得到:

MommyTalk1599877708200

协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,也就是协方差矩阵。

相关系数

对于相关系数,从它的公式入手。一般情况下,相关系数的公式为:

MommyTalk1599877851373

用X、Y的协方差除以X的标准差和Y的标准差。

所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差

既然是一种特殊的协方差,那它:

1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。

2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

参考

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!

扫一扫,分享到微信

微信分享二维码
  • Copyrights © 2019-2021 HG | 访问人数: | 浏览次数:

请我喝瓶农夫三拳吧~

支付宝
微信