正态分布

数据可以用不同的方式"分布" (散布)。

数据可以
向左散布的多一些
 
或向右散布的多一些
数据向左偏斜   数据向右偏斜
     
或乱七八糟的
随机数据

但数据经常会集中在一个中心值的附近,而不向左或右偏斜,像一个 "正态分布":

钟形曲线

正态分布

"钟形曲线"是个正态分布。
黄色的直方图显示有些数据遵循,
但并不完美地遵循,正态分布(通常是这样的)。

钟 通常这就叫做 "钟形曲线"
因为曲线的形状像个钟。

实际生活中很多东西都遵循正态分布:

我们说数据是 "正态分布"的:

平均中位数众数在中间的

正态分布

梅花机

你可以来看看随机形成的正态分布!

这叫梅花机――一个很奇妙的机器。

来玩玩!

  梅花机

标准差

标准差是数据散布的指标(去网页看看它是怎样计算的)。

当你计算标准差时,你通常会留意到:

正态分布 68%, 95%, 99.7%

 

68%的数值是在
离平均值1个标准差之内

 

 

95%的数值是在
离平均值

2个标准差之内

 

99.7%的数值是在
离平均值
3个标准差之内

 

例子:学校里 95%的学生的身高是在 1.1m 与 1.7m之间。

假设数据是正态分布的,求平均值和标准差。

平均是在 1.1m 和 1.7m 的正中间:

平均 = (1.1m + 1.7m) / 2 = 1.4m

95% 是平均两边 2个标准差的距离(总共 4个标准差),所以:

1个标准差 = (1.7m − 1.1m) / 4
  = 0.6m / 4
  = 0.15m

结果是:
正态分布 95%

知道标准差是很有用的,因为我们可以说任何一个数值离平均值值:

标准差比值

数值离开平均值的距离与标准差的比(就是离开平均值有几个标准差)也叫 "标准分数",英语 "sigma" 或 "Z分数"。记住这些名词!

例子:在学校里有一个学生的身高是 1.85m

从图上的钟形线你可以看到 1.85m是离平均值(1.4) 3个标准差,所以:

他身高的 "Z分数" 是 3.0

正态分布 95%

 

我们也可以计算 1.85 离平均值有多少个标准差

1.85 离平均值有多远?

离平均值 1.85 - 1.4 = 0.45m

这是几个标准差?标准差是 0.15m,所以:

0.45m / 0.15m = 3个标准差

所以要将数值转换为标准分数("Z分数")::

这个运算叫 "标准化":

标准化

我们可以将任何正太分布转换为标准正态分布。

例子:行程时间

每天行程时间调查的结果是(分钟):

26、33、65、28、34、55、25、44、50、36、26、37、43、62、35、38、45、32、28、34

平均是 38.8分钟标准差是 11.4分钟(你可以 复制并粘贴到标准差计算器来看看)。

转换为 Z分数("标准分数")。

 

转换 26

先减去平均:26 - 38.8 = -12.8,
然后除以标准差:-12.8/11.4 = -1.12

所以 26 离平均值 -1.12个标准差

 

以下是头三个的转换结果

原数值 计算 标准分数
(Z分数)
26 (26-38.8) / 11.4 = -1.12
33 (33-38.8) / 11.4 = -0.51
65 (65-38.8) / 11.4 = +2.30
... ... ...

 

在图上:

标准正态分布分数

你可以自己去算其他的 Z分数!

 

这是我们用的 Z分数公式:

Z分数 = (x-mu)/sigma  
  • z 是 "Z分数"(标准分数)
  • x 是要标准化的数值
  • μ 是平均
  • σ 是标准差

为什么要标准化……?

因为标准化后我们可以为数据做决定。

例子:韦教授在改卷。

这是学生的分数(满分是 60分):

20、15、26、32、18、28、35、14、26、22、17

大部分的学生连 30分也拿不到,大部分都不及格

一定是个很难的测验,所以韦教授决定标准化所有分数,然后把合格分数定在平均以下一个标准差。

平均是 23标准差是 6.6,以下是标准分数:

-0.45、-1.21、0.45、1.36、-0.76、0.76、1.82、-1.36、0.45、-0.15、-0.91

只有两个学生不合格(分数是 15 和 14)

标准化后的计算也比较简单,因为只需要查看一个表(标准正态分布表)而不需要每次为不同的平均值和标准差做计算。

具体来讲

以下是标准正态分布里每一半的百分比和累积百分比:

正态分布大钟形曲线

例子:你最近测验的分数是在平均值以上 0.5个标准差,有几个人的得分比你

所以分数比你低i的百分比是:

50% + 19.1% = 69.1%

理论上 69.1% 的分数比你低(实际上百分比可能不同)

测量 1kg

实例:你的公司包装每袋 1kg 的砂糖。

样本称量的结果是:

有些袋子比 1000g 轻……你可以解决问题吗?

测量的正态分布像这样:

正态分布 ex1

31% 的袋子比 1000g 轻,
这是欺骗顾客!

这是随机发生的,所以我们不能绝对没有比 1000g 轻的袋子,但我们可以尝试把轻的个数尽量减少

我们把包装机器调校到 1000g 为:

我们去把机器调校到 1000g 离平均值 −2.5个标准差

我们可以把机器调校到:

我们两个都做

调整每袋的砂糖

正态分布 ex2

标准差是 20g,我们需要 2.5个:

2.5 × 20g = 50g

所以机器的平均值应该是 1050g,像这样:

 

调校机器的精确度

正态分布 ex3

我们也可以保持平均不变(1010g),但需要 2.5个标准差等于 10g:

10g / 2.5 = 4g

所以标准差应该是 4g

(希望机器可以这么精确!)

我们也可以两个都用:用好一点精确度和大一点重量的结合。你自己决定!

更精确的数值……

你可以用 标准正态分布表 来得到更精确的数值。