非原创,ChatGPT 生成。毕业太久,基本概念都忘了。

方差(Variance)和标准差(Standard Deviation)是统计学中用来衡量数据分散程度的两个指标。它们之间有密切的联系,但计算方式有所不同。具体来说:

方差

方差是指数据与其均值之间的平均平方差。计算公式如下:

  1. 样本方差(Sample Variance)
    [
    s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
    ]
    其中:
  • ( n ) 是样本的数量。
  • ( x_i ) 是第 ( i ) 个样本数据。
  • ( \bar{x} ) 是样本数据的均值。
  1. 总体方差(Population Variance)
    [
    \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
    ]
    其中:
  • ( N ) 是总体的数量。
  • ( x_i ) 是第 ( i ) 个总体数据。
  • ( \mu ) 是总体数据的均值。

标准差

标准差是方差的平方根,表示数据与均值的平均距离。计算公式如下:

  1. 样本标准差(Sample Standard Deviation)
    [
    s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}
    ]
  2. 总体标准差(Population Standard Deviation)
    [
    \sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2}
    ]

区别

  1. 计算方式
  • 方差是数据与均值之间差值的平方的平均值(样本方差的分母为 ( n-1 ),总体方差的分母为 ( N ))。
  • 标准差是方差的平方根。
  1. 单位
  • 方差的单位是原始数据单位的平方。
  • 标准差的单位与原始数据的单位相同,因而更直观地表示数据的分散程度。

计算示例

假设有如下数据集:[1, 2, 3, 4, 5]

计算均值:

[
\bar{x} = \frac{1+2+3+4+5}{5} = 3
]

计算方差(总体):

[
\sigma^2 = \frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{5} = \frac{4+1+0+1+4}{5} = 2
]

计算标准差(总体):

[
\sigma = \sqrt{2} \approx 1.41
]

计算方差(样本):

[
s^2 = \frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{5-1} = \frac{4+1+0+1+4}{4} = 2.5
]

计算标准差(样本):

[
s = \sqrt{2.5} \approx 1.58
]

总结

  • 方差和标准差都是衡量数据分散程度的指标。
  • 标准差是方差的平方根,具有与原始数据相同的单位,因而更直观。
  • 样本方差和标准差的计算使用了 ( n-1 ) 而不是 ( n ),以纠正样本数据的偏差。