非原创,ChatGPT 生成。毕业太久,基本概念都忘了。
方差(Variance)和标准差(Standard Deviation)是统计学中用来衡量数据分散程度的两个指标。它们之间有密切的联系,但计算方式有所不同。具体来说:
方差
方差是指数据与其均值之间的平均平方差。计算公式如下:
- 样本方差(Sample Variance):
[
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
]
其中:
- ( n ) 是样本的数量。
- ( x_i ) 是第 ( i ) 个样本数据。
- ( \bar{x} ) 是样本数据的均值。
- 总体方差(Population Variance):
[
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
]
其中:
- ( N ) 是总体的数量。
- ( x_i ) 是第 ( i ) 个总体数据。
- ( \mu ) 是总体数据的均值。
标准差
标准差是方差的平方根,表示数据与均值的平均距离。计算公式如下:
- 样本标准差(Sample Standard Deviation):
[
s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}
] - 总体标准差(Population Standard Deviation):
[
\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2}
]
区别
- 计算方式:
- 方差是数据与均值之间差值的平方的平均值(样本方差的分母为 ( n-1 ),总体方差的分母为 ( N ))。
- 标准差是方差的平方根。
- 单位:
- 方差的单位是原始数据单位的平方。
- 标准差的单位与原始数据的单位相同,因而更直观地表示数据的分散程度。
计算示例
假设有如下数据集:[1, 2, 3, 4, 5]
计算均值:
[
\bar{x} = \frac{1+2+3+4+5}{5} = 3
]
计算方差(总体):
[
\sigma^2 = \frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{5} = \frac{4+1+0+1+4}{5} = 2
]
计算标准差(总体):
[
\sigma = \sqrt{2} \approx 1.41
]
计算方差(样本):
[
s^2 = \frac{(1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2}{5-1} = \frac{4+1+0+1+4}{4} = 2.5
]
计算标准差(样本):
[
s = \sqrt{2.5} \approx 1.58
]
总结
- 方差和标准差都是衡量数据分散程度的指标。
- 标准差是方差的平方根,具有与原始数据相同的单位,因而更直观。
- 样本方差和标准差的计算使用了 ( n-1 ) 而不是 ( n ),以纠正样本数据的偏差。