协方差(Covariance)是用于度量两个随机变量之间共同变化的统计量。具体来说,协方差可以表示一个变量变动时,另一个变量的变动方向(正向或反向)。协方差的符号表示变量之间的关系方向:

  • 正协方差:当一个变量增加时,另一个变量也倾向于增加,说明两者呈正相关关系。
  • 负协方差:当一个变量增加时,另一个变量倾向于减少,说明两者呈负相关关系。
  • 零协方差:两者之间没有线性关系。

协方差的计算公式

对于两个随机变量 (X) 和 (Y),其协方差定义如下:

  1. 总体协方差
    [
    \sigma_{XY} = \frac{1}{N} \sum_{i=1}^{N} (X_i - \mu_X)(Y_i - \mu_Y)
    ]
    其中:
  • ( N ) 是总体的数量。
  • ( X_i ) 和 ( Y_i ) 是第 ( i ) 个观测值。
  • ( \mu_X ) 和 ( \mu_Y ) 分别是 ( X ) 和 ( Y ) 的均值。
  1. 样本协方差
    [
    s_{XY} = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
    ]
    其中:
  • ( n ) 是样本的数量。
  • ( \bar{X} ) 和 ( \bar{Y} ) 分别是 ( X ) 和 ( Y ) 的样本均值。

协方差的性质

  • 单位:协方差的单位是两个变量单位的乘积,因此在解释时不如相关系数直观。
  • 范围:协方差的范围不是固定的,数值可以很大或很小,这取决于变量的尺度。

示例计算

假设有如下两个变量的样本数据:
[ X = [1, 2, 3, 4, 5] ]
[ Y = [2, 4, 6, 8, 10] ]

  1. 计算均值:
    [
    \bar{X} = \frac{1+2+3+4+5}{5} = 3
    ]
    [
    \bar{Y} = \frac{2+4+6+8+10}{5} = 6
    ]
  2. 计算协方差(样本):
    [
    s_{XY} = \frac{1}{5-1} \sum_{i=1}^{5} (X_i - \bar{X})(Y_i - \bar{Y})
    ]
    [
    s_{XY} = \frac{1}{4} [(1-3)(2-6) + (2-3)(4-6) + (3-3)(6-6) + (4-3)(8-6) + (5-3)(10-6)]
    ]
    [
    s_{XY} = \frac{1}{4} [(1-3)(2-6) + (2-3)(4-6) + (3-3)(6-6) + (4-3)(8-6) + (5-3)(10-6)]
    ]
    [
    s_{XY} = \frac{1}{4} [(-2)(-4) + (-1)(-2) + 0 + 1 \cdot 2 + 2 \cdot 4]
    ]
    [
    s_{XY} = \frac{1}{4} [8 + 2 + 0 + 2 + 8] = \frac{1}{4} \cdot 20 = 5
    ]

因此,这两个变量的样本协方差为 5。

协方差矩阵

对于多维数据,可以计算协方差矩阵,每个元素表示一对变量之间的协方差。例如,对于三个变量 ( X ), ( Y ), 和 ( Z ),协方差矩阵如下:
[
\Sigma =
\begin{pmatrix}
\sigma_{XX} & \sigma_{XY} & \sigma_{XZ} \
\sigma_{YX} & \sigma_{YY} & \sigma_{YZ} \
\sigma_{ZX} & \sigma_{ZY} & \sigma_{ZZ}
\end{pmatrix}
]
其中,(\sigma_{XY}) 表示 (X) 和 (Y) 的协方差,(\sigma_{XX}) 表示 (X) 的方差。

总结

协方差用于衡量两个变量之间的线性关系。虽然它提供了变量间关系的方向(正或负),但数值本身不直观。为了更直观地理解变量之间的关系,通常会计算相关系数,其为协方差标准化后的值,范围在 -1 到 1 之间。