概率与统计相关概念
均值
$mean$,数列的算术平均值,反应了数列的集中趋势,等于有效数值的合除以有效数值的个数。也称为数学期望。
总体均值:
$$
\mu = \frac{\sum_{i=1}^N X_i}{N}
\tag{1.1}
$$
样本均值:
$$
\begin{align}
\overline{X} &= \frac{\sum_{i=1}^n X_i}{n}, & 离散样本 \\
&=\frac{\int_a^b f(x) dx}{b-a}, & 连续样本
\end{align}
\tag{1.2}
$$
中位值
$median$, 等于排序后中间位置的值,当数列长度为偶数时,取中间两个值的均值.
众数
$mode$, 等于数列出现次数最多的数字,当多个数字都出现最高次数时,多个数字都是众数.
方差
$variance$是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
$$
S^2 = \frac{\sum_{i=1}^n (X_i-\overline{X})^2}{n-1}
\tag{1.3}
$$
其中的$\overline{X}$为公式$1.2$的样本均值。
更节省内存的方差计算方式
$$
\begin{align}
\sigma^2 &= \frac{\sum_{i=1}^N(Xi-\mu)^2}N\\
& = \frac{\sum_{i=1}^N(Xi^2 - 2\mu *Xi + \mu^2)}N\\& =\frac{\sum_{i=1}^N Xi^2}N - \frac{2\mu\sum_{i=1}^N Xi}N +
\frac{\sum_{i=1}^N \mu^2}N\\ &=\frac{\sum_{i=1}^N Xi^2}N - 2\mu\frac{\sum_{i=1}^N Xi}N + \frac{\sum_{i=1}^N
\mu^2}N\\& =\frac{\sum_{i=1}^N Xi^2}N - 2\mu^2+\mu^2\\ &=\frac{\sum_{i=1}^N Xi^2}N - \mu^2\\ &=\frac{\sum_{i=1}^N
Xi^2}N - \frac{(\sum_{i=1}^N Xi)^2}{N^2}
\end{align}
\tag{1.4}
$$
标准差
标准差是方差的开方,具体如下:
$$
S = \sqrt\frac{\sum_{i=1}^n (X_i-\overline{X})^2}{n-1}
\tag{1.5}
$$
协方差
标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
$$
var(X) = \frac{\sum_{i=1}^n (X_i-\overline{X})(X_i-\overline{X})}{n-1}
\tag{1.6}
$$
上式是方差的另一种定义方式,下面是协方差的定义:
$$
cov(X, Y) = \frac{\sum_{i=1}^n (X_i-\overline{X})(Y_i-\overline{Y})}{n-1}
\tag{1.7}
$$
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义)。如果结果为负值,
就说明两者是负相关。如果为0,则两者之间没有关系,就是统计上说的“相互独立”。
协方差矩阵
而协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算$C_n^2 = \frac{n!}{2!*(n-2)!
}$个协方差,那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:
$$
C_{n\times m} = matrix(c_{i,j}| c_{i,j} = cov(Dim_i, Dim_j)) \tag{1.8}
$$
其中$Dim$表示$dimension$
$$
C = \left[
\begin{matrix}
cov(x,x) & cov(x,y) & cov(x,z) \\
cov(y,x) & cov(y,y) & cov(y,z) \\
cov(z,x) & cov(z,y) & cov(z,z) \\
\end{matrix}
\right]
\tag{1.9}
$$
由于:
$$
cov(x,y) = cov(y,x)
\tag{1.10}
$$
所以,协方差矩阵是一个对角矩阵,且个对角线上的值是各个维度的方差。