感知机模型
感知机模型( Perceptron Learning Algorithm )的基础属性
属性 | 属性值 |
---|---|
输入空间 | $X \subseteq R_n$ |
输入变量 | $x \in X$ |
输出空间 | $Y = { +1, -1}$ |
输出变量 | $y \in { +1, -1}$ |
假设空间 | $\mathcal{H}=\lbrace f | f(x)=sign(\omega\cdot x+b)\rbrace$ |
属性 | 属性值 |
---|---|
输入空间 | $X \subseteq R_n$ |
输入变量 | $x \in X$ |
输出空间 | $Y = { +1, -1}$ |
输出变量 | $y \in { +1, -1}$ |
假设空间 | $\mathcal{H}=\lbrace f | f(x)=sign(\omega\cdot x+b)\rbrace$ |
贝叶斯判定该准则被描述为:为了最小化总体风险,只需要在每个样本上选择那个能使条件风险$R(c|x)$最小的类别标记,即:
$$
h^\star (x) = \arg\min_{c \in \mathcal{Y}} R(c | x)
\tag{1}
$$
此时,$h^\star$称作贝叶斯最优分类器。
注:此时的$h^\star$并不是一个可以计算的值,只是一个贝叶斯最优分类器的理论指导。
形式一:
$$
\begin{align}
\min_x \quad & f_0(x) \\
s.t.\quad & f_i(x) \le 0 , \quad i = 1,\dots,m \\
& h_i(x) = 0, \quad i = 1,\dots,p
\end{align}
\tag{1}
$$
$$
\left \lbrace
\begin{matrix}
\omega^T\mathcal{x_1} + b = 0 \\
\omega^T \mathcal{x_2} + b = 0
\end{matrix}
\right .
\to \omega^T(\mathcal{x_1} - \mathcal{x_2}) = 0 \to \omega^T \mathcal{x} = 0
\tag{1}
$$
熵(Entropy),在本文中是指信息熵(Information Entropy),简单的来说,就是指一件事情的不确定性的度量,其单位为(Bit)。相对的,信息的单位也是 Bit,刚好是信息熵的反义词,是指一件事情的确定性。
首先,引入熵的计算公式:
$$
Ent(D) = - \sum_k^{| \mathcal{Y} |} P_k log_2{P_k}
\tag{1}
$$
数据集:
$$
D = \lbrace (x_1, y_1),(x_2, y_2),\dots,(x_n, y_n) \rbrace \\
x \in \mathbb{R}^p; y \in \mathbb{R}
\tag{1}
$$
其中,每一个$x$都是一个$p$维的列向量,$y$ 是一个数。
特征值和特征向量的定义如下:
$$
Ax = \lambda x
\tag{1}
$$
其中,$\lambda$是一个标量,$x$是一个向量,$\lambda$称作矩阵$A$的特征值,$x$是其对应的特征向量。
求得所有特征值和特征向量后,我们就可以对矩阵 A 进行特征分解。具体如下:
$$
A = W \Sigma W^{-1}
\tag{2}
$$
其中,$W$是由$A$的所有特征向量组成的$n\times n$维矩阵。$\Sigma$是以$A$的所有特征值$\lambda_1,\lambda_2,\dots, \lambda_n$为对角线的对角矩阵。我们一般会把$W$的这$n$个特征向量标准化,即满足$||w_i|| = 1$或者$w_i^T \cdot w_i = w_i^T w_i=1$,此时,$W$的$n$个向量为标准正交基。
故:
$$
W^{-1} = W^T
\tag{3}
$$
这样我们的特征分解表达式可以写成
$$
A = W \Sigma W^T
\tag{4}
$$