损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。
损失函数分为经验风险损失函数和结构风险损失函数
。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。一般用于防止过拟合,模型越复杂,其正则项的值就越大,相应的结构化风险损失函数的值就越大,相应的损失就越大。
常见的损失函数以及其优缺点如下:
损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。
损失函数分为经验风险损失函数和结构风险损失函数
。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。一般用于防止过拟合,模型越复杂,其正则项的值就越大,相应的结构化风险损失函数的值就越大,相应的损失就越大。
常见的损失函数以及其优缺点如下:
对于任意的矩阵$A$,总是可以得到如下的分解:
$$
A = U_m \Sigma_{m \times n} V_n^T \tag{1}
$$
这样的分解被称为奇异值分解(SVD, Singular Value Decomposition),其中$U$为$m$阶方阵(酉矩阵), $V$为$n$阶方阵(酉矩阵),
$\Sigma$是形状为$m \times n$的非负实数对角矩阵,其中存放的就是我们的奇异值。
我们知道,矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中,原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的
特征向量,伸缩的比例就是特征值。
形式一:
$$
\begin{align}
\min_x \quad & f_0(x) \\
s.t.\quad & f_i(x) \le 0 , \quad i = 1,\dots,m \\
& h_i(x) = 0, \quad i = 1,\dots,p
\end{align}
\tag{1}
$$
$$
\left \lbrace
\begin{matrix}
\omega^T\mathcal{x_1} + b = 0 \\
\omega^T \mathcal{x_2} + b = 0
\end{matrix}
\right .
\to \omega^T(\mathcal{x_1} - \mathcal{x_2}) = 0 \to \omega^T \mathcal{x} = 0
\tag{1}
$$
自变量↓\因变量→ | 标量$y$ | 向量$\mathbf{y}$ | 矩阵$\mathbf{Y}$ |
---|---|---|---|
标量$x$ | $\frac{\partial y}{\partial x}$ | $\frac{\partial \mathbf{y}}{\partial x}$ | $\frac{\partial \mathbf{Y}}{\partial x}$ |
向量$\mathbf{x}$ | $\frac{\partial y}{\partial \mathbf{x}}$ | $\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$ | $\frac{\partial \mathbf{Y}}{\partial \mathbf{x}}$ |
矩阵$\mathbf{X}$ | $\frac{\partial y}{\partial \mathbf{X}}$ | $\frac{\partial \mathbf{y}}{\partial \mathbf{X}}$ | $\frac{\partial \mathbf{Y}}{\partial \mathbf{X}}$ |
分子布局($numerator\ layout$)和分母布局($denominator\ layout$ )。
数据集:
$$
D = \lbrace (x_1, y_1),(x_2, y_2),\dots,(x_n, y_n) \rbrace \\
x \in \mathbb{R}^p; y \in \mathbb{R}
\tag{1}
$$
其中,每一个$x$都是一个$p$维的列向量,$y$ 是一个数。
$$
\left [
\begin{matrix}
1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1
\end{matrix}
\right ] * \frac{1}{9}
\tag{1}
$$