2020-04-17发表2024-11-18更新AI / DeepLearning8 分钟读完 (大约1211个字)

损失函数用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。不同的模型用的损失函数一般也不一样。

损失函数分为经验风险损失函数和结构风险损失函数
。经验风险损失函数指预测结果和实际结果的差别，结构风险损失函数是指经验风险损失函数加上正则项。一般用于防止过拟合，模型越复杂，其正则项的值就越大，相应的结构化风险损失函数的值就越大，相应的损失就越大。

常见的损失函数以及其优缺点如下：

2020-04-10发表2024-11-18更新AI / Mathematics6 分钟读完 (大约965个字)

SVD的实现和意义

SVD 概念的复习

对于任意的矩阵$A$，总是可以得到如下的分解:

$$
A = U_m \Sigma_{m \times n} V_n^T \tag{1}
$$

这样的分解被称为奇异值分解（SVD， Singular Value Decomposition），其中$U$为$m$阶方阵（酉矩阵）, $V$为$n$阶方阵（酉矩阵），
$\Sigma$是形状为$m \times n$的非负实数对角矩阵，其中存放的就是我们的奇异值。

2020-04-09发表2024-11-18更新AI / Mathematics29 分钟读完 (大约4392个字)

特征值和特征向量的几何和物理意义（转载）

我们知道，矩阵乘法对应了一个变换，是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中，原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换，不对这些向量产生旋转的效果，那么这些向量就称为这个矩阵的
特征向量，伸缩的比例就是特征值。

2019-10-23发表2024-11-18更新AI / 公式推导9 分钟读完 (大约1365个字)

SVM对偶形式推导

拉格朗日函数的介绍

优化问题的一般形式

形式一：
$$
\begin{align}
\min_x \quad & f_0(x) \\
s.t.\quad & f_i(x) \le 0 , \quad i = 1,\dots,m \\
& h_i(x) = 0, \quad i = 1,\dots,p
\end{align}
\tag{1}
$$

2019-10-23发表2024-11-18更新AI / 公式推导7 分钟读完 (大约1083个字)

SVM原始形式推导

欧式空间平面的常见性质

证明$\omega$是平面的法向量

$$
\left \lbrace
\begin{matrix}
\omega^T\mathcal{x_1} + b = 0 \\
\omega^T \mathcal{x_2} + b = 0
\end{matrix}
\right .
\to \omega^T(\mathcal{x_1} - \mathcal{x_2}) = 0 \to \omega^T \mathcal{x} = 0
\tag{1}
$$

2019-10-09发表2024-11-18更新AI / Mathematics2 分钟读完 (大约322个字)

联合概率，条件概率和编辑概率的概念

离散分布

对于离散分布来说，联合概率、编辑概率的解释如下表所示：

2019-10-03发表2024-11-18更新AI / Mathematics6 分钟读完 (大约950个字)

矩阵求导

矩阵求导的定义

自变量↓\因变量→	标量$y$	向量$\mathbf{y}$	矩阵$\mathbf{Y}$
标量$x$	$\frac{\partial y}{\partial x}$	$\frac{\partial \mathbf{y}}{\partial x}$	$\frac{\partial \mathbf{Y}}{\partial x}$
向量$\mathbf{x}$	$\frac{\partial y}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{y}}{\partial \mathbf{x}}$	$\frac{\partial \mathbf{Y}}{\partial \mathbf{x}}$
矩阵$\mathbf{X}$	$\frac{\partial y}{\partial \mathbf{X}}$	$\frac{\partial \mathbf{y}}{\partial \mathbf{X}}$	$\frac{\partial \mathbf{Y}}{\partial \mathbf{X}}$