矩阵导数


矩阵导数

  • 一元函数:$f:R \rightarrow R$
  • 多元函数:$f:R^n \rightarrow R$
  • 向量函数:$f:R^n \rightarrow R^m$

导数

导数针对一元函数$f:R \rightarrow R$,$f(x) \approx f(x_0)+f^1(x_0)(x-x_0)$

梯度

梯度针对多元函数$f:R^n \rightarrow R$,梯度是一个向量:$\nabla f=\begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \\ \frac{\partial f}{\partial x_3}\end{bmatrix}$,也可以写作:函数相对于$\vec {x}$的梯度算子为$\nabla_x$。

$Jacobian$矩阵

针对向量函数:$f:R^n \rightarrow R^m$

矩阵分量:

其他常用的符号:

近似:

$Hessian$矩阵

使用于:$f:R^n \rightarrow R$,是函数的二阶矩阵:

这是一个$n×n$的方阵,可以写成:

近似:

$Fisher$矩阵

$Fisher \ information$:假设观察到的数据$X_1,X2,.,X_n$服从一个概率分布$f(X;\theta)$,$\theta$是目标参数,那么似然函数$likelihood$:

为了解开方程,需要$\log(likelihood)$的一阶导数为0,其一阶导数$Score\ function$:

那么$Fisher\ information$用$I(\theta)$表示,定义即$Score\ function$的二阶矩:

现证明$E[S(X;\theta)]=0$:

从而得到:

于是得到$Fisher \ information$的第一条数学意义:用来估计$Maximum\ Likelihood \ Estimate$方程的方差。即收集到的数据越多,象征着得到的信息越多。

对于$\theta$有多大把握,可以围绕估计值的期望,根据模型评分的协方差定义一个不确定性度量:

上面评分函数的协方差即$Fisher $信息的定义,一般$\theta $ 是一个向量,即$Fisher $信息是以矩阵形式存在,称为$Fisher$信息矩阵$FIM$:

一般情况下似然函数是复杂的,很难计算期望值,因此可以使用经验分布来近似$F$中的期望值。它由训练数据$X={X_1,X_2,.,X_N}$给出,即:

$Fisher$和$Hessian$

对数似然的负期望$Hessian$,等于$Fisher$信息矩阵。

对数似然的$Hessian$为:

期望:

因此:

费舍尔信息矩阵被定义为评分函数的协方差,它是一个曲率矩阵,可以理解为对数似然函数的黑森负期望。因此,F的直接应用,是在二阶优化方法中替换H

参考

(4 封私信) 费雪信息 (Fisher information) 的直观意义是什么? - 知乎 (zhihu.com)

费舍尔信息矩阵及自然梯度法 - 知乎 (zhihu.com)

【TRPO系列讲解】(二)Hessian矩阵、Fisher信息矩阵、KL散度_哔哩哔哩_bilibili


文章作者: ghtll
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ghtll !