奇异值分解与穆尔-彭罗斯伪逆

根据奇异值分解得到穆尔-彭罗斯伪逆的一个表达方式,同时证明不满秩情况下最小二乘问题的穆尔-彭罗斯伪逆的解为最小范数最小二乘解。

本章节内容主要来自于《Linear Algebra with Applications》的第七章数值线性代数。

奇异值分解

简要介绍可见PCA分析公式推导

简单地说,任何一个矩阵 \(\mathbf{A}\) ,均可以通过奇异值分解拆分为下式: \[ \mathbf{A} = \mathbf{U \Sigma V^{T}} \]

穆尔-彭罗斯伪逆

我们知道矩阵 \(\mathbf{A}\) 的一个广义逆只需要满足下式,但是这样的广义逆矩阵不是唯一的,存在明显的缺陷。 \[ \boldsymbol{A} \boldsymbol{A}^{-} \boldsymbol{A}=\boldsymbol{A} \] 如果一个实矩阵 \(\mathbf{A}^{+}\) 满足下面四个条件 (常称 Moore-Penrose 条件),则矩阵 \(\mathbf{A}^{+}\)唯一的,称为穆尔-彭罗斯伪逆。

  1. \(\boldsymbol{A} \boldsymbol{A^+} \boldsymbol{A}=\boldsymbol{A}\);
  2. \(\boldsymbol{A^+} \boldsymbol{A} \boldsymbol{A^+}=\boldsymbol{A^+} ;\)
  3. \(\boldsymbol{A A}^{+}\) 为实对称矩阵, 即 \(\boldsymbol{A} \boldsymbol{A}^{+}=\left(\boldsymbol{A} \boldsymbol{A}^{+}\right)^{\mathrm{T}}\);
  4. \(\boldsymbol{A^+} \boldsymbol{A}\) 为实对称矩阵, 即 \(\boldsymbol{A}^{+} \boldsymbol{A}=\left(\boldsymbol{A}^{+} \boldsymbol{A}\right)^{\mathrm{T}}\)

如果矩阵 \(\mathbf{A}\) 是一个 \(m \times n\) 的秩为 \(r\) 的矩阵,我们将其进行奇异值分解,得到 \(\mathbf{A} = \mathbf{U \Sigma V^{T}}\) ,其中矩阵 \(\mathbf{\Sigma}\) 是一个 \(m \times n\) 的矩阵,并且可以拆分为 (注:矩阵 \(\mathbf{A}\) 的秩等于非零的奇异值的数目) \[ \mathbf{\Sigma}=\left[\begin{array}{l|l} \mathbf{\Sigma}_{1} & O \\ \hline O & O \end{array}\right]=\left[\begin{array}{llll|l} \sigma_{1} & & & & \\ & \sigma_{2} & & & 0 \\ & & \ddots & & \\ \hline & & O & & 0 \end{array}\right] \]

同时我们定义 \(\mathbf{\Sigma^+}\) 是一个 $n m $ 的矩阵 \[ \mathbf{\Sigma^+}=\left[\begin{array}{c|c} \mathbf{\Sigma}_{1}^{-1} & O \\ \hline O & O \end{array}\right]=\left[\begin{array}{ccc|c} \frac{1}{\sigma_{1}} & \ddots & & O \\ & & \frac{1}{\sigma_{r}} & \\ \hline & & O & O \end{array}\right] \] 我们可以证明穆尔-彭罗斯伪逆可以表示为下式 \[ \mathbf{A^{+}}=\mathbf{V \Sigma^{+} U^{\mathrm{T}}} \] 易证明该式符合上面的四个条件。

证明

首先易得 \(\mathbf{\Sigma} \mathbf{\Sigma^{+}}\)\(\mathbf{\Sigma^{+}} \mathbf{\Sigma}\) 格式均为下式 \[ \left[\begin{array}{l|l} \mathbf{I} & O \\ \hline O & O \end{array}\right] \] 因此易得 \(\mathbf{\Sigma} \mathbf{\Sigma^{+}} \mathbf{\Sigma} = \mathbf{\Sigma}\)\(\mathbf{\Sigma^{+}} \mathbf{\Sigma} \mathbf{\Sigma^{+}} = \mathbf{\Sigma^{+}}\) ,同时 \(\mathbf{\Sigma} \mathbf{\Sigma^{+}}\)\(\mathbf{\Sigma^{+}} \mathbf{\Sigma}\) 均为对称矩阵,因此 \(\mathbf{\Sigma^{+}}\)\(\mathbf{\Sigma}\) 的穆尔-彭罗斯伪逆。

然后我们证明 $ =$ 是 \(\mathbf{A}\) 的 穆尔-彭罗斯伪逆,过程如下 $$ \[\begin{aligned} \boldsymbol{A} \boldsymbol{A^+} \boldsymbol{A} & = \mathbf{U \Sigma V^{T}} \mathbf{V \Sigma^{+} U^{\mathrm{T}}} \mathbf{U \Sigma V^{T}} \\ &= \mathbf{U \Sigma \Sigma^{+} \Sigma V^{T}} \\ &= \mathbf{U \Sigma V^{T}} \\ &= \mathbf{A} \\ \\ \boldsymbol{A^+} \boldsymbol{A} \boldsymbol{A^+} &= \mathbf{V \Sigma^{+} U^{\mathrm{T}}} \mathbf{U \Sigma V^{T}} \mathbf{V \Sigma^{+} U^{\mathrm{T}}} \\ &= \mathbf{V \Sigma^{+} \Sigma \Sigma^{+} U^{\mathrm{T}}} \\ &= \mathbf{V \Sigma^{+}U^{\mathrm{T}}} \\ &= \mathbf{A^{+}} \\ \\ \left(\boldsymbol{A} \boldsymbol{A}^{+}\right) &= \mathbf{U \Sigma V^{T}} \mathbf{V \Sigma^{+} U^{\mathrm{T}}} \\ &= \mathbf{U \Sigma } \mathbf{ \Sigma^{+} U^{\mathrm{T}}} \\ \left(\boldsymbol{A} \boldsymbol{A}^{+}\right)^{\mathrm{T}} &= (\mathbf{U \Sigma } \mathbf{ \Sigma^{+} U^{\mathrm{T}}} )^{\mathrm{T}} \\ &= \mathbf{U} (\mathbf{ \Sigma \Sigma^{+} })^{\mathrm{T}} \mathbf{ U^{\mathrm{T}}} \\ &= \mathbf{U} \mathbf{ \Sigma \Sigma^{+} } \mathbf{ U^{\mathrm{T}}} \\ &= \boldsymbol{A} \boldsymbol{A}^{+} \\ \left(\boldsymbol{A}^{+} \boldsymbol{A}\right) &= \mathbf{V \Sigma^{+} U^{\mathrm{T}}} \mathbf{U \Sigma V^{T}} \\ &= \mathbf{V \Sigma^{+} \Sigma V^{T}} \\ \left(\boldsymbol{A}^{+} \boldsymbol{A}\right)^{\mathrm{T}} &= (\mathbf{V \Sigma^{+} \Sigma V^{T}} )^{\mathrm{T}} \\ &= \mathbf{V (\Sigma^{+} \Sigma)^{\mathrm{T}} V^{T}} \\ &= \mathbf{V \Sigma^{+} \Sigma V^{T}} \\ &= \boldsymbol{A^{+}} \boldsymbol{A}\\ \end{aligned}\]

$$

满秩情况下的最小二乘解

在正规方程组 \(\mathbf{A^{\mathrm{T}} A} \mathbf{x} = \mathbf{A^{\mathrm{T}} b}\) 中,如果 \(\mathbf{A}\) 是一个 \(m \times n\) 且秩为 \(n\) 的满秩矩阵,\(\mathbf{A}\) 的奇异值分解为 \(\mathbf{A} = \mathbf{U \Sigma V^{T}}\) ,因此我们有 $$ \[\begin{aligned} \left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}\right)^{-1} &= (\mathbf{V \Sigma^{T} U^{T}} \mathbf{U \Sigma V^{T}})^{-1} \\ &= (\mathbf{V \Sigma^{T} \Sigma V^{T}})^{-1} \\ &= \mathbf{V (\Sigma^{T} \Sigma)^{-1} V^{T}} \\ \end{aligned}\]

\[ 此时 $\mathbf{\Sigma}$ 的拆分形式为 \] =\[ 因此 $\mathbf{\Sigma^{T} \Sigma} = \mathbf{\Sigma^{T}_{1} \Sigma_{1}} = \mathbf{\Sigma_{1}^{2}}$ ,因此我们得到 \] (^{} )^{-1} = $$

正规方程组的解为 $$ \[\begin{aligned} \mathbf{x} &= \left(\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{\mathrm{T}} \boldsymbol{b}\\ &= \mathbf{V \Sigma^{-2}_{1} V^{T}} \mathbf{V \Sigma^{T} U^{T}} \mathbf{b} \\ &= \mathbf{V \Sigma^{-2}_{1} \Sigma^{T} U^{T}} \mathbf{b} \\ &= \mathbf{V \Sigma^{-2}_{1} \left[\begin{array}{r} \mathbf{\Sigma}_{1} & \mathbf{0} \end{array}\right] U^{T}} \mathbf{b} \\ &= \mathbf{V \left[\begin{array}{r} \mathbf{\Sigma}_{1}^{-1} & \mathbf{0} \end{array}\right] U^{T}} \mathbf{b} \\ &= \mathbf{V \Sigma^{+} U^{T} \mathbf{b}} \\ &= \mathbf{A^{+} b} \end{aligned}\]

$$ 也就是说,如果 \(\mathbf{A}\) 满秩,那么最小二乘问题的解为 \(\mathbf{A^{+} b}\)

不满秩情况下的最小范数最小二乘解

不满秩情况下,最小二乘问题有无穷多个解,我们证明 \(\mathbf{A^{+} b}\) 不仅是其中的一个解,而且是 L2 范数最小的解,即最小范数最小二乘解

此时设 \(\mathbf{A}\) 是一个 \(m \times n\) 且秩为 \(r < n\) 的不满秩矩阵,\(\mathbf{A}\) 的奇异值分解为 \(\mathbf{A} = \mathbf{U \Sigma V^{T}}\)

\(\mathbf{x}\)\(\mathrm{R^{n}}\) 中的一个向量,并定义 \[ \mathbf{c}=\mathbf{U}^{\mathrm{T}} \boldsymbol{b}=\left[\begin{array}{l} \boldsymbol{c}_{1} \\ \boldsymbol{c}_{2} \end{array}\right] \quad \text { , } \quad \boldsymbol{y}=V^{\mathrm{T}} \boldsymbol{x}=\left[\begin{array}{l} \boldsymbol{y}_{1} \\ \boldsymbol{y}_{2} \end{array}\right] \] 其中 \(\mathbf{c}_{1}\)\(\mathbf{y}_{1}\) 均为 \(\mathrm{R^{r}}\) 中的一个向量,由于 \(\mathbf{U^{T}}\) 是一个正交矩阵,因此我们有 $$ \[\begin{aligned} \|\boldsymbol{b}-\mathbf{A} \boldsymbol{x}\|_{2}^{2} &=\|\mathbf{U}^{\mathrm{T}} (\boldsymbol{b}-\mathbf{A} \boldsymbol{x})\|_{2}^{2} \\ &=\left\|\mathbf{U}^{\mathrm{T}} \boldsymbol{b}-\mathbf{\Sigma}\left(\mathbf{V}^{\mathrm{T}} \boldsymbol{x}\right)\right\|_{2}^{2}\\ &=\|\mathbf{c}-\mathbf{\Sigma y}\|_{2}^{2}\\ &=\left\|\left[\begin{array}{l} \mathbf{c_{1}} \\ \mathbf{c_{2}} \end{array}\right]-\left[\begin{array}{cc} \mathbf{\Sigma_{1}} & \mathbf{O} \\ \mathbf{O} & \mathbf{O} \end{array}\right]\left[\begin{array}{l} \mathbf{y_{1}} \\ \mathbf{y_{2}} \end{array}\right]\right\|_{2}^{2}\\ &=\left\|\left[\begin{array}{c} \mathbf{c_{1}-\Sigma_{1} y_{1}} \\ \mathbf{c_{2}} \end{array}\right]\right\|_{2}^{2}\\ &=\left\|\mathbf{c_{1}-\Sigma_{1} y_{1}}\right\|_{2}^{2}+\left\|\mathbf{c_{2}}\right\|_{2}^{2} \end{aligned}\]

$$ 由于 \(\mathbf{c}_{2}\)\(\mathbf{x}\) (线性) 无关,可得 \(\|\boldsymbol{b}-\mathbf{A} \boldsymbol{x}\|_{2}^{2}\) 取得最小值的充要条件为 \(\mathbf{c_{1}-\Sigma_{1} y_{1} = 0}\)

因此最小二乘解的充要条件为 \(\mathbf{x = Vy}\) ,其中 \(\mathbf{y}\) 向量的形式为 \[ \left[\begin{array}{c} \mathbf{\Sigma_{1}^{-1} c_{1}} \\ \mathbf{y_{2}} \end{array}\right] \]\(\mathbf{y}_{2} = \mathbf{0}\) 时,此时的 \(\mathbf{x}\)\[ \begin{aligned} \boldsymbol{x} &= \mathbf{V}\left[\begin{array}{cc} \mathbf{\Sigma_{1}^{-1}} \boldsymbol{c}_{1} \\ \mathbf{0} \end{array}\right] \\ &=\mathbf{V} \left[\begin{array}{cc} \mathbf{\Sigma_{1}}^{-1} & \mathbf{O} \\ \mathbf{O} & \mathbf{O} \end{array}\right]\left[\begin{array}{l} \boldsymbol{c}_{1} \\ \boldsymbol{c}_{2} \end{array}\right] \\ &=\mathbf{V \Sigma^{+} U^{\mathrm{T}}} \boldsymbol{b} \\ &=\mathbf{A^{+}} \boldsymbol{b} \end{aligned} \] 也就是说证明了 \(\mathbf{A^{+} b}\) 是其中的一个解。

如果 \(\mathbf{z}\) 是任何其他的解,则 \(\mathbf{z}\) 的形式必须为 \[ \mathbf{z}=\mathbf{V y}=\mathbf{V}\left[\begin{array}{l} \mathbf{\Sigma_{1}^{-1} c_{1}} \\ \mathbf{y_{2}} \end{array}\right] \] 其中 \(\mathbf{y}_{2} \neq \mathbf{0}\) 由此可得 \[ \|\mathbf{z}\|^{2}=\|\mathbf{y}\|^{2}=\left\|\mathbf{\Sigma_{1}^{-1} c_{1}}\right\|^{2}+\left\|\mathbf{y_{2}}\right\|^{2}>\left\|\mathbf{\Sigma_{1}^{-1} c_{1}}\right\|^{2}=\|\mathbf{x}\|^{2} \] 因此我们证明了 \(\mathbf{A^{+} b}\) 是最小范数最小二乘解。

证明 \(\mathbf{(A^{\mathrm{’}} A)^{+}A^{\prime} = A^{+}}\)

如果我们对正规方程组 \(\mathbf{A^{\mathrm{'}} A} \mathbf{x} = \mathbf{A^{\mathrm{'}} b}\) 直接求伪逆,得到 $ $ ,因此应该存在 \(\mathbf{(A^{\mathrm{'}} A)^{+}A^{'} = A^{+}}\) ,证明这个式子需要用到穆尔-彭罗斯伪逆的一些性质。

首先我们证明 \(\left(\mathbf{A}^{\prime} \mathbf{A}\right)^{\mathbf{+}}=\mathbf{A^+}\left(\mathbf{A^+}\right)^{\prime}\) ,根据 \(\mathbf{A} = \mathbf{U \Sigma V^{\prime}}\) ,我们得到 \(\mathbf{A'A} = \mathbf{V (\Sigma^{'} \Sigma) V^{’}}\) ,易证明该式就是 \(\mathbf{A'A}\) 的奇异值分解形式,因此 \(\mathbf{(A'A)^{+}} = \mathbf{V (\Sigma^{'} \Sigma)^{+} V^{\prime}}\) , 其中 \(\mathbf{\Sigma^{'}} \mathbf{\Sigma}\) 格式为下式 \[ \left[\begin{array}{l|l} \mathbf{\Sigma_{1}^{2}} & O \\ \hline O & O \end{array}\right] \] 易得 \((\mathbf{\Sigma^{'}} \mathbf{\Sigma})^{+} = \mathbf{\Sigma^{+}} \mathbf{(\Sigma^{'})^{+}} = \mathbf{\Sigma^{+}} \mathbf{(\Sigma^{+})^{'}}\) ,因此我们得证 \[ \mathbf{(A'A)^{+}} = \mathbf{V (\Sigma^{'} \Sigma)^{+} V^{\prime}} = \mathbf{V \mathbf{\Sigma^{+}} \mathbf{(\Sigma^{+})^{'}} V^{\prime}} = \mathbf{V \Sigma^{+} U^{T} U (\Sigma^{+})^{'} V^{\prime}} =\mathbf{A^+}\left(\mathbf{A^+}\right)^{\prime} \] 因此,我们有 \[ \begin{aligned} \mathbf{(A^{\mathrm{'}} A)^{+}A^{'}} & = \mathbf{A^+}\left(\mathbf{A^+}\right)^{\prime} \mathbf{A^{'}} \\ & = \mathbf{A^+}\left(\mathbf{AA^+}\right)^{\prime} \\ & = \mathbf{A^+}\left(\mathbf{AA^+}\right) \\ &= \mathbf{A^+} \\ \end{aligned} \] 得证。

  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2019-2026 Vincere Zhou
  • 访问人数: | 浏览次数:

请我喝杯茶吧~

支付宝
微信