上述的第一步就是划分为A=CR的过程,从左侧的一个个向量组中寻找一个个线性无关的向量组,如果发现不相关,就以列向量的形式填入到右侧的C矩阵中,随后找完之后,取其系数填入右侧的R矩阵中,最后的M矩阵实际上是从R矩阵中剥离出来的一个方阵,根据这种变换方法,我们也可以证明有关于转置的一系列结论。
实际上每一个矩阵都可以做到A=CR分解,值得质疑的是到底下面这个式子是否真的有逆。
\[C^TC与RR^T
\]
首先我们C的列向量个数与R的行数都等于矩阵A的秩,这个秩的存在导致这两个矩阵的秩都是等于原来方阵的秩的,而这连个矩阵的行数与列数都是等于r的,再加上秩也等于r,那么这个方阵必有逆,也就是说这个M矩阵必定存在。
在上一节我们看过了有关矩阵分解的A=CMR理论,现在我们把这个过程反过来,对于两个线性无关的向量组,相乘也可以理解为得到新矩阵的过程,或者说是换底的过程,前一个向量按照后一个向量组描述的方式定向的去做变换,最后得到的新矩阵实在这两个矩阵的共同作用下生成的,前一个矩阵提供基底向量(线性无关),后一个矩阵描述变化的方式(系数),由于这个过程可逆,因此得到的新矩阵的秩也必须是与这两个矩阵的秩相同。
对于矩阵的乘法的理解
我们按照上面的方法实操一下;首先使用第一节的矩阵与向量乘法的理解与矩阵分解A=CR的理解,那么把右侧矩阵的每一列看作是一个向量,那么这个向量需要使用左侧的矩阵得以线性表示,按照左侧的向量划分,自然的来看,就比如说第一个向量,需要乘以右侧的矩阵的第一行的每一个元素,在各自的向量中占据第一维度的位置,那么就按照左侧第一列乘以右侧第一行来表示左侧第一个列向量在各个右侧向量组中的分量,自然就有后面的式子了。
其实这样也就理解了为什么矩阵的乘积是列数等于右侧,而行数等与左侧矩阵,左侧代表维度的变化,左侧的行数限制了最高维度,右侧的列数就是待变换的向量的个数,实际上也就是乘积所得矩阵中列向量的个数。
按照上面的理解不难有这样的推论,按照右侧为列向量,左侧为变换矩阵
\[\begin{bmatrix}
1 & 0 \\
3 & 1
\end{bmatrix}
\begin{bmatrix}
2 & 4\\
0 & 5
\end{bmatrix}
=
\begin{bmatrix}
\begin{bmatrix}
1 & 0 \\
3 & 1
\end{bmatrix}
\begin{bmatrix}
2\\0
\end{bmatrix}
&
\begin{bmatrix}
1 & 0 \\
3 & 1
\end{bmatrix}
\begin{bmatrix}
4 \\ 5
\end{bmatrix}
\end{bmatrix}
=\begin{bmatrix}
2 & 4 \\
6 & 17
\end{bmatrix}
\]
到现在你可能已经发现矩阵的乘法的内容其实非常多,理解方式不同,但是得到的结果确实是相同的,其实这也就是线性代数的魅力所在,矩阵的乘法也是及其严格的法则,不是随便定下来的。
首先举一个例子,我最近在看书的时候遇到一个问题,当我想以我以前常用的那样对发现一个描述人脸的灰度向量使用一些诸如随机森林,梯度上升树之类的时候,发现算法的真确性及其低下,基本无法识别,这是由于典型算法对于数据非常敏感,准确的说,这个数据本身就是非常敏感的,当人脸稍微移动一点点的时候,整个向量的灰度值就会发生全体性的偏离,后来找到了一个叫做PCA的算法,这是一种矩阵分解的方法,它可以找到矩阵中最特殊的部分,分解出来,这样的矩阵就相比于直接使用大矩阵会高效很多,而且计算量也小了。
目前的一系列分解问题
\[假设有一个A矩阵,A是一个n阶实对称矩阵,已经存在n个线性无关的特征向量,假设有特征值\lambda _1 \dots \lambda_m\\
Ax_1=\lambda_1x_1 \dots\dots (1)\\
Ax_2=\lambda_2x_2 \dots\dots (2)\\
对(1)同时左x_2^T\\
x_2^T Ax_1=x_2^T\lambda_1x_1 \\
再同时转置\\
x_1^TAx_2=x_1^T\lambda_2x_2=x_1^T\lambda_1x_2\\
\Rightarrow(\lambda_1-\lambda_2)x_1^Tx_2=0\\
那么由于\lambda_1 不等于\lambda_2则向量x_1与x_2正交
\]
有了上述这个结论之后就可以假定q为我们的特征向量,而Q为特征向量组成的特征向量组,当然这个向量组也是正交的
由于Q是正定的,所以说是可逆的,那么同时右乘以Q的逆,则证毕。
\[S = Q\Lambda Q^{-1}\\
又因为Q^{-1} = Q^{T}\\
S = Q\Lambda Q^T
\]
结合上述已经涉及到的内容又出现了这些小想法,S的秩是与中间对角阵的特征值数量挂钩的,又与正交矩阵Q的像两个数相挂钩。
\[Q\Lambda = \begin{bmatrix}
\lambda_1q_1 & \lambda_2q_2 & \dots & \lambda_nq_n
\end{bmatrix}
\]
同样的也可以反向证明这个结论的真确性,在上式子同时右乘以qn那么不同的会应为正定而变为0,相同的为1,则成立。
上述就是我们的真实的矩阵维度图
举个例子
\[我们现在有一个矩阵叫做A=
\begin{bmatrix}
1 & 2 & 3 \\
2 & 4 & 6
\end{bmatrix}\\
经过上面几节的陈述我们已经知道矩阵是可以分解的A=CR\\
A=
\begin{bmatrix}
1 & 2 & 3 \\
2 & 4 & 6
\end{bmatrix} = \begin{bmatrix}1 \\ 2\end{bmatrix}\begin{bmatrix}1 & 2 & 3\end{bmatrix}\\
经过上式我们不难发现A的列向量空间维度与行向量空间维度都是1。也就是说\\
C(A)=1 \ \ \ C(A^T)=1\\
我们把A分解出来的列向量与行向量分别抽取出来\\
令C = \begin{bmatrix}1 \\ 2\end{bmatrix}\ \ \ R = \begin{bmatrix}1 & 2 & 3\end{bmatrix}\\
取出R,我们使之与一个未知向量x相乘等于零,也就是说Rx=0\\
不难解出来这个方程x有两个独立的向量\\
x_1 = \begin{bmatrix}3 \\ 0 \\ -1\end{bmatrix}\ \ \ x_2 = \begin{bmatrix}2 \\ -1 \\ 0\end{bmatrix}\\
而这个解其实也就是我们说的Ax=0的解了,那么这个零解空间也就是与A行空间垂直的\\那一个零解空间(可以回想矩阵乘法的过程,可以得到结论的正确性)\\
反之转置过后的方程也可以得到一样的流程去操作\\
得到的x=\begin{bmatrix}2 \\ -1\end{bmatrix}\\ 只有一个向量那么这个维度就是1了\\
最后得出下面这样的结论
\]
设有一个mxn的矩阵A
向量空间
维度
列向量空间 C(A)
r
行向量空间 C(A^T)
r
左零解空间 N(Ax=0解得的x的维度, 与行向量空间垂直的零解空间)
n - r
右零解空间 N (A^Tx=0解的x的维度,与列向量空间垂直的零解空间)
m - r
关于空间的垂直关系可以这样理解: 上述的A=CR分解中,C是从A中剥离出来的列向量空间;R是从A中剥离出来的行向量空间
而在去求解NullSpace的时候,同时右乘上的x是可以直接与R作用的(内积),而R是A的行向量空间,
而这个Rx的乘积的零向量,那么也就是说这里的x向量组合是与R这个行向量空间是垂直的(内积为0)或者说,正定的。
这也是为什么Ax=0
解得的是与列向量空间垂直的NullSpace空间
矩阵AB的秩不大于A的秩,也不大与B的秩.也就是Rank(AB) ≤ min{Rank(A), Rank(B)}
A+B的秩不大于各自矩阵秩的和
秩相等
如果A是mxr阶矩阵,B是rxn阶矩阵,那么我们就有AB的秩也为r
设H为一个(1, -1)矩阵,即以1, -1为基本元素的\(n\times n\)的矩阵,若:
\[HH^T=nI
\]
则称H为一个n阶Hadamard矩阵,简称\(H-矩阵\)
假定存在\(m\)阶矩阵Hadamard矩阵,若其第一行的元素全是1,则称其为一个行规范的\(H-矩阵\);
若其第一列元素全部都是1,则称其为一个列规范型\(H-矩阵\);若既是列规范又是行规范,则称其为规范的\(H-矩阵\)
假定存在一个m阶的\(H-矩阵H_m\),则
\[|detH_m|=m^{\frac{m}{2}}
\]
反之则存在矩阵
\[H=(a_{ij})_{m\times m},若|a_{ij}|\leq1(1\leq i, j \leq m),且|detH|=m^{\frac{m}{2}}
\]
这也就是说每个元素\(|a_{ij}|\)都是小于等于 1
则称这个H为\(H-矩阵\)
假定\(H\)是\(H-矩阵\),令把对其实行的下述变换的任意组合所得到的矩阵记作为\(H'\)
\[(1)行换序;\\
(2)列换序;\\
(3)对于某些行(列)乘以-1;\\
(4)转置;
\]
由\(H\)的正定性知\(H‘\)仍然为\(H-矩阵\).
两个同阶\(H-矩阵\)等价,若通过其中一个出发经过上述有限次变换之后都可以变换称为另外一个,显而易见的是任意两个同阶的\(H-矩阵\)等价
若m阶\(H-矩阵\)存在,则\(m=1,2\)或者\(m(mod 4 )=0\) (m对4取余一定等于0).
\[\sum_{j=1}^{m}(h_{1j} + h_{2j})(h_{1j}+h_{3j})=\sum_{j=1}^{m}h_{1j}^2=m
\]
这里使用左侧是强行凑上去的两\(h_{2j},h_{3j}\)是为了使用下面的结论
\[h_{1j}+h_{2j}=\pm2,0\ \ \ \ \ \ \ h_{1j} + h_{3j}=\pm2, 0 \ \dots\dots (1)
\]
首先\(H-矩阵\)是正交的,\(h_{1j}\)代表的是一行行的元素,那么每行的元素的内积一定是1
从元素的角度分析,当不同行的元素的成内积的时候,由于\(H-矩阵\)的元素只有\(\pm1\)
所以应为不同行的元素内积得0,得出这两行的元素的对应位置上相同的元素个数与不同
元素的个数是完全相等的,只有这样才能得出内积为0的结果,计算两个向量的和的时候,
由于对应位置上元素不同的位置的和为0,那么也就是说其相同项的由于元素完全相同,那么
只是留下了\(\pm2\),所以我们说这个\(h_{1j}+h_{2j}=\pm2,0\),表示这个向量只有\(\pm2与0所组成\)
所以上式就可以提出来一个2,那么m就一定是4的倍数了,也就是说如果一个\(H-矩阵\),那么它的阶数一定是$m(mod\ 4)\ =\ 0 $
定义2.1
设\(A=(a_{ij})\)为一个\(m\times p\)的矩阵,\(B=(b_{ij})\)为一个\(n\times q\)矩阵,令:
\[A\times B=\begin{bmatrix}
a_{11}B & a_{12}B & \dots & a_{1p}B\\
a_{21}B & a_{22}B & \dots & a_{2p}B\\
\vdots & \vdots & \ddots & \vdots\\
a_{m1}B & a_{m2}B & \dots & a_{mp}B
\end{bmatrix}
\]
这样的形式\(A\times B\)被称作为直积,也被叫做\(Kronecker\)积
引理
设m为一个常数,\(A,A_1, A_2\)为\(m\times p\)矩阵,\(B,B_1,B_2\)为\(n\times q\)的矩阵,C为\(p\times s\)矩阵,D为\(q\times t\)矩阵,则有下面这些定理的出现
\[(1)m(A\times B)=(mA)\times B \\
(2)A\times (B_1+ B_2)=A\times B_1 + A\times B_2\\
(3)(A_1 + A_2)\times B = A_1 \times B + A_2\times B\\
(4)(A\times B)^T=A^T \times B^T\\
(5)(A\times B)(C\times D)=AC\times BD\ \ (这个与预想的不同)
\]
(1)~(4)显然成立,现在证明(5)
\[A=\begin{bmatrix}
a_{11} & a_{12} & \dots & a_{1p}\\
a_{21} & a_{22} & \dots & a_{2p}\\
\vdots& \vdots & \ddots & \vdots\\
a_{m1} & a_{m2} & \dots & a_{mp}
\end{bmatrix}\\
C=\begin{bmatrix}
c_{11} & c_{12} & \dots & c_{1s}\\
c_{21} & c_{22} & \dots & c_{2s}\\
\vdots& \vdots & \ddots & \vdots\\
c_{p1} & c_{p2} & \dots & c_{ps}
\end{bmatrix}\\
(A\times B)(C\times D)=\begin{bmatrix}
a_{11}B & a_{12}B & \dots & a_{1p}B\\
a_{21}B & a_{22}B & \dots & a_{2p}B\\
\vdots& \vdots & \ddots & \vdots\\
a_{m1}B & a_{m2}B & \dots & a_{mp}B
\end{bmatrix}\begin{bmatrix}
c_{11}D & c_{12}D& \dots & c_{1s}D\\
c_{21}D & c_{22}D & \dots & c_{2s}D\\
\vdots& \vdots & \ddots & \vdots\\
c_{p1}D & c_{p2}D& \dots & c_{ps}D
\end{bmatrix}\\
=\begin{bmatrix}
\sum_{i=1}^{p}a_{1i}c_{i1}BD & \sum_{i=1}^{p}a_{1i}c_{i2}BD & \dots & \sum_{i=1}^{p}a_{1i}c_{is}BD \\
\vdots & \vdots & \dots & \vdots \\
\sum_{i=1}^{p}a_{mi}c_{i1}BD & \sum_{i=1}^{p}a_{mi}c_{i2}BD & \dots & \sum_{i=1}^{p}a_{mi}c_{is}BD
\end{bmatrix}=(AC)\times (BD)
\]
所以不难证明这个定理是成立的。
设\(H_1\)与\(H_2\)分别为\(m\)阶与\(n\)阶\(H-矩阵\),则\(H_1 \times H_2\)为\(mn\)阶\(H-矩阵\)
证明:
\[\begin{eqnarray*}
(H_1\times H_2)(H_1\times H_2)^T
&& =(H_1\times H_2)(H_1^T\times H_2^T)\\
&& =(H_1H_1^T)\times (H_2H_2^T)\\
&& =(mI)\times (nI)\\
&& =mnI
\end{eqnarray*}
\]
由于\(H_2\)是\(\begin{pmatrix}1 & 1\\ 1 & -1\end{pmatrix}\),所以上述的结论显然成立
\[A=
\begin{bmatrix}
A_{11} & A_{12} & \dots & A_{1t}\\
A_{21} & A_{22} & \dots & A_{2t}\\
\vdots & \vdots & \ddots & \vdots\\
A_{t1} & A_{t2} & \dots & A_{tt}\\
\end{bmatrix}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ A是一个m\times m阶矩阵\\
\]
又设B为如下的\(tn\times tn\)矩阵
\[B =
\begin{bmatrix}
B_{11} & B_{12} & \dots & B_{1t}\\
B_{21} & B_{22} & \dots & B_{2t}\\
\vdots & \vdots & \ddots & \vdots \\
B_{t1} & B_{t2} & \dots & B_{tt}\\
\end{bmatrix}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ B是一个n\times n阶矩阵
\]
令下式成立:
\[A\otimes B=P=
\begin{bmatrix}
P_{11} & P_{12} & \dots & P_{1t}\\
P_{21} & P_{22} & \dots & P_{2t}\\
\vdots & \vdots & \ddots & \vdots \\
P_{t1} & P_{t2} & \dots & P_{tt}\\
\end{bmatrix}
\]
其中\(P_{ij}=\sum_{k=1}^{t}A_{ik}\times B_{kj}(1\leq i, j\leq t)\)则称\(P\)为\(A\)与\(B\)的强直积
元素换成矩阵的一种乘法
引理2.2.2 定义2.2.2中\(A\)与\(B\)若满足
\[AA^T=rI_{tm};\ \ BB^T=sI_{tm}
\]
则
\[(A\otimes B)(A\otimes B)^T=rsI_{tmn}
\]
证明:设
\[(A\otimes B)(A\otimes B)^T=
\begin{bmatrix}
L_{11} & L_{12} & \dots & L_{1t}\\
L_{21} & L_{22} & \dots & L_{2t}\\
\vdots & \vdots & \ddots & \vdots\\
L_{t1} & L_{t2} & \dots & L_{tt}\\
\end{bmatrix}
\]
则有当\(1\leq a, b \leq t\),
\[\begin{eqnarray*}
L_{ab}
&&=\sum_{k=1}^t(A_{a1}\times B_{1k} + A_{a2}\times B_{2k}+\dots+A_{at}\times B_{tk})(A_{b1}^T\times B_{1k}^T+A_{b2}^T\times B_{2k}^T+\dots + A_{bt}^T\times B_{tk}^T)\\
&&=\sum_{k=1}^{t}\sum_{i=1}^{t}\sum_{j=1}^{t}(A_{ai}\times B_{ik})(A_{bj}^T\times B_{jk}^T)\\
&&=\sum_{k=1}^{t}\sum_{i=1}^{t}\sum_{j=1}^{t}(A_{ai}A_{bj}^T)\times (B_{ik}B_{jk}^T)\\
&&=\sum_{k=1}^{t}\sum_{i=1}^{t}(A_{ai}A_{bj}^T)\times\sum_{j=1}^{t}(B_{ik}B_{jk}^T)
\end{eqnarray*}
\]
分析:
\[B_{ik}B_{jk}=
\begin{cases}
0\ \ \ \ \ \ \ \ \ \ \ i\neq j\\
sI_{n} \ \ \ \ \ \ \ i=j
\end{cases}
\]
而:
\[A_{ai}A_{bj}=
\begin{cases}
0\ \ \ \ \ \ \ \ \ \ \ a\neq b\\
rI_{m} \ \ \ \ \ \ a=b
\end{cases}
\]
则可以知道只有当\(a=b\)时候才有值不等于零,而这个值就是\(rsImn\), 证毕!
证明:
令
\[C=\frac{1}{2}A
\begin{bmatrix}
I_m & I_m\\
I_m & -I_m
\end{bmatrix}
\]
这么设的目的完全是为了构造
则:
\[CC^T=\frac{1}{2}AA^TmI_{2m}=mI_{2m}
\]
易知:
\[BB^T=2nI_{2n}
\]
则通过引理知道:
若
\[H=C\otimes B
\]
则:
\[HH^T=(C\otimes B)(C \otimes B)^T=2mnI_{2mn}
\]
所以说这个\(2mn\)阶的\(H-矩阵\)一定存在的,证毕!
\[MN=NM^T
\]
也就是说这个MN矩阵是对称矩阵
(1) \(h\)阶反型\(H-矩阵\)\(H=U+I\);
(2) \(m\)阶\(H-矩阵\)睦偶\(M=W+I\), \(N=N^T\)
(3)三个\(l\)(1, -1)矩阵\(X,Y,Z\)满足
\[(XY^T)^T=XY^T, (YZ^T)^T=YZ^T,\\
(ZX^T)^T=ZX^T,XX^T=aI+(l-a)J,\\
YY^T=cI+(l-c)J,ZZ^T=(l+1)I-J;
\]
这里的,\((m-1)c=m(l-h+1)-a\),那么矩阵
\[\overline{H}=U\times N\times Z + I_{n}\times W\times Y + I_n\times I_m \times X
\]
是一个\(mlh\)阶的\(H-矩阵\)
证明: 由\(\overline{H}\)的构造式子可知,\(\overline{H}\)是一个(1, -1)矩阵,另外一方面,由条件(1),(2)知:
\[U^T=-U,UU^T=(h-1)I_h;\\W^T=-W,WW^T=(m-1)I_m\\
MN=NM^T,MM^T=N^2=mI_m,WN=NW^T(下有简单证明)
\]
M,N都是两个\(Hadamard\)矩阵,所以有\(MM^T=NN^T=mI_m\)
\[MN=NM^T\\
(W+I)N=N(W+I)^T\\
WN=NW^T\\
\]
如果说\(Ax=0\)那么\(A^TAx=0\)所以说,\(Ax=0\)的解一定属于\(A^TAx=0\)的解
如果说\(A^TAx=0\),然后左右同时乘以\(x^T\)\(\Rightarrow\)\(x^TA^TAx=0\)\(\Rightarrow\)\(||Ax||=0\)也就是说这个\(Ax=0\)成立
所以说这两个矩阵\(A^TA与A\)矩阵同阶
如果说\(A^2\)与\(A\)拥有同一个nullspace,那么这个矩阵\(A\)一定就是方阵
为解决的问题:
如果说N(A)是一个零向量,那么也就是说这个\(Ax=0\)的列向量空间满秩了,
如果说B= \(\begin{bmatrix}A & A & A\end{bmatrix}\)如果去找\(Bx=0\)的解,由于A已经是列满秩,那么会多出来
高斯消变换元法: 只不过需要把变换矩阵写出来
\(L\)是一个变换矩阵(左下角三角矩阵),\(U\)是一个被变换矩阵(右上角三角矩阵)
小小头脑风暴
前面学过的矩阵的分解,我们可以知道关于方程组\(Ax=0\)的解实际上是解的\(A\)的行向量空间的解,那么我们理所当然的知道\(xA=0\)的解是行空间的解。
这么做确实是有点麻烦,我想要算矩阵的行列式,本来应该非常迅速(直接转换称为上三角矩阵),但是这种方法的好处在与把变换矩阵也顺便存储了下来,避免了矩阵行变换时候的变化导致的原矩阵与后来矩阵的不等关系
计算上类行列式公式:\(|A|=a(b-a)(c-b)(d-c)\)也就是除了第一行元素以外的所有相对差值之积
关于选择矩阵拆分的时候,如果选择从左上角往右下角去拆,得到的将会是很标准的矩阵变换形式,但是如果从左下到右上角的变换,则会变成两个不那么标准的变换矩阵的乘积形式,所以推荐使用从左上到右下,也就是从第一行第一列开始变换
关于左右伪逆矩阵,通过左右逆矩阵的形式构造出来的,例如左伪逆矩阵的\(L=(A^TA)^{-1}A^H\Rightarrow (A^TA)^{-1}A^HA=I\)
显然成立,这就是显然成立
本质上就是通过矩阵无法增维的想法,首先先构造一个满秩的\(n\times n\)的矩阵空间,随后逆过去,使得\(A\)作用于这个变换矩阵,最后得到我们的左伪逆。
\[旋转矩阵=\begin{bmatrix}cos\theta & -sin\theta\\sin\theta & cos\theta\end{bmatrix}
\]
\[反射矩阵=\begin{bmatrix}cos\theta & sin\theta \\ sin\theta & -cos\theta\end{bmatrix}
\]
Householder Transformation 阅读资料
从正交角度理解\(Ax=0\)
\(Ax=0\)自然是可以看作是一个矩阵正交的过程,而这里找到的是\(A\)中行空间的正交关系,首先分析一个简单的情况
\[A = \begin{bmatrix}1 & 0 & 0\\ 0 & 1 & 0\\ 1 & 1 & 0\end{bmatrix}
\]
要找到这个\(Ax=0\)的解那么我们必须得去找到\(A\)行空间中的最小的无关向量组,也就是第一第二行,这样再去找一个向量,完全与这两个都正交,现在再想,把这两个行向量看作是\(x,y\)平面上的单位向量那么这个,这个其实就是描述的是\(xoy\)平面自然的,\(z\)轴上的分量的长度就不需要加以限制了
有换句话说,如果说秩为1的话,A矩阵描述的就是一个向量,在这个\(3\times 3\)的矩阵空间中,可以垂直于这个向量的必然存在着一个平面,而描述这个平面又可以又很多的向量,这也就是为什么这种方程的解总不是唯一的,应为一个维度解总不是唯一的。
理解了3维以后,上升到4维,空间总是会沾满的,A描述的空间,不够充足的部分,将由零解空间去填满。
在了解正交投影之前先举一个最基本的例子
\[有这样一个变换矩阵A= \begin{bmatrix}1 & 0\\ 0 & 1\\ 0 & 0\end{bmatrix}\\
现在有一个向量v = \begin{bmatrix}1\\2\\3\end{bmatrix}
\]
则有
\[A^T = \begin{bmatrix}1 & 0 & 0\\ 0 & 1 & 0 \end{bmatrix}
\]
那么
\[A^Tv = 1\begin{bmatrix}1 \\ 0\end{bmatrix} + 2\begin{bmatrix}0 \\ 1\end{bmatrix} + 3\begin{bmatrix}0 \\0\end{bmatrix} = \begin{bmatrix}1 \\ 2\end{bmatrix}
\]
解释
然后
\[AA^Tv=\begin{bmatrix}1 & 0\\ 0 & 1\\ 0 & 0\end{bmatrix}\begin{bmatrix}1 \\ 2\end{bmatrix}
\]
而这一步则是将投影在A行空间中的向量再次投影回来
\[AA^Tv=\begin{bmatrix}1 \\ 2 \\ 0\end{bmatrix}
\]
可以发现这个向量就是存在于矩阵列向量空间的一个子向量
\[v_{\perp}= (I - AA^T)v
\]
同样的对于一个任意一个正交矩阵,即上述的\(Q\)
向量\(v\)在经过\(AA^T\)变换之后,正交投影到了A向量空间之中,也就是说\(AA^Tv\)是完全存在于\(A\)中的,
\[v_{\perp} = (I -AA^T)v
\]
关于为什么一定是得是\(AA^T=I\)这种类型的\(A\)
如果不是正定的,那么在投影到矩阵空间A的过程中,会导致一定程度的缩放,这样虽说\(v\)仍然还是在\(A\)空间中的,但是\(v_{\perp}\)就不能用上述公式求了,也自然计算会不方便,在几何上也就没那么美好了。
写到这里,我发现有一点问题需要摒弃掉\(A\times v\)矩阵乘以向量,我们以前有两种方式去表示,一是完全的符号语言,二是向量的坐标表示,这表示的是数字,而可以知道,这些数本质都是在标准坐标系中的投影,数字非常具有迷惑性,老让你觉得数字不正常,其实说来,在完成这个矩阵乘法之后,我们应该看数字,而是看比例关系,看\(A\)中的向量组中的各个向量为一个独立的整体,而数字只是为了计算。上述的话总结成为一句话:
向量往矩阵的线性变换需要改变视角从这个矩阵的视角去看待这次变换,如果这个矩阵是正定的,那么其实无异于我们最基础的坐标系,数字只是为了方便于计算,除了比例关系,无实际意义。
小提示: 这样在找到垂直向量之后我们在倍延长\(v_{\perp}\)得到了对应面的镜面反射向量
值得补充的是
矩阵的奇异值分解就是\(A = U\Sigma V^T\)
首先先分析两个独特的矩阵
\(A^TA\), \(AA^T\)
\[A^TA = (A^TA)^T\\
AA^T = (AA^T)^T
\]
这两个矩阵是对称矩阵,那么其特征向量之间就一定是正交的,则有下式:
\[A^TA = V\Lambda V^T\\
AA^T = U\Lambda U^T
\]
在奇异值分解中我们需要得到这样的式子
\[Av_1 = \sigma_1u_1 \\
\dots\ \dots\\
Av_r =\sigma_r u_r
\]
我们要做的就是找到两个正交矩阵,使用\(A\)矩阵的线性变换去满足这两个矩阵的沟通
\[A[v_1 \dots v_r] = [u_1 \dots u_r]\begin{bmatrix}\sigma_1 & & & \\ & \ddots \\ & & & \sigma_r\end{bmatrix}\\
AV = U\Sigma\\
\]
故
\[A = U\Sigma V^T
\]
另外的
\[A^TA = V\Sigma ^TU^TU\Sigma V^T = V(\Sigma ^T\Sigma)V^T
\]
奇异值是特征值的开方\(\sigma_r = \sqrt{\lambda_r}\)
然后我们发现
\[v_1^Tv_2 = 0
\]
根据上式
\[u_1 = \frac{Av_1}{\sigma_1}\\
u_2 = \frac{Av_2}{\sigma_2}
\]
所以
\[u_1^Tu_2 = \frac{v_1^TA^TAv_2}{\sigma_1\sigma_2}=\frac{v_1^T\sigma_2^2v_2}{\sigma_1\sigma_2}=\frac{\sigma_2}{\sigma_1}v_1^Tv_2=0
\]
所以自然成立两个正交矩阵
至此我们的奇异值分解已经完成了
Notation
这里的\(U\)是一个行数与原矩阵相等的方阵, \(V\)是一个列数与原矩阵相同的方阵
\[Ax 的几何意义
\]
在矩阵\(A\)的变换效果下,\(x\)进行变换
\[Ax = U\Sigma V^Tx
\]
总结
先旋转,在伸缩,再旋转
简洁来说一句话,使用一个对称矩阵和正交矩阵去描述这个矩阵
由奇异值分解得到启发
\[A = U\Sigma V^T = U\Sigma U^TUV^T = (U\Sigma U^T)UV^T
\]
显然前面一个是一个对称矩阵,下面证明后者是一个正交矩阵
\[(UV^T)^TUV^T= VU^TUV^T = VV^T = I
\]
结果显然。
小结:
$Singular\ value\ Decomposition \(和\)Polar\ Decomposition$都可以完成分解
奇异值分解可以帮助辨析,哪些信息是有用的,哪些是噪点,帮助我们找到主要的特征去描述这个对象,提高训练的准确度,和针对性,可以用在很多特征提取的地方
奇异值分解可以帮助我们挑出秩为1的组和
如果说矩阵\(B\)的秩是\(k\), 那么\(||A-B||\) \(\geq\) \(||A- A_k||\)
这里的矩阵是取得的范数
欧式范数
无限范数
\(l1\)范数
矩阵范数
定义
正定性: 矩阵A的范数\(||A|| \geq 0\) ,且 \(||A|| = 0 \iff A = 0_{m\times n}\)
线性性: \(||\alpha A|| = |\alpha||A||\)
三角不等式: \(||A + B|| \leq ||A|| + ||B||\)
某些情况下如果是方阵: \((n\times n)\)一致性: \(||AB|| \leq||A||\ ||B||\)
借助向量的范数推出矩阵范数
比如说矩阵\(A\)的范数\(||A||\) = \(sup\{||Ax||:x\in k^n\ when||x|| = 1\}\)
或者说\(||A|| = sup\{\frac{|Ax||}{||x||}: x\in k^n,x\neq \vec{0} \}\)
P-范数(针对的是向量范数)
由此得到我们矩阵的范数
\[||A|| = max\frac{||Ax||_p}{||x||_p}=max\frac{[\sum_{i=1}^{m}|\sum_{j=1}^{n}a_{ij}x_j|^p]^{\frac{1}{p}}}{[\sum_{j=1}^{n}|x_i|^p]^{\frac{1}{p}}}
\]
直接记结果,想知道为什么--->周国标师生交流讲席
简单分析下p的几个取值
\(p=1\) : 这时求解最大值的过程实际上就是在找\(x\)的过程,用\(||x||=1\)比较方便计算,则有\(|x_1|+ \dots + |x_n|=1\),要想取得最大值,我们就得给最大列分配最大的系数。那么就得出\(||A||_1 = max\sum_{i=1}^{m}|a_{ij}|\ (1\leq j \leq n)\)
\(p= +\infty\): 这时候求解最大值时候,求解\(||x||_{\infty}\),有个不等式,得出\(||x|| = \begin{bmatrix}1 \\ 1 \\ \vdots \\ 1\end{bmatrix}\)这样,\(||A||_{\infty} = max\sum_{j=1}^{n}|a_{ij}|\ (1 \leq i \leq m)\),取最大行
\(p=2\) 引入\(Frobenius\ norm / Hilbert\ Schmich\ norm\)
\(||A||_F\) = \(\sqrt{trace(A^TA)} = \sqrt{\sum_{i=1}^{min\{m ,n\}}\sigma_i^2}\)
\(||A||_2\) = \(\sigma_{max}(A)\) \(\leq ||A||_F\)
\(p=0\): 非零元素的个数
核范数
- \(||A||_N = \sum_{i=1}^{r}|\sigma_i|\)
手机扫一扫
移动阅读更方便
你可能感兴趣的文章