赞
踩
视频链接:MITB站视频
笔记部分:总结参考子实
我们仍然从二阶说起,有矩阵
A
=
[
a
b
b
d
]
A=
大多数情况下使用性质4来定义正定性,而用前三条来验证正定性。
来计算一个例子:
A
=
[
2
6
6
?
]
A=
来试试
18
18
18,此时矩阵为
A
=
[
2
6
6
18
]
A=
计算
x
T
A
x
x^TAx
xTAx,得
[
x
1
x
2
]
[
2
6
6
18
]
[
x
1
x
2
]
=
2
x
1
2
+
12
x
1
x
2
+
18
x
2
2
当 ? ? ?取 18 18 18时,判定1、2、3都是“刚好不及格”。
在微积分中,一元函数取极小值需要一阶导数为零且二阶导数为正 d u d x = 0 , d 2 u d x 2 > 0 \frac{\mathrm{d}u}{\mathrm{d}x}=0, \frac{\mathrm{d}^2u}{\mathrm{d}x^2}>0 dxdu=0,dx2d2u>0。在线性代数中我们遇到了了多元函数 f ( x 1 , x 2 , ⋯ , x n ) f(x_1,x_2,\cdots,x_n) f(x1,x2,⋯,xn),要取极小值需要二阶偏导数矩阵为正定矩阵。
在本例中(即二阶情形),如果能用平方和的形式来表示函数,则很容易看出函数是否恒为正,
提到二阶导数矩阵,这个矩阵型为 [ f x x f x y f y x f y y ]
[fxxfyxfxyfyy],显然,矩阵中的主对角线元素(纯二阶导数)必须为正,并且主对角线元素必须足够大来抵消混合导数的影响。[fxxfyxfxyfyy] 同时还可以看出,因为二阶导数的求导次序并不影响结果,所以矩阵必须是对称的。现在我们就可以计算 n × n n\times n n×n阶矩阵了。
如果令 z = 1 z=1 z=1,相当于使用 z = 1 z=1 z=1平面截取该函数图像,
再来看这个矩阵的消元,
[
2
6
6
20
]
=
[
1
0
−
3
1
]
[
2
6
0
2
]
这就是 A = L U A=LU A=LU,可以发现矩阵 L L L中的项与配平方中未知数的系数有关,而主元则与两个平方项外的系数有关,这也就是为什么正数主元得到正定矩阵。
计算一个三阶矩阵,
A
=
[
2
−
1
0
−
1
2
−
1
0
−
1
2
]
A=
现在我们将矩阵 A A A分解为 A = Q Λ Q T A=Q\Lambda Q^T A=QΛQT,可以发现上面说到的各种元素都可以表示在这个分解的矩阵中,我们称之为主轴定理(principal axis theorem),即特征向量说明主轴的方向、特征值说明主轴的长度。
正定矩阵的逆矩阵有什么性质?我们将正定矩阵分解为 A = S Λ S − 1 A=S\Lambda S^{-1} A=SΛS−1,引入其逆矩阵 A − 1 = S Λ − 1 S − 1 A^{-1}=S\Lambda^{-1}S^{-1} A−1=SΛ−1S−1,我们知道正定矩阵的特征值均为正值,所以其逆矩阵的特征值也必为正值(即原矩阵特征值的倒数)所以,正定矩阵的逆矩阵也是正定的。
如果 A , B A,\ B A, B均为正定矩阵,那么 A + B A+B A+B呢?我们可以从判定 x T ( A + B ) x x^T(A+B)x xT(A+B)x入手,根据条件有 x T A x > 0 , x T B x > 0 x^TAx>0,\ x^TBx>0 xTAx>0, xTBx>0,将两式相加即得到 x T ( A + B ) x > 0 x^T(A+B)x>0 xT(A+B)x>0。所以正定矩阵之和也是正定矩阵。
再来看有 m × n m\times n m×n矩阵 A A A,则 A T A A^TA ATA具有什么性质?我们在投影部分经常使用 A T A A^TA ATA,这个运算会得到一个对称矩阵,这个形式的运算用数字打比方就像是一个平方,用向量打比方就像是向量的长度平方,而对于矩阵,有 A T A A^TA ATA正定:在式子两边分别乘向量及其转置得到 x T A T A x x^TA^TAx xTATAx,分组得到 ( A x ) T ( A x ) (Ax)^T(Ax) (Ax)T(Ax),相当于得到了向量 A x Ax Ax的长度平方,则 ∣ A x ∣ 2 ≥ 0 |Ax|^2\geq0 ∣Ax∣2≥0。
要保证模不为零,则需要 A x Ax Ax的零空间中仅有零向量,即 A A A的各列线性无关( r a n k ( A ) = n rank(A)=n rank(A)=n)即可保证 ∣ A x ∣ 2 > 0 |Ax|^2>0 ∣Ax∣2>0, A T A A^TA ATA正定。
在矩阵数值计算中,正定矩阵消元不需要进行“行交换”操作,也不必担心主元过小或为零,正定矩阵具有良好的计算性质。
矩阵 A , B A,\ B A, B对于某矩阵 M M M满足 B = M − 1 A M B=M^{-1}AM B=M−1AM时,成 A , B A,\ B A, B互为相似矩阵。
**例:**相似矩阵举例(对角化)
对于在对角化一讲(第二十二讲)中学过的式子 S − 1 A S = Λ S^{-1}AS=\Lambda S−1AS=Λ,则有 A A A相似于 Λ \Lambda Λ。
,
A
=
[
2
1
1
2
]
A=
我们来计算这几个矩阵的的特征值(利用迹与行列式的性质), λ Λ = 3 , 1 \lambda_{\Lambda}=3,\ 1 λΛ=3, 1、 λ A = 3 , 1 \lambda_A=3,\ 1 λA=3, 1、 λ B = 3 , 1 \lambda_B=3,\ 1 λB=3, 1。
所以,相似矩阵有相同的特征值。
有 A x = λ x , B = M − 1 A M Ax=\lambda x,\ B=M^{-1}AM Ax=λx, B=M−1AM,
第一个式子化为 A M M − 1 x = λ x AMM^{-1}x=\lambda x AMM−1x=λx,
接着两边同时左乘 M − 1 M^{-1} M−1得 M − 1 A M M − 1 x = λ M − 1 x M^{-1}AMM^{-1}x=\lambda M^{-1}x M−1AMM−1x=λM−1x,
进行适当的分组得 ( M − 1 A M ) M − 1 x = λ M − 1 x \left(M^{-1}AM\right)M^{-1}x=\lambda M^{-1}x (M−1AM)M−1x=λM−1x即 B M − 1 x = λ M − 1 x BM^{-1}x=\lambda M^{-1}x BM−1x=λM−1x。
B M − 1 = λ M − 1 x BM^{-1}=\lambda M^{-1}x BM−1=λM−1x可以解读成矩阵 B B B与向量 M − 1 x M^{-1}x M−1x之积等于 λ \lambda λ与向量 M − 1 x M^{-1}x M−1x之积,也就是 B B B的仍为 λ \lambda λ,而特征向量变为 M − 1 x M^{-1}x M−1x。
以上就是我们得到的一族特征值为 3 , 1 3,\ 1 3, 1的矩阵,它们具有相同的特征值。接下来看特征值重复时的情形。
特征值重复可能会导致特征向量短缺
来看一个例子,设
λ
1
=
λ
2
=
4
\lambda_1=\lambda_2=4
λ1=λ2=4,写出具有这种特征值的矩阵中的两个
[
4
0
0
4
]
具有这种特征值的矩阵可以分为两族,
第一族仅有一个矩阵
[
4
0
0
4
]
另一族就是剩下的诸如
[
4
1
0
4
]
若尔当形在过去是线性代数的核心知识,但现在不是(现在是奇异值分解),因为它并不容易计算。
再来看一个更加“糟糕”的矩阵:
矩阵
[
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
]
另一个例子,
[
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
]
若尔当认为第一个矩阵是由一个
3
×
3
3\times 3
3×3的块与一个
1
×
1
1\times 1
1×1的块组成的
[
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
]
\left[
而第二个矩阵是由两个
2
×
2
2\times 2
2×2矩阵组成的,这些分块被称为若尔当块。
[
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
0
]
\left[
若尔当块的定义型为
J
i
=
[
λ
i
1
⋯
λ
i
1
⋯
λ
i
⋯
⋮
⋮
⋮
⋱
λ
i
]
J_i=
它的对角线上只为同一个数,仅有一个特征向量。
所以有,每一个矩阵
A
A
A都相似于一个若尔当矩阵,型为
J
=
[
J
1
J
2
⋱
J
d
]
J=\left[
注意,对角线上方还有 1 1 1。若尔当块的个数即为矩阵特征值的个数。
在矩阵为“好矩阵”的情况下, n n n阶矩阵将有 n n n个不同的特征值,那么它可以对角化,所以它的若尔当矩阵就是 Λ \Lambda Λ,共 n n n个特征向量,有 n n n个若尔当块。
本讲我们介绍将一个矩阵写为 A = U Σ V T A=U\varSigma V^T A=UΣVT,分解的因子分别为正交矩阵、对角矩阵、正交矩阵,与前面几讲的分解不同的是,这两个正交矩阵通常是不同的,而且这个式子可以对任意矩阵使用,不仅限于方阵、可对角化的方阵等。
目标:我们现在要做的是,在 A A A的列空间中找到一组特殊的正交基 v 1 , v 2 , ⋯ , v r v_1,v_2,\cdots,v_r v1,v2,⋯,vr,这组基在 A A A的作用下可以转换为 A A A的行空间中的一组正交基 u 1 , u 2 , ⋯ , u r u_1,u_2,\cdots,u_r u1,u2,⋯,ur。
用矩阵语言描述为
A
[
v
1
v
2
⋯
v
r
]
=
[
σ
1
u
1
σ
2
u
2
⋯
σ
r
u
r
]
=
[
u
1
u
2
⋯
u
r
]
[
σ
1
σ
2
⋱
σ
n
]
A\Bigg[v_1\ v_2\ \cdots\ v_r\Bigg]=\Bigg[\sigma_1u_1\ \sigma_2u_2\ \cdots\ \sigma_ru_r\Bigg]=\Bigg[u_1\ u_2\ \cdots\ u_r\Bigg]
即 A v 1 = σ 1 u 1 , A v 2 = σ 2 u 2 , ⋯ , A v r = σ r u r Av_1=\sigma_1u_1,\ Av_2=\sigma_2u_2,\cdots,Av_r=\sigma_ru_r Av1=σ1u1, Av2=σ2u2,⋯,Avr=σrur,这些 σ \sigma σ是缩放因子,表示在转换过程中有拉伸或压缩。
而 A A A的左零空间和零空间将体现在 σ \sigma σ的零值中。
另外,如果算上左零、零空间,我们同样可以对左零、零空间取标准正交基,然后写为
A
[
v
1
v
2
⋯
v
r
v
r
+
1
⋯
v
m
]
=
[
u
1
u
2
⋯
u
r
u
r
+
1
⋯
u
n
]
[
σ
1
⋱
σ
r
[
0
]
]
A\Bigg[v_1\ v_2\ \cdots\ v_r\ v_{r+1}\ \cdots\ v_m\Bigg]=\Bigg[u_1\ u_2\ \cdots\ u_r\ u_{r+1}\ \cdots \ u_n\Bigg]\left[
此时
U
U
U是
m
×
m
m\times m
m×m正交矩阵,
Σ
\varSigma
Σ是
m
×
n
m\times n
m×n对角矩阵,
V
T
V^T
VT是
n
×
n
n\times n
n×n正交矩阵。
最终可以写为
A
V
=
U
Σ
AV=U\varSigma
AV=UΣ
可以看出这十分类似对角化的公式,矩阵 A A A被转化为对角矩阵 Σ \varSigma Σ,我们也注意到 U , V U,\ V U, V是两组不同的正交基。
(在正定的情况下, U , V U,\ V U, V都变成了 Q Q Q。)。进一步可以写作 A = U Σ V − 1 A=U\varSigma V^{-1} A=UΣV−1,因为 V V V是标准正交矩阵所以可以写为 A = U Σ V T A=U\varSigma V^T A=UΣVT
计算一个案例,
A
=
[
4
4
−
3
3
]
A=
在 A = U Σ V T A=U\varSigma V^T A=UΣVT中有两个标准正交矩阵需要求解,我们希望一次只解一个,如何先将 U U U消去来求 V V V?
A T A A^TA ATA是一个对称正定矩阵(至少是半正定矩阵),于是有 A T A = V Σ T U T U Σ V T A^TA=V\varSigma^TU^TU\varSigma V^T ATA=VΣTUTUΣVT,由于 U U U是标准正交矩阵,所以 U T U = I U^TU=I UTU=I,而 Σ T Σ \varSigma^T\varSigma ΣTΣ是对角线元素为 σ 2 \sigma^2 σ2的对角矩阵。
现在有(通过
A
T
A
A^TA
ATA求解
V
V
V)
A
T
A
=
V
[
σ
1
σ
2
⋱
σ
n
]
V
T
A^TA=V
这个式子中
V
V
V即是
A
T
A
A^TA
ATA的特征向量矩阵而
Σ
2
\varSigma^2
Σ2是其特征值矩阵。
例1:
到目前为止,我们得到 [ 4 4 − 3 3 ] = [ u ? u ? u ? u ? ] [ 32 0 0 18 ] [ 1 2 1 2 1 2 − 1 2 ]
=[4−343] [u?u?u?u?] [32−−√0018−−√] [4−343]=[u?u?u?u?][32 0018 ][2 12 12 1−2 1],接下来继续求解 U U U。⎡⎣12√12√12√−12√⎤⎦
A
A
T
=
U
Σ
V
T
V
Σ
T
U
T
=
U
Σ
2
U
T
AA^T=U\varSigma V^TV\varSigma^TU^T=U\varSigma^2U^T
AAT=UΣVTVΣTUT=UΣ2UT,求出
A
A
T
AA^T
AAT的特征向量即可得到
U
U
U,
[
4
4
−
3
3
]
[
4
−
3
4
3
]
=
[
32
0
0
18
]
但是我们不能直接使用这一组特征向量,因为式子 A V = U Σ AV=U\varSigma AV=UΣ明确告诉我们,一旦 V V V确定下来, U U U也必须取能够满足该式的向量,
所以此处
A
v
2
=
[
0
−
18
]
=
u
2
σ
2
=
[
0
−
1
]
18
Av_2=
该问题在本讲的官方笔记中有详细说明。
例2:
A
=
[
4
3
8
6
]
A=
最终得到
[
4
3
8
6
]
=
[
1
2
‾
2
−
1
‾
]
[
125
0
0
0
‾
]
[
0.8
0.6
0.6
‾
−
0.8
‾
]
补充: A B AB AB的特征值与 B A BA BA的特征值相同
证明来自Are the eigenvalues of AB equal to the eigenvalues of BA? (Citation needed!)
取 λ ≠ 0 \lambda\neq 0 λ=0, v v v是 A B AB AB在特征值取 λ \lambda λ时的的特征向量,则有 B v ≠ 0 Bv\neq 0 Bv=0,并有 λ B v = B ( λ v ) = B ( A B v ) = ( B A ) B v \lambda Bv=B(\lambda v)=B(ABv)=(BA)Bv λBv=B(λv)=B(ABv)=(BA)Bv,所以 B v Bv Bv是 B A BA BA在特征值取同一个 λ \lambda λ时的特征向量。
再取 A B AB AB的特征值 λ = 0 \lambda=0 λ=0,则 0 = det A B = det A det B = det B A 0=\det{AB}=\det{A}\det{B}=\det{BA} 0=detAB=detAdetB=detBA,所以 λ = 0 \lambda=0 λ=0也是 B A BA BA的特征值,得证。
A = U Σ V T A=U\varSigma V^T A=UΣVT
ab-equal-to-the-eigenvalues-of-ba-citation-needed)
取 λ ≠ 0 \lambda\neq 0 λ=0, v v v是 A B AB AB在特征值取 λ \lambda λ时的的特征向量,则有 B v ≠ 0 Bv\neq 0 Bv=0,并有 λ B v = B ( λ v ) = B ( A B v ) = ( B A ) B v \lambda Bv=B(\lambda v)=B(ABv)=(BA)Bv λBv=B(λv)=B(ABv)=(BA)Bv,所以 B v Bv Bv是 B A BA BA在特征值取同一个 λ \lambda λ时的特征向量。
再取 A B AB AB的特征值 λ = 0 \lambda=0 λ=0,则 0 = det A B = det A det B = det B A 0=\det{AB}=\det{A}\det{B}=\det{BA} 0=detAB=detAdetB=detBA,所以 λ = 0 \lambda=0 λ=0也是 B A BA BA的特征值,得证。
A = U Σ V T A=U\varSigma V^T A=UΣVT
通过将矩阵写为 A v i = σ i u i Av_i=\sigma_iu_i Avi=σiui形式,将矩阵对角化,向量 u , v u,\ v u, v之间没有耦合, A A A乘以每个 v v v都能得到一个相应的 u u u。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。