MIT 线性代数(16—18)读书笔记

news/2024/5/19 1:27:06 标签: 麻省理工, 线性代数, 读书

第十六讲 投影矩阵(Ax=b)和最小二乘法


上一讲中,我们知道了投影矩阵 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT P b Pb Pb将会把向量投影在 A A A的列空间中。即只要知道矩阵 A A A的列空间,就能得到投影矩阵 P P P的导出式。
##1.投影矩阵(Ax=b无解的情形)

1.1两个极端的例子:

  1. 如果 b ∈ C ( A ) b\in C(A) bC(A),则 P b = b Pb=b Pb=b
  2. 如果 b ⊥ C ( A ) b\bot C(A) bC(A),则 P b = 0 Pb=0 Pb=0

证明1: P b = A ( A T A ) − 1 A T b = A ( A T A ) − 1 A T A x = A ( ( A T A − 1 ) A T A ) x = A x = b Pb = A(A^TA)^{-1}A^Tb\\ = A(A^TA)^{-1}A^TAx\\ =A((A^TA^{-1})A^TA)x =Ax=b Pb=A(ATA)1ATb=A(ATA)1ATAx=A((ATA1)ATA)x=Ax=b
证明2: P b = A ( A T A ) − 1 A T b = A ( A T A − 1 ) ( A T b ) = A ( ( A T A − 1 ) 0 = 0 Pb = A(A^TA)^{-1}A^Tb\\ = A(A^TA^{-1})(A^Tb)\\ =A((A^TA^{-1})0=0 Pb=A(ATA)1ATb=A(ATA1)(ATb)=A((ATA1)0=0
一般情况下, b b b将会有一个垂直于 A A A的分量,有一个在 A A A列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。

1.2一般情形

一般情况下, b b b将会有一个垂直于 A A A的分量,有一个在 A A A列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。如图:
的分量
向量 b 投 影 后 , 有 b = e + p , p = P b , e = ( I − P ) b , 这 里 的 p 是 b 在 C ( A ) 中 的 分 量 , 而 e 是 b 在 N ( A T ) 中 的 分 量 。 b投影后,有b=e+p, p=Pb, e=(I-P)b,这里的p是b在C(A)中的分量,而e是b在N(A^T)中的分量。 bb=e+p,p=Pb,e=(IP)bpbC(A)ebN(AT)
可以理解为:向量 b b b的投影在 A A Acolumn spaceerror vector的投影在left null space上,我们知道 P P P,可以将 b b b 投影到 p p p,那么一个什么样的投影矩阵把 b b b投影到了 e e e?因为column spaceleft null space正交补,所以他们共同组成了整个空间, I I Icolumn space就是整个空间, I − P I−P IP就是把 b b b投影到 e e e的矩阵,它和 P P P有意义的性质。

2. 最小二乘法(Ax=b)


回到上一讲最后提到的例题:
我们需要找到距离图中三个点 ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 2 ) (1, 1), (2, 2), (3, 2) (1,1),(2,2),(3,2) 偏差最小的直线: y = C + D t y=C+Dt y=C+Dt
图2
根据条件可以得到方程组
{ C + D = 1 C + 2 D = 2 C + 3 D = 2 \begin{cases} C+D&=1 \\ C+2D&=2 \\ C+3D&=2 \\ \end{cases} C+DC+2DC+3D=1=2=2
,写作矩阵形式 [ 1 1 1 2 1 3 ] [ C D ] = [ 1 2 2 ] \begin{bmatrix}1 &1 \\1 &2 \\1&3\\\end{bmatrix}\begin{bmatrix}C\\D\\\end{bmatrix}=\begin{bmatrix}1\\2\\2\\\end{bmatrix} 111123[CD]=122,也就是我们的 A x = b Ax=b Ax=b,很明显方程组无解。
此时我们要找到最接近的解"最优解",我们要使得解最优即误差最小,定义误差为 A x − b = e Ax−b=e Axb=e的模长的平方即 ∥ A x − b ∥ 2 = ∥ e ∥ 2 = e 21 + e 22 + e 23 ∥Ax−b∥_2=∥e∥_2=e_{21}+e_{22}+e_{23} Axb2=e2=e21+e22+e23。此处使用平方的原因一是排除开根号带来的非线性运算,一是方便利用偏导数求解最小值。


  • 1.利用偏导求解

这里如果使用偏导数我们也能得到关于最优解的方程,展开结果为:
{ ∥ e ∥ 2 = e 1 2 + e 2 2 + e 2 2 = ( C + D − 1 ) 2 + ( C + 2 D − 2 ) 2 + ( C + 3 D − 2 ) 2 = 3 C 2 + 14 D 2 + 9 − 10 C − 22 D + 12 C D \begin{cases} ∥e∥_2&=e_1^2+e_2^2+e_2^2\\ &=(C+D-1)^2+(C+2D-2)^2+(C+3D-2)^2\\ &=3C^2+14D^2+9−10C−22D+12CD\\ \end{cases} e2=e12+e22+e22=(C+D1)2+(C+2D2)2+(C+3D2)2=3C2+14D2+910C22D+12CD
然后对 C C C求偏导为 6 C − 10 + 12 D = 0 6C-10+12D=0 6C10+12D=0;对 D D D求偏导为 28 D − 22 + 12 C = 0 28D-22+12C=0 28D22+12C=0
解方程得 C ^ = 2 3 , D ^ = 1 2 \hat C=\frac{2}{3}, \hat D=\frac{1}{2} C^=32,D^=21,则“最佳直线”为 y = 2 3 + 1 2 t y=\frac{2}{3}+\frac{1}{2}t y=32+21t,带回原方程组解得 p 1 = 7 6 , p 2 = 5 3 , p 3 = 13 6 p_1=\frac{7}{6}, p_2=\frac{5}{3}, p_3=\frac{13}{6} p1=67,p2=35,p3=613,即 e 1 = − 1 6 , e 2 = 1 3 , e 3 = − 1 6 e_1=-\frac{1}{6}, e_2=\frac{1}{3}, e_3=-\frac{1}{6} e1=61,e2=31,e3=61
于是我们得到 p = [ 7 6 5 3 13 6 ] , e = [ − 1 6 1 3 − 1 6 ] p=\begin{bmatrix}\frac{7}{6}\\\frac{5}{3}\\\frac{13}{6}\end{bmatrix}, e=\begin{bmatrix}-\frac{1}{6}\\\frac{1}{3}\\-\frac{1}{6}\end{bmatrix} p=6735613,e=613161,易看出 b = p + e b=p+e b=p+e,同时我们发现 p ⋅ e = 0 p\cdot e=0 pe=0 p ⊥ e p\bot e pe

可以验证,向量p 与e 正交,并且e 与矩阵A 的列空间正交。
p T e = 7 / 6 ∗ ( − 1 / 6 ) + 5 / 3 ∗ 1 / 3 + 13 / 6 ∗ ( − 1 / 6 ) = 0 e T a 1 = 1 ∗ ( − 1 / 6 ) + 1 ∗ 1 / 3 + 1 ∗ ( − 1 / 6 ) = 0 e T a 2 = 1 ∗ ( − 1 / 6 ) + 2 ∗ 1 / 3 + 3 ∗ ( − 1 / 6 ) = 0 p^Te=7/6*(-1/6)+5/3*1/3+13/6*(-1/6)=0\\ e^Ta_1=1*(-1/6)+1*1/3+1*(-1/6)=0\\ e^Ta_2=1*(-1/6)+2*1/3+3*(-1/6)=0 pTe=7/6(1/6)+5/31/3+13/6(1/6)=0eTa1=1(1/6)+11/3+1(1/6)=0eTa2=1(1/6)+21/3+3(1/6)=0

误差向量 e e e不仅垂直于投影向量 p p p,它同时垂直于列空间,如 [ 1 1 1 ] , [ 1 2 3 ] \begin{bmatrix}1\\1\\1\end{bmatrix}, \begin{bmatrix}1\\2\\3\end{bmatrix} 111,123

  • 2.利用矩阵求解

用矩阵的方法求解 A x ^ = P b A\hat x=Pb Ax^=Pb得到的方程是一样的,现在我们尝试解出 x ^ = [ C ^ D ^ ] \hat x=\begin{bmatrix}\hat C\\ \hat D\end{bmatrix} x^=[C^D^] p = [ p 1 p 2 p 3 ] 。 p=\begin{bmatrix}p_1\\p_2\\p_3\end{bmatrix}。 p=p1p2p3
A T A x ^ = A T b A T A = [ 3 6 6 14 ] A T b = [ 5 11 ] [ 3 6 6 14 ] [ C ^ D ^ ] = [ 5 11 ] A^TA\hat x=A^Tb\\ A^TA= \begin{bmatrix}3&6\\6&14\end{bmatrix}\qquad A^Tb= \begin{bmatrix}5\\11\end{bmatrix}\\ \begin{bmatrix}3&6\\6&14\end{bmatrix} \begin{bmatrix}\hat C\\\hat D\end{bmatrix}= \begin{bmatrix}5\\11\end{bmatrix}\\ ATAx^=ATbATA=[36614]ATb=[511][36614][C^D^]=[511]

写成方程形式为 { 3 C ^ + 16 D ^ = 5 6 C ^ + 14 D ^ = 11 \begin{cases}3\hat C+16\hat D&=5\\6\hat C+14\hat D&=11\\\end{cases} {3C^+16D^6C^+14D^=5=11,也称作 正 规 方 程 组 ( n o r m a l e q u a t i o n s ) \color{red}{正规方程组(normal equations)} normalequations
求的的结果是一样的。

我们现在做的运算也称作 线 性 回 归 ( l i n e a r r e g r e s s i o n ) \color{red}{线性回归(linear regression)} 线linearregression,使用误差的平方和作为 测 量 总 误 差 的 标 准 \color{red}{测量总误差的标准}


  • 如果有另一个点,如 ( 0 , 100 ) (0, 100) (0,100),在本例中该点明显距离别的点很远,最小二乘将很容易被离群的点影响, 通 常 使 用 最 小 二 乘 时 会 去 掉 明 显 离 群 的 点 \color{red}{通常使用最小二乘时会去掉明显离群的点} 使

3.证明 A T A A^TA ATA可逆


###3.1 证明可逆
接下来我们观察 A T A A^TA ATA 如 果 A 的 各 列 线 性 无 关 , 求 证 A T A 是 可 逆 矩 阵 \color{red}{如果A的各列线性无关,求证A^TA是可逆矩阵} A线ATA
先假设 A T A x = 0 A^TAx=0 ATAx=0,两边同时乘以 x T x^T xT x T A T A x = 0 x^TA^TAx=0 xTATAx=0,即 ( A x ) T ( A x ) = 0 (Ax)^T(Ax)=0 (Ax)T(Ax)=0。一个矩阵乘其转置结果为零,则这个矩阵也必须为零( ( A x ) T ( A x ) (Ax)^T(Ax) (Ax)T(Ax)相当于 A x Ax Ax长度的平方)。则 A x = 0 Ax=0 Ax=0,结合题设中的“ A A A的各列线性无关”,可知 x = 0 x=0 x=0,也就是 A T A A^TA ATA的零空间中有且只有零向量,得证。

###3.2互相垂直线性无关
我们再来看一种线性无关的特殊情况: 互 相 垂 直 的 单 位 向 量 一 定 是 线 性 无 关 的 \color{red}{互相垂直的单位向量一定是线性无关的} 线
比如: [ 1 0 0 ] [ 0 1 0 ] [ 0 0 1 ] \begin{bmatrix}1\\0\\0\end{bmatrix}\begin{bmatrix}0\\1\\0\end{bmatrix}\begin{bmatrix}0\\0\\1\end{bmatrix} 100010001,这三个正交单位向量也称作标准正交向量组(orthonormal vectors)。
另一个例子 [ cos ⁡ θ sin ⁡ θ ] [ − sin ⁡ θ cos ⁡ θ ] \begin{bmatrix}\cos\theta\\\sin\theta\end{bmatrix}\begin{bmatrix}-\sin\theta\\\cos\theta\end{bmatrix} [cosθsinθ][sinθcosθ]
下一讲研究标准正交向量组。

4.总结


1.记住图的意义:
这里写图片描述
2.最小二乘法求解的意义。
3. A T A A^TA ATA可逆的条件和正交向量组。


#第十七讲:正交矩阵和Gram-Schmidt正交化法


这是关于正交性最后一讲,已经知道正交空间,比如行空间和零空间,今天主要看正交基和正交矩阵

1.标准正交基与正交矩阵


###1.1 标准正交基

  1. 定义** 标 准 正 交 向 量 \color{red}{标准正交向量} (orthonormal): q i T q j = { 0 i ≠ j 1 i = j q_i^Tq_j=\begin{cases}0\quad i\neq j\\1\quad i=j\end{cases} qiTqj={0i=j1i=j;
    2.将标准正交向量放入矩阵中,有 Q = [ q 1 q 2 ⋯ q n ] Q=\Bigg[q_1 q_2 \cdots q_n\Bigg] Q=[q1q2qn],计算 Q T Q Q^TQ QTQ
    Q T Q = [ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ] = I Q^TQ=\begin{bmatrix}1& 0& \cdots& 0\\0& 1& \cdots& 0\\\vdots& \vdots& \ddots& \vdots\\0& 0& \cdots& 1\end{bmatrix}=I QTQ=100010001=I
    我们也把 Q Q Q成为
    标 准 正 交 矩 阵 \color{red}{标准正交矩阵} **(orthonormal matrix)。

标准正交基

  • 举个置换矩阵的例子: Q = [ 0 1 0 1 0 0 0 0 1 ] Q=\begin{bmatrix}0& 1& 0\\1& 0& 0\\0& 0& 1\end{bmatrix} Q=010100001,则 Q T = [ 0 1 0 0 0 1 1 0 0 ] Q^T=\begin{bmatrix}0& 1& 0\\0& 0& 1\\1& 0& 0\end{bmatrix} QT=001100010,易得 Q T Q = I Q^TQ=I QTQ=I
  • 使用上一讲的例子 Q = [ cos ⁡ θ − sin ⁡ θ sin ⁡ θ cos ⁡ θ ] Q=\begin{bmatrix}\cos\theta& -\sin\theta\\\sin\theta& \cos\theta\end{bmatrix} Q=[cosθsinθsinθcosθ],列向量长度为 1 1 1,且列向量相互正交。
  • 其他例子 Q = 1 2 [ 1 1 1 − 1 ] Q=\frac{1}{\sqrt 2}\begin{bmatrix}1& 1\\1& -1\end{bmatrix} Q=2 1[1111],列向量长度为 1 1 1,且列向量相互正交。
  • 使用上一个例子的矩阵,令 Q ′ = c [ Q Q Q − Q ] Q'=c\begin{bmatrix}Q& Q\\Q& -Q\end{bmatrix} Q=c[QQQQ],取合适的 c c c另列向量长度为 1 1 1也可以构造标准正交矩阵: Q = 1 2 [ 1 1 1 1 1 − 1 1 − 1 1 1 − 1 − 1 1 − 1 − 1 1 ] Q=\frac{1}{2}\begin{bmatrix}1& 1& 1& 1\\1& -1& 1& -1\\1& 1& -1& -1\\1& -1& -1& 1\end{bmatrix} Q=211111111111111111,这种构造方法以阿德玛(Adhemar)命名,对 2 , 4 , 16 , 64 , ⋯ 2, 4, 16, 64, \cdots 2,4,16,64,阶矩阵有效。
  • 再来看一个例子, Q = 1 3 [ 1 − 2 2 2 − 1 − 2 2 2 1 ] Q=\frac{1}{3}\begin{bmatrix}1& -2& 2\\2& -1& -2\\2& 2& 1\end{bmatrix} Q=31122212221,列向量长度为 1 1 1,且列向量相互正交。格拉姆-施密特正交化法的缺点在于,由于要求得单位向量,所以我们总是除以向量的长度,这导致标准正交矩阵中总是带有根号,而上面几个例子很少有根号。

**标准正交矩阵 **

Q T Q Q^TQ QTQ对任意的 Q Q Q都成立,但我们更关注 Q Q Q为方阵时的情况,因为其有逆且由 Q T Q = I ⇒ Q − 1 = Q T Q^TQ=I⇒Q^{−1}=Q^T QTQ=IQ1=QT,我们叫这种column vector为标准正交向量组成且为方阵的矩阵为正交矩阵 orthogonal matrix。


注意标准正交矩阵 orthogonormal matrix不一定是方阵,当它是方阵的时候,我们叫它正交矩阵 orthogonal matrix。

1.2正交矩阵


为什么我们如此关注标准正交矩阵 orthogonormal matrix为方阵 的情形?

上一讲我们研究了 A T A A^TA ATA的特性,联系我们之前学习的投影矩阵projection matrix,将向量 b b b投影在标准正交矩阵 Q Q Q的列空间中,根据上一讲的公式得 P = Q ( Q T Q ) − 1 Q T P=Q(Q^TQ)^{-1}Q^T P=Q(QTQ)1QT,由于标准正交矩阵 Q Q Q的性质,易得 P = Q Q T P=QQ^T P=QQT

我们断言,当列向量为标准正交基时, Q Q T QQ^T QQT是投影矩阵。极端情况,假设矩阵是方阵,而其列向量是标准正交的,则其列空间就是整个向量空间,而投影整个空间的投影矩阵就是单位矩阵,此时 Q Q T = I QQ^T=I QQT=I

投影矩阵的两个性质:

  1. ( Q Q T ) T = Q Q T (QQ^T)^T=QQ^T (QQT)T=QQT
    证明: ( Q Q T ) T = ( Q T ) T Q T = Q Q T (QQ^T)^T=(Q^T)^TQ^T=QQ^T (QQT)T=(QT)TQT=QQT

2. ( Q Q T ) 2 = Q Q T (QQ^T)^2=QQ^T (QQT)2=QQT
证明: ( Q Q T ) 2 = Q Q T Q Q T = Q ( Q T Q ) Q T = Q Q T (QQ^T)^2=QQ^TQQ^T=Q(Q^TQ)Q^T=QQ^T (QQT)2=QQTQQT=Q(QTQ)QT=QQT

我 们 计 算 的 A T A x ^ = A T b \color{red}{我们计算的A^TA\hat x=A^Tb} ATAx^=ATb,现在变为 Q T Q x ^ = Q T b Q^TQ\hat x=Q^Tb QTQx^=QTb,也就是 x ^ = Q T b \hat x=Q^Tb x^=QTb,分解开来看就是 x ^ i = q i T b ‾ \underline{\hat x_i=q_i^Tb} x^i=qiTb,这个式子在很多数学领域都有重要作用。当我们知道标准正交基,则解向量第 i i i个分量为基的第 i i i个分量乘以b,在第 i i i个基方向上的投影就等于q_i^Tb。}$

##2. Gram-Schmidt正交化法

这是一种将矩阵转化为标准正交向量orthogonormal matrix的方法。按老师的说法Schmidt教我们如何将一个向量标准化normalized,而Graham教我们如何使得各个向量正交orthogonal。

总思路:
已知相互无关的向量 a a a, b b b,目标要将 a a a, b b b 变成相互正交且长度为$1 的 的 q_1 , , ,q_2 , 可 将 向 量 ,可将向量 a$ 固定,然后 b b b投影到$a 上 , 误 差 上,误差 e=B$.

我们有两个线性无关的向量 a , b a, b a,b,先把它们化为单位正交向量 A , B A, B A,B

  • 我们取定 a a a向量的方向, a = A a=A a=A
  • 接下来将 b b b投影在 A A A的法方向上得到 B B B,也就是求子空间投影一讲中,我们提到的误差向量 e = b − p e=b-p e=bp,即 B = b − A T b A T A A B=b-\frac{A^Tb}{A^TA}A B=bATAATbA。检验一下 A ⊥ B A\bot B AB A T B = A T b − A T A T b A T A A = A T b − A T A A T A A T b = 0 A^TB=A^Tb-A^T\frac{A^Tb}{A^TA}A=A^Tb-\frac{A^TA}{A^TA}A^Tb=0 ATB=ATbATATAATbA=ATbATAATAATb=0。( A T b A T A A \frac{A^Tb}{A^TA}A ATAATbA就是 A x ^ = p A\hat x=p Ax^=p);
  • 再将它们单位化,变为单位正交向量 q 1 = A ∥ A ∥ , q 2 = B ∥ B ∥ q_1=\frac{A}{\left\|A\right\|}, q_2=\frac{B}{\left\|B\right\|} q1=AA,q2=BB

如果我们有三个线性无关的向量 a , b , c a, b, c a,b,c,则我们现需要求它们变换成单位正交向量 A , B , C A, B, C A,B,C

  • 前两个向量我们已经得到了,我们现在需要求第三个向量同时正交于 A , B A, B A,B
  • 我们依然沿用上面的方法,从 c c c中减去其在 A , B A, B A,B上的分量,得到正交与 A , B A, B A,B C C C C = c − A T c A T A A − B T c B T B B C=c-\frac{A^Tc}{A^TA}A-\frac{B^Tc}{B^TB}B C=cATAATcABTBBTcB
  • 再将它们单位化,变为单位正交向量 q 1 = A ∥ A ∥ , q 2 = B ∥ B ∥ , q 3 = C ∥ C ∥ q_1=\frac{A}{\left\|A\right\|}, q_2=\frac{B}{\left\|B\right\|}, q_3=\frac{C}{\left\|C\right\|} q1=AA,q2=BB,q3=CC

这里写图片描述

例子
现在我们试验一下推导出来的公式, a = [ 1 1 1 ] , b = [ 1 0 2 ] a=\begin{bmatrix}1\\1\\1\end{bmatrix}, b=\begin{bmatrix}1\\0\\2\end{bmatrix} a=111,b=102
A = a = [ 1 1 1 ] A=a=\begin{bmatrix}1\\1\\1\end{bmatrix} A=a=111
根据公式有 B = a − h A B=a-hA B=ahA h h h是比值 A T b A T A = 3 3 \frac{A^Tb}{A^TA}=\frac{3}{3} ATAATb=33,则 B = [ 1 1 1 ] − 3 3 [ 1 0 2 ] = [ 0 − 1 1 ] B=\begin{bmatrix}1\\1\\1\end{bmatrix}-\frac{3}{3}\begin{bmatrix}1\\0\\2\end{bmatrix}=\begin{bmatrix}0\\-1\\1\end{bmatrix} B=11133102=011。验证一下正交性有 A ⋅ B = 0 A\cdot B=0 AB=0
单位化, q 1 = 1 3 [ 1 1 1 ] , q 2 = 1 2 [ 1 0 2 ] q_1=\frac{1}{\sqrt 3}\begin{bmatrix}1\\1\\1\end{bmatrix},\quad q_2=\frac{1}{\sqrt 2}\begin{bmatrix}1\\0\\2\end{bmatrix} q1=3 1111,q2=2 1102,则标准正交矩阵为 Q = [ 1 3 0 1 3 − 1 2 1 3 1 2 ] Q=\begin{bmatrix}\frac{1}{\sqrt 3}& 0\\\frac{1}{\sqrt 3}& -\frac{1}{\sqrt 2}\\\frac{1}{\sqrt 3}& \frac{1}{\sqrt 2}\end{bmatrix} Q=3 13 13 102 12 1,对比原来的矩阵 D = [ 1 1 1 0 1 2 ] D=\begin{bmatrix}1& 1\\1& 0\\1& 2\end{bmatrix} D=111102,有 D , Q D, Q D,Q的列空间是相同的,我们只是将原来的基标准正交化了。

##3.QR分解


我们曾经用矩阵的眼光审视消元法,有 A = L U A=LU A=LU。同样的,我们也用矩阵表达标准正交化, A = Q R A=QR A=QR,这里的 R R R是一个上三角矩阵upper triangular matrix 。

设矩阵 A A A有两个列向量 [ a 1 a 2 ] \Bigg[a_1 a_2\Bigg] [a1a2],则标准正交化后有 [ a 1 a 2 ] = [ q 1 q 2 ] [ a 1 T q 1 a 2 T q 1 a 1 T q 2 a 2 T q 2 ] \Bigg[a_1 a_2\Bigg]=\Bigg[q_1 q_2\Bigg]\begin{bmatrix}a_1^Tq_1& a_2^Tq_1\\a_1^Tq_2& a_2^Tq_2\end{bmatrix} [a1a2]=[q1q2][a1Tq1a1Tq2a2Tq1a2Tq2],而左下角的 a 1 T q 2 a_1^Tq_2 a1Tq2始终为 0 0 0,因为Gram-Schmidt正交化总是使得 a 1 ⊥ q 2 a_1\bot q_2 a1q2,后来构造的向量总是正交于先前的向量。所以这个 R R R矩阵是一个上三角矩阵。

##4.总结


1.标准正交基与正交矩阵;
2.Gram-Schmidt正交标准化;
3.QR分解(与LU分解的区别)。


#第十八讲:行列式及其性质


  • 行列式最早是应用在用来判断方程组是否有解,在矩阵被发明后,行列式就拥有了更多的性质和应用。其强大之处在于将整个矩阵的信息压缩到了一个值当中。
  • 行列式的英文名为determinant:决定因素,因为他可以决定方程组是否有解即矩阵是否可逆,从另外一个角度来理解,行列式代表了这个矩阵的特征,这是学习特征分解的前置概念。
    ##1.基础性质

本讲我们讨论出行列式(determinant)的性质:

行列式的基本性质:
性质1 det ⁡ I = 1 , 单 位 矩 阵 行 列 式 值 为 一 。 \color{red}{\det{I}=1,单位矩阵行列式值为一。} detI=1
性质2 交 换 行 , 行 列 式 变 号 。 \color{red}{交换行,行列式变号。}
性质3: a. ∣ t a t b t c t d ∣ = t ∣ a b c d ∣ 。 \color{red}{\begin{vmatrix}ta& tb\\tc& td\end{vmatrix}=t\begin{vmatrix}a& b\\c& d\end{vmatrix}。 } tatctbtd=tacbd
b. ∣ a + a ′ b + b ′ c d ∣ = ∣ a b c d ∣ + ∣ a ′ b ′ c d ∣ 。 \color{red}{\begin{vmatrix}a+a'& b+b'\\c& d\end{vmatrix}=\begin{vmatrix}a& b\\c& d\end{vmatrix}+\begin{vmatrix}a'& b'\\c& d\end{vmatrix}。} a+acb+bd=acbd+acbd

由性质1和2可知,对置换矩阵有 det ⁡ P = { 1 e v e n − 1 o d d \det P=\begin{cases}1\quad & even\\-1\quad & odd\end{cases} detP={11evenodd
举例: ∣ 1 0 0 1 ∣ = 1 , ∣ 0 1 1 0 ∣ = − 1 \begin{vmatrix}1& 0\\0& 1\end{vmatrix}=1,\quad\begin{vmatrix}0& 1\\1& 0\end{vmatrix}=-1 1001=1,0110=1,于是我们猜想,对于二阶方阵,行列式的计算公式为 ∣ a b c d ∣ = a d − b c \begin{vmatrix}a& b\\c& d\end{vmatrix}=ad-bc acbd=adbc

性质3(b)对于每行都单独成立,其他行则不变,即不能同时组合第一行和第二行。$det(A+B)≠det(A)+det(B) $。

2. 推导出的性质


更多的性质可以从以上的三条性质中推导出来。

性质4 如 果 两 行 相 等 , 则 行 列 式 为 零 。 使 用 性 质 2 交 换 两 行 易 证 。 \color{red}{如果两行相等,则行列式为零。使用性质2交换两行易证。} 使2

**性质5 **: 从 第 k 行 中 减 去 第 i 行 的 l 倍 , 行 列 式 不 变 。 \color{red}{从第k行中减去第i行的l倍,行列式不变。} kil
解析:这条性质是针对消元的,我们可以先消元,将方阵变为上三角形式后再计算行列式。
举例: ∣ a b c − l a d − l b ∣ = 3. b ∣ a b c d ∣ + ∣ a b − l a − l b ∣ = 3. a ∣ a b c d ∣ − l ∣ a b a b ∣ = 4 ∣ a b c d ∣ \begin{vmatrix}a& b\\c-la& d-lb\end{vmatrix}\stackrel{3.b}{=}\begin{vmatrix}a& b\\c& d\end{vmatrix}+\begin{vmatrix}a& b\\-la& -lb\end{vmatrix}\stackrel{3.a}{=}\begin{vmatrix}a& b\\c& d\end{vmatrix}-l\begin{vmatrix}a& b\\a& b\end{vmatrix}\stackrel{4}{=}\begin{vmatrix}a& b\\c& d\end{vmatrix} aclabdlb=3.bacbd+alablb=3.aacbdlaabb=4acbd

性质6 如 果 方 阵 的 某 一 行 为 零 , 则 其 行 列 式 值 为 零 。 \color{red}{如果方阵的某一行为零,则其行列式值为零。}
证明:使用性质3(a)对为零行乘以不为零系数 l l l,使 l det ⁡ A = det ⁡ A l\det A=\det A ldetA=detA即可证明;或使用性质5将某行加到为零行,使存在两行相等后使用性质4即可证明。
性质7 有 上 三 角 行 列 式 U = ∣ d 1 ∗ ⋯ ∗ 0 d 2 ⋯ ∗ ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ d n ∣ , 则 det ⁡ U = d 1 d 2 ⋯ d n 。 \color{red}{有上三角行列式U=\begin{vmatrix}d_{1}& *& \cdots& *\\0& d_{2}& \cdots& *\\\vdots& \vdots& \ddots& \vdots\\0& 0& \cdots& d_{n}\end{vmatrix},则\det U=d_1d_2\cdots d_n。} U=d100d20dndetU=d1d2dn
证明:使用性质5,从最后一行开始,将对角元素上方的 ∗ * 元素依次变为零,可以得到型为 D = ∣ d 1 0 ⋯ 0 0 d 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ d n ∣ D=\begin{vmatrix}d_{1}& 0& \cdots& 0\\0& d_{2}& \cdots& 0\\\vdots& \vdots& \ddots& \vdots\\0& 0&\cdots&d_{n}\end{vmatrix} D=d1000d2000dn的对角行列式,再使用性质3将对角元素提出得到 d n d n − 1 ⋯ d 1 ∣ 1 0 ⋯ 0 0 1 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 ∣ d_nd_{n-1}\cdots d_1\begin{vmatrix}1& 0& \cdots& 0\\0& 1& \cdots& 0\\\vdots& \vdots& \ddots& \vdots\\0& 0& \cdots& 1\end{vmatrix} dndn1d1100010001,得证。
性质8 当 矩 阵 A 为 奇 异 矩 阵 时 , det ⁡ A = 0 ; 当 且 仅 当 A 可 逆 时 , 有 det ⁡ A ≠ 0 \color{red}{当矩阵A为奇异矩阵时,\det A=0;当且仅当A可逆时,有\det A\neq0} AdetA=0AdetA=0
证明:如果矩阵可逆,则化简为上三角形式后各行都含有主元,行列式即为主元乘积;如果矩阵奇异,则化简为上三角形式时会出现全零行,行列式为零。
再回顾二阶情况: ∣ a b c d ∣ → 消 元 ∣ a b 0 d − c a b ∣ = a d − b c \begin{vmatrix}a& b\\c& d\end{vmatrix}\xrightarrow{消元}\begin{vmatrix}a& b\\0& d-\frac{c}{a}b\end{vmatrix}=ad-bc acbd a0bdacb=adbc,前面的猜想得到证实。

性质9 det ⁡ A B = ( det ⁡ A ) ( det ⁡ B ) \color{red}{\det AB=(\det A)(\det B)} detAB=(detA)(detB)
解析:使用这一性质, det ⁡ I = det ⁡ A − 1 A = det ⁡ A − 1 det ⁡ A \det I=\det{A^{-1}A}=\det A^{-1}\det A detI=detA1A=detA1detA,所以 det ⁡ A − 1 = 1 det ⁡ A \det A^{-1}=\frac{1}{\det A} detA1=detA1
同时还可以得到: det ⁡ A 2 = ( det ⁡ A ) 2 \det A^2=(\det A)^2 detA2=(detA)2,以及 det ⁡ 2 A = 2 n det ⁡ A \det 2A=2^n\det A det2A=2ndetA,这个式子就像是求体积,对三维物体有每边翻倍则体积变为原来的八倍。

性质10 det ⁡ A T = det ⁡ A 。 \color{red}{\det A^T=\det A。} detAT=detA
前 面 一 直 在 关 注 行 的 属 性 给 行 列 式 带 来 的 变 化 , 有 了 这 条 性 质 , 行 的 属 性 同 样 适 用 于 列 , 比 如 对 性 质 2 就 有 “ 交 换 列 行 列 式 变 号 ” 。 \color{red}{前面一直在关注行的属性给行列式带来的变化,有了这条性质,行的属性同样适用于列,比如对性质2就有“交换列行列式变号”。} 2
证明: ∣ A T ∣ = ∣ A ∣ → ∣ U T L T ∣ = ∣ L U ∣ → ∣ U T ∣ ∣ L T ∣ = ∣ L ∣ ∣ U ∣ \left|A^T\right|=\left|A\right|\rightarrow\left|U^TL^T\right|=\left|LU\right|\rightarrow\left|U^T\right|\left|L^T\right|=\left|L\right|\left|U\right| AT=AUTLT=LUUTLT=LU,值得注意的是, L , U L, U L,U的行列式并不因为转置而改变,得证。


http://www.niftyadmin.cn/n/1775492.html

相关文章

RxJS -- Subscription

Subscription是什么? 当subscribe一个observable的时候, 返回的就是一个subscription. 它是一个一次性对象(disposable), 它有一个非常重要的方法 ubsubscribe(), 它没有参数, 它会dispose掉subscription所持有的资源, 或者叫取消observable的执行. 第一个例子: import { Obse…

SpringBoot 整合(五)Swagger2

日常我们开发完后端接口,如果是返回restful,写API文档是免不了的,Swagger可以帮我们解决大多数问题(自动生成API文档)。 他会帮我们生成一个html页面,大概就是这个样子。 好了,开始正文&#xf…

MIT 线性代数(19—21)读书笔记

第十九讲 行列式公式和代数余子式 1.行列式公式 上一讲中,我们从三个简单的性质扩展出了一些很好的推论,本讲将继续使用这三条基本性质: detI1;交换行行列式变号;对行列式的每一行都可以单独使用线性运算,…

第1章 综合练习

第1章 综合练习 1.1 综合练习一A:键盘录入3个学生信息(学号,姓名,年龄,居住地)存入集合,要求学生信息的学号不能重复B:遍历集合把每一个学生信息存入文本文件C:每一个学生信息为一行数据,每行学生的学号,姓名,年龄和居住地在文件中均以逗号分隔1.1.1 案例代码一:[AppleScript] …

Linux Kernel 4.13分支首个维护版本更新发布

2019独角兽企业重金招聘Python工程师标准>>> 在Linux Kernel 4.13正式版上线一周后,内核维护人员 Greg Kroah-Hartman于今天发布了该分支的首个维护版本更新,并推荐该分支所有用户尽快完成升级,在Kernel.org网站上显示该分支已经标…

上云就上阿里云背后:云计算已成为新旧动能转换关键

近日,阿里云一则“上云就上阿里云”的广告引起了云计算行业的热议。业内人士称,这意味着“上云”已经成为行业共识。而随着云计算理念快速普及,具有行业、生态优势的云计算企业将更具有优势。 据统计,全球云计算市场规模在2015年就…

Kerberos简介

Kerberos协议: Kerberos协议主要用于计算机网络的身份鉴别(Authentication), 其特点是用户只需输入一次身份验证信息就可以凭借此验证获得的票据(ticket-granting ticket)访问多个服务,即SSO(Single Sign On)。由于在每个Client和Service之间建立了共享密…

后端工程师必备知识:数据库索引讲座

后端工程师必备知识:数据库索引 我们经常在后端工程师的招聘信息上看到诸如「熟悉 SQL 语句优化」、「了解数据库和索引原理」这样的要求,这是因为后端工程师最主要的工作就是和数据打交道,当数据达到一定规模之后就会对性能有一定要求&#…