【线性代数】矩阵及其性质

写在前面

这篇文章是作者用来复习本科期间学过的线性代数,试图以更容易接受的方式加强记忆。

只在不旋转的方向拉伸

特征值和特征向量

矩阵表示的线性变化可以分为以下两种:旋转和拉伸。
而特征向量的就是【经过变化后只发生了拉伸的方向】。特征值是拉伸的程度。所以第一个基础公式为Ax%20%3D%20%5Clambda%20x,根据这个公式可以得到特征值的求法,%28A-%5Clambda%20E%29x%20%3D%200, 要使其有非0解,必须满足%7C%20A-%5Clambda%20E%7C%3D0,后文称之为【特征方程】。

下面讨论特征值和特征向量的性质,并给出一个简单的字面证明。

  • n阶方阵在复数域内有n个特征值,重根按照重数计算:特征方程为n次方程,n次方程在负数域有n个根。
  • 特征值之和等于A的对角线元素之和,也就是A的迹;特征值之积等于A的行列式的值:特征方程展开后根与系数的关系。
  • 不相等的特征值对应的特征向量是线性无关的:可以用矛盾法证明。有一种通俗的解释是,矩阵所代表的变化是线性的,即在同一个方向上,特征值,即膨胀系数,一定是固定值,那么不同的特征值一定对应不同的方向。
  • 对应于相同特征值的特征向量可能是不相关的。

相似性和对角化

相似的来源是【基坐标的转化】,其中A和D代表的是同一种变化。故而相似矩阵有相同的特征向量和特征值。相似被定义为D%20%3D%20T%5E%7B-1%7DAT。此时D和A相似。

【线性代数】矩阵及其性质

对角化是从相似性演变而来的概念,因为[对角化]矩阵具有特别好的性质。我们可以直接把这个对角矩阵看成是在不旋转的情况下进行不同维度的拉伸。 ,尤其是在求幂时非常方便。那么,什么样的矩阵可以对角化呢?

答案是【有n个线性无关的特征向量】的n阶矩阵。

  • 必要性:有n个线性无关的特征向量的矩阵可以对角化比较好理解,因为AT%20%3D%CE%9BT, T是由线性无关的特征向量所组成的,Λ是由对应的特征值组成的对角矩阵。
  • 充分性:A可以被相似对角化,也就是存在T,使得T%5E%7B-1%7DAT%20%3D%CE%9B,其中Λ是对角矩阵。而T可逆,也就说明T中的向量不相关,我们可以拿这组不相关的向量作为A的特征值,Λ中的值作为特征值,其满足特征向量和特征值的定义。

根据n阶矩阵有n个特征值,如果把上面那句话换个说法,可以是【所有的特征向量都线性无关】,我们已经知道,不同特征值的特征向量一定线性无关,那么条件就变成【k重特征值有k个线性无关的特征向量】,所以我们这里引入了两个概念,来描述这两个数值。

  • 代数重数:k重特征值的代数重数为k。
  • 几何多重性:这个特征值对应的特征子空间的维数,即其特征方程对应的解空间的维数,以及解向量的个数,这些说法是等价的。

而它们的关系是:针对某个特定的特征值,【代数重数%5Cgeq几何重数】。显而易见,如果有超过代数重数的无关的特征向量,那n维矩阵对应超过n个特征向量,对于特征方程而言显然是不合理的。

因此,矩阵类似对角化的另一个充分必要条件是:[每个特征值的几何多重性等于其代数多重性]。

正交、对称矩阵

正交性的定义实际上来源于勾股定理。这里不赘述,直接使用a%20%C2%B7%20b%20%3D%200的简单定义。
根据以上相似性可知,一个变换可以从不同的角度来看,即不同的基向量。那么如果这个矩阵由一组[canonical],[mutually正交]基表示,任何向量的坐标都可以通过简单的投影来确定。让我们首先定义[正交矩阵]。

正交矩阵:由一组规范正交基%5Calpha_1%2C%20%5Calpha_2...%5Calpha_n组成的矩阵,满足%5Calpha_i%20%C2%B7%20%5Calpha_j%20%3D%200%5Calpha_i%20%C2%B7%20%5Calpha_i%20%3D%201

  • A%EF%BC%8CA%27%3DA%5E%7B-1%7D都是正交矩阵,并且满足AA%27%20%3D%20E
  • %7CA%7C%3D1%7CA%7C%3D-1

【施密特正交化】可以将任意一组线性无关的基转化为规范正交基,也就是总有一组n个相互正交的基,可以表示n维空间。参考资料1中给出了很详细的推导过程和动画,这里只放一个图。每次确定一个基向量,向当前所有基向量投影,和就是新形成的直角三角形中的一条边。此时矩阵被正交化。再除以各自的模,得到的就是规范化后的正交矩阵。
请添加图片描述
讨论一个问题,施密特正交化后得到的向量还是原矩阵的特征向量吗?
答案是:需要满足【不同的特征向量是正交的】或者【对应相同的特征值】。第一种情况不需要标准化。第二种情况是我们通常使用施密特正交化的时候。此时,由于施密特正交化得到的基和本原基在同一个子空间中,仍然满足特征向量的公式。但是,如果将不同特征值的特征向量混合在一起正交化,则对应的特征方程不同,无法进行线性加减,因此不能保证它们仍然是特征向量。

下面讨论一种特殊的矩阵,【实对称矩阵】,这部分的证明比较复杂,仅给出对实对称矩阵的一种理解,就是所有的旋转都是“相对”的,比如维度1向维度3倾斜了k,那维度3一定也向维度1倾斜了k。

  • 实对称矩阵的特征值都是实数,主元和特征值符号相同。
  • 不同特征值对应的实对称矩阵的特征向量必须是正交的。
  • 所有[特征根的几何多重性==代数多重性],即它们必须类似地对角化。
  • 不同特征值对应的特征向量必须正交,相同特征值对应的特征向量必须施密特正交化成另一组正交特征向量。更进一步,类似【变换矩阵是正交矩阵】。

有一点比较奇怪的是,实对称矩阵并不能保证全部满秩,为什么还能对角化?此时,不满秩的部分特征值可以是0,这样对角化后不改变秩,所以不一定满秩。换言之,【实对称矩阵的秩等于非0特征值的个数】。n阶实对称矩阵无法保证有n个不同特征值,但一定可以保证有n个无关特征信息。

特征值反映了矩阵的内在性质,具有广泛的应用:它对应于薛定谔方程中的能量,马尔可夫平衡计算的关键,微分方程中相图的边界,所以-在谱聚类中称为谱是特征值…

最大拉伸方向

上面提到,只有【有n个线性无关的特征向量】的n阶矩阵才能进行特征值分解,此处将该概念推广至一般矩阵。

下面介绍【奇异值分解】的概念。并非所有矩阵都可以对角化(对称矩阵总是可以),并且所有矩阵总是可以分解为奇异值。同时,特征向量只表示不变逆,除非正交,否则“不变特征向量的方向不能保证是拉伸效果最大的方向,也就是奇异向量的方向”。
【线性代数】矩阵及其性质

这个理论有很多应用。比如在一堆数据中,经过协方差矩阵的计算,奇异值最大的方向代表方差最大,也就是实际应用中变化最大的。这背后的数学将在下面讨论。对称矩阵先乘以自身的转置得到,再分解特征值得到两边不同的矩阵。
【线性代数】矩阵及其性质
明白正交矩阵的本质是只旋转不拉伸,对角矩阵的本质是拉伸不旋转。下图可以很好的说明如何将一个复杂的变换分为“旋转-拉伸-旋转”三个步骤。
请添加图片描述
【线性代数】矩阵及其性质
单独将奇异值分解区别于特征值分解,是因为该部分内容常常不在线性代数的基础内容中,而是作为特征值分解的一种扩展和应用。无论是特征值分解,还是奇异值分解,只要我们【保证了特征向量正交】,此时就保证了最开始的基是互相正交的,也就可以【保证特征值最大的方向就是拉伸最大的方向】。图中v1,v2只是代表了被施加变换两个任意的向量,而非基。

二次理论

从曲线

在几何学中,椭圆双曲线等图形有着类似但不同的结构,于是对二次曲线和二次曲面的分类问题的讨论引起了二次型这个概念。它们有着类似的性质,也有着不同。【二次型】的规范定义是n个变量上的【二次】【齐次】多项式,因为一次项并不影响形状,只影响位置,所以不参与讨论。

此时,f%28x1_1%2C%20x_2%2C%20...x_n%29%20%3D%20%5Csum%5En%20_%7Bi%3D1%7D%20%5Csum%5En_%7Bj%3D1%7D%20a_%7Bij%7Dx_ix_j可以用矩阵形式表示。请注意,我们将故意在这里取a%7Bij%7D%20%3D%20a%7Bji%7D%20%3D%201/2x_ix_j%E5%89%8D%E7%9A%84%E7%B3%BB%E6%95%B0以确保矩阵的对称性以获得更好的属性。 [对称矩阵与二次型一一对应].

现在,我们知道二次齐次多项式表示曲线(曲面),但更喜欢统一形式的二次形式:

  • [标准型] 只有平方项的二次型。在这种情况下,矩阵是对角矩阵。随着基坐标的膨胀和收缩,前面的系数是可变的,即标准类型不是唯一的。
  • 【规范性】系数只有1,-1和0的标准型。规范性唯一。

契约矩阵

上面的相似度是用来描述同一个变换在不同基下的表示,而契约是类似定义的关系来描述【同一个二次图在不同基下的表示】,所以人们想通过基变换来使用统一二次形式。公式的推导过程如下所示。

  1. 选定两组基,矩阵 C 是两个基之间的过渡矩阵,设 x,y 是图形上同一个点在两个参考系中的坐标表示,则有x%3DCy,这里必须满足【C可逆】才能保证这两组基都是满秩,也就是【过渡矩阵一定是可逆】的线性变换。
  2. 所以有x%5ETAx%3D%28Cy%29%5ETB%28Cy%29%3Dy%5ETC%5ETBCy,所以A%3DC%5ETBC是描述这两个矩阵之间关系的方程,也就是契约。

会发现,A是对称矩阵,根据相似性知道存在正交矩阵C使得C%5E%7B-1%7DAC%20%3D%20C%5ETAC%20%3D%20%CE%9B。说明【任一实对称矩阵都与对角矩阵合同】。换句话说,合同矩阵的出现,就是帮助我们来更方便的化简矩阵为标准型或规范型。

下面讨论合同矩阵的充要条件:【有相同正负惯性指数】,这里的惯性指数就是二次型的系数为正/负的个数。现在所有的实对称矩阵已经可以与一个对角阵合同了,那我们对这个对角阵施加以下变换:
【线性代数】矩阵及其性质
用这个方式构造矩阵,所有的对角阵都会合同于一个由 ±1 以及 0 组成的对角阵,而正负取决于对角阵中特征值的正负。所以合同矩阵可以无限传递下去,反之拥有相同正负惯性指数的矩阵也可以无限变换成相同的规范型。这个定理的几何意义就是【标准型系数的正负取决了当前二次曲线(面)的形状】,而形状不会随着坐标系的变换而变换,椭圆仍是椭圆,双曲线仍是双曲线,改变的是描述这个形状的基向量!

回顾一下【矩阵的三种关系】,约束是从强到弱的:当它们相似时,秩和特征值不变==契约,秩和惯性指数不变>当它们相等时,等级不变。其中,对于实对称矩阵,相似 > 契约 > 等效。

正定二次方

正定二次型这个概念非常好理解,给出其等价形式:n 阶实对称矩阵 A 正定 ⇔ A 的正惯性指数等于 n ⇔ A 与单位阵合同 ⇔ A 的特征值全部大于 0 ⇔ A 的顺序主子式大于 0。

实际上,二次型可以分为正定、负定、半正定等,解决了初始面分类问题。同时,这些矩阵在其他领域也有广泛的应用,如微分方程的极值判断、最小二乘法等。

参考

  • 如何理解施密特(Schmidt)正交化
  • 如何理解几何多重性和代数多重性
  • 刘梳子数学——MIT线性代数笔记
  • 3blue1brown【官方双语/合集】线性代数的本质 – 系列合集
  • 空间的线性代数与解析几何(第四版)
  • 施密特正交化后得到的向量还是原矩阵的特征向量吗?
  • 对称矩阵和正定性
  • 二次和矩阵合约

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2022年3月16日 下午2:04
下一篇 2022年3月16日 下午2:25

相关推荐