【高中生讲机器学习】17. 讲人话的主成分分析，它来了！（上篇）

创建时间：2024-08-13
首发时间：2024-09-05
最后编辑时间：2024-09-05
作者：Geeker_LStar

你好呀~这里是 Geeker_LStar 的人工智能学习专栏，很高兴遇见你~
我是 Geeker_LStar，一名准高一学生，热爱计算机和数学，我们一起加油~！
⭐(●’◡’●) ⭐
那就让我们开始吧！

诶嘿！这一篇想写很久啦，现在终于来了！（什么玩意都拖到开学了还没写完
如果想比较好的理解这两篇（这篇 & 下篇）的数学细节，需要你具有【矩阵特征值分解】和【矩阵奇异值分解】的前置知识，你可以在这一篇：【高中生讲机器学习】16. 线代小白也能看懂的矩阵奇异值分解！中找到对应的内容~！

话不多说，我们开始这一篇吧！！

文章目录

前置知识
- 方差和标准差
- 协方差
- 相关系数
- 协方差矩阵
主成分分析概述
主成分分析的几何解释
下篇

前置知识

okay，在正式开始讲主成分分析之前，按照惯例，我们还是需要补充一点数学知识…
不过别担心（）不会像上一篇那样一补充就 “补充” 五千字线性代数基础（论《补充》（bushi）
今天要补充的东西还是相对好理解的，有一点点线性代数基础就够~

方差和标准差

啊这个其实应该不用补充吧（）不过为了连贯一点，还是简单提一下吧~（看我如何 100 字内解决

协方差

嗯，上面讲的方差是衡量一维变量自身的波动程度的，但是如果我的变量是二维的呢？我怎么衡量这一堆二维变量之间的 “方差”？
well，现在就要协方差上场了！
还是老规矩，先放公式再解释。
假设我们现在有 $n$ 个二维变量 $x_1,y_1), (x_2, y_2), ..., (x_n, y_n)$ ，则它们的协方差为：
$\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})$

其中， $\bar{x}, \bar{y}$ 为 $x, y$ 的均值。
okaya（ok 呀（《自创词》）），我们来看看这个公式的意思。
首先 $x, y$ 分别减去均值，这一步和计算方差时减去均值的目的是一样的，都是为了将数据中心化，以消除数据绝对大小的影响。
然后，我们分别计算每一对 $x_i$ 和 $y_i$ （中心化后）的乘积，并把所有对的结果加起来，再取均值，就得到了 $X$ 和 $Y$ 的协方差。

协方差衡量的是什么？yes，它衡量的是两个变量之间的相关性。
具体来说，如果协方差为正，反映出 $X, Y$ 之间有较强的正相关关系（即 $X$ 变大时 $Y$ 也变大）；如果协方差为负，反映出 $X, Y$ 之间有较强的负相关关系；而如果协方差接近于 0，则说明 $X, Y$ 之间不太存在相关关系。

emm 再详细解释一下，就是，如果 $X, Y$ 之间有较强的正相关关系，那么（在中心化后）， $x > 0$ 时 $y$ 也应该（或者大部分情况下） $> 0$ ， $x < 0$ 同理。这样的话，每一项 $(x_i - \bar{x})(y_i - \bar{y})$ 都应该 $> 0$ ，最终加起来协方差也大于 0。
负相关关系同理。
（不是，我着了什么魔，我刚才潜意识打出来的是 “特征值也大于 0”。。。）

okay，现在协方差应该很好理解了！我们来看一个和它高度相关的东西（和它的协方差为正的东西（））——相关系数。

协方差矩阵

weeeell，前面讲过了方差和协方差。方差衡量的是一个变量自身的波动程度，协方差则是衡量两个维度（变量）的相关程度。

嗯，到目前为止一切都好说，可是，如果我现在有三个或者更多维度，我也想计算它们的协方差，怎么办？
很显然，这个时候一个值就不够用了。那我们就要邀请矩阵出场了…

其实我感觉协方差矩阵这里会有点绕（）为了避免绕晕，我们先把符号规定好。
我们有 $n$ 个数据，每个数据有 $m$ 个维度，对于第 $i$ 个数据的第 $j$ 个维度，我们记作 $x_{i}^{(j)}$ ，即下标为第几个数据，上标为这个数据的第几维。

我们把所有数据的记录在一个大的矩阵 $X$ 里，即：
$\begin{bmatrix} x_1^{(1)} & x_1^{(2)} & ... & x_1^{(m)}\\ x_2^{(1)} & x_2^{(2)} & ... & x_2^{(m)} \\ ... & ... & ... & ... \\ x_n^{(1)} & x_n^{(2)} & ... & x_n^{(m)} \\ \end{bmatrix}$

这是一个 $n * m$ 的矩阵，其中每一行代表一个数据，每一列代表一个特定的维度（变量）。

现在我们要干什么？yes，我们要计算【每一个维度之间】【彼此】的协方差。
也就是说，我们想要计算维度 1（第一列）和维度 2 到 m 的所有维度的协方差，维度 2 和维度 1，维度 3 到 m 的所有维度的协方差…
显然，最终计算出的值需要被存储在一个矩阵中。

weeeell，还是一样的，我们先写出计算的式子，然后再分析这个式子。
$\text{Cov}(X,X)=E[X^TX]$

$X$ 是一个 $n * m$ 的矩阵， $X^TX$ 的结果则是一个 $m * m$ 的方阵。我们不妨把这个方阵记作 $C$ （cov 的简写）。
嗯，这很好。为什么好呢？因为 $m * m$ 方阵中每一个位置都是一个协方差，这些协方差共同构成了我们想要的协方差矩阵！
具体来说， $C{ij}$ 代表了数据的第 $i$ 个维度和第 $j$ 个维度的协方差。
在我们探讨 $C$ 的更多细节和特点之前，我们还是先来看看为什么 $C$ 就是我们想要的协方差矩阵吧。

我们不妨把整个算式写出来：
$\begin{bmatrix} x_1^{(1)} & x_2^{(1)} & ... & x_n^{(1)}\\ x_1^{(2)} & x_2^{(2)} & ... & x_n^{(2)} \\ ... & ... & ... & ... \\ x_1^{(m)} & x_2^{(m)} & ... & x_n^{(m)} \\ \end{bmatrix}_{m*n} * \begin{bmatrix} x_1^{(1)} & x_1^{(2)} & ... & x_1^{(m)}\\ x_2^{(1)} & x_2^{(2)} & ... & x_2^{(m)} \\ ... & ... & ... & ... \\ x_n^{(1)} & x_n^{(2)} & ... & x_n^{(m)} \\ \end{bmatrix}_{n*m}= \begin{bmatrix} C_{11} & C_{12} & ... & C_{1m} \\ C_{21} & C_{22} & ... & C_{2m} \\ ... & ... & ... & ... \\ C_{m1} & C_{m2} & ... & C_{mm} \\ \end{bmatrix}_{m*m}$

wow 你想不到这个算式对应的 latex 有多少（（（
我们随便选取第一个矩阵 $X^T$ 的一行和第二个矩阵 $X$ 的一列，来看一下这个计算过程。嗯那就第一个矩阵的第一行和第二个矩阵的第二列吧。
也就是：
$\begin{bmatrix} x_1^{(1)} & x_2^{(1)} & ... & x_n^{(1)} \end{bmatrix}_{1*n} * \begin{bmatrix} x_1^{(2)} \\ x_2^{(2)} \\ ... \\ x_n^{(2)}\\ \end{bmatrix}_{n*1}=C_{12}$

展开成算式：
$C_{12}=\sum_{i=1}^{n}x_i^{(1)}*x_i^{(2)}$

okay，我们发现，这不计算的就是第一个维度和第二个维度的协方差嘛！
好嘞，这样一来，为什么最终的矩阵是协方差矩阵就很好理解了。

接下来我们继续来看这个协方差矩阵的特征…
有一个特征很显然——它是对称的。
回到上面说的这句话——“具体来说， $C{ij}$ 代表了数据的第 $i$ 个维度和第 $j$ 个维度的协方差。”
同理， $C{ji}$ 代表了数据的第 $j$ 个维度和第 $i$ 个维度的协方差。而两个维度的协方差只有一个，所以 $C_{ij}=C_{ji}$ ，即这个矩阵是对称的。

嗯，这很好！
说到方阵，说到（实）对称，你想到了什么。
——这是特征值分解的天然条件啊！

嗯好的，不过我们还得再等亿会（或者说在下篇）才能谈到它，先让我们切入到主题…（我感觉我扯了三四千字《数学基础》（好吧没事比上一篇的五千多字线性代数基础好那么点（

主成分分析概述

主成分分析要干什么？我们首先需要解决这个问题。
其实上一篇文章中我有一个不错的例子，直接抄到这里来吧。

比如说你现在要买房子，你的预算和时间都有限，所以你需要快速地通过一个房子的信息去判断这个房子（的价格）是否值得你考虑。不过，决定一个房子价格的因素可太多了——面积、朝向、户型、年限、是不是二手的、旁边有没有好学校…在估计一个房子价格的时候，我们不可能把所有这些因素都考虑进去，那这时候怎么办呢——没错，先看最能决定房子价格的因素，然后再做下一步决定。而对于一个房子来说，直接决定价格范围的、最重要的因素一般而言是它的面积。这样我们就把一个需要考虑很多（大多数时候没有那么有用）的因素的问题转化成了只需要考虑几个比较重要的信息的问题。

嗯，主成分分析就是干这个的——它是一种无监督学习算法，通常用于数据降维。它通过提取数据中的主要模式/特征/信息来减少数据的维度（特征数量）。换言之，它尝试（在尽量减少数据损失的条件下）使用更少的维度的信息去近似原始高维数据所包含的全部信息。这有利于提取出数据中真正有用的信息（去掉一些噪声或贡献很小的部分），同时减少数据所占的空间以及对数据进行分析所需的时间。

再举一个例子，很多图像压缩算法就使用了主成分分析，在尽量保证图片清晰度的情况下减少图片的大小。

and，理解主成分分析还有一个不错的角度——原始的数据可能在一些维度上线性相关或近似线性相关（强相关性），但是对数据进行主成分分析后的数据在任意维度上都线性无关（强相关性意味着相关系数接近于 ± 1）。这代表着什么呢？
well，（强）线性相关意味着有大量的数据是不必要的，因为其中一些数据可以用另一些数据的线性组合来近似表示。所以在这种情况下，我们大可以用主成分分析去掉其中的一些数据，同时只损失很少的信息。

豪德，说了这么多，主成分分析到底是怎么做的呢？它怎么就提取出了数据中最重要的信息？

okay，简单来讲，主成分分析寻找原始数据中变化最大的几个方向 ~~（这是什么话）~~ ，或者说方差最大的方向，并以这些方向为新的坐标轴（相当于对坐标系进行变换）。至于最终要选取几个方向作为新的坐标轴方向，取决于你希望保留多少数据，具体的计算方法后面会讲到。
（补充一句，如果不对数据进行降维，即不减少坐标轴的数量，则主成分分析可以看作对原始坐标系的旋转变换。）
你可能好奇为什么主成分分析要找数据中变化最大（方差最大）的方向，这其实也很好解释：方差大意味着数据在这个方向上比较分散，数据之间的相似度比较低，那每个数据的 “辨识度” 自然就更高。也就是说我们就更能通过这个方向上的值去把数据区分开来。这对于很多机器学习任务来说是非常有用且关键的。

ok 我想你现在或许有点懵，so maybe 几何会是一种更直观的解释，let us have a loook!

主成分分析的几何解释

weeell，休息一下脑子，这一部分我们来看一些直观但其实非常重要的东西（可以说这里面包含主成分分析思想的核心），也可以看作对上一部分的详细解释。

首先我们来看一个坐标系：

先看左边那个图（a），这是原始的坐标系，数据由两个变量 $x_1, x_2$ 表示。可以看到这两个变量之间存在一种类似于线性关系的关系，即具有较强的相关性，目测一下相关系数估计 0.4-0.6？换言之，对于图（a），当我们知道 $x_1, x_2$ 中其一时，对另一个的预测不是完全随机的（因为我们知道大概的趋势，所以可以进行一个粗略的预测）。

okay，接下来我们走一遍主成分分析的流程。
首先选取数据方差最大的方向，这里的数据像一个椭圆，那么方差最大的方向就是椭圆的长轴，我们把这个方向记作 $y_1$ ，也就是第一主成分。
可以看到， $y_1$ 和之前的坐标轴相比，更有助于我们区分数据。
接下来我们选取和 $y_1$ 垂直且方差次之的方向，作为新坐标系的第二坐标轴，记作 $y_2$ ，也就是第二主成分。这里因为是一个二维坐标系所以只剩下一个可选择的方向了，如果是 $n$ 维坐标系的话就还会有 $n - 1$ 个可以选择的方向。