多语言展示
当前在线:1115今日阅读:6今日分享:31

如何理解主成分分析法?

主成分分析法,建成PCA,是非常常用的一种数据降维方法,今天我就带着大家一步步理解主成分分析法。
工具/原料
1

电脑

2

互联网

1.什么是降维?
1

首先第一个问题,什么是降维?提到降维,我们就不得不提各种综合评价方法。随便举个比例,比如说你现在在看我的经验时,你所在的城市。你所在的城市有很多指标,比如说,GDP、人口、人均收入、城市面积、绿化程度,等等。现在你可以想想,有很多和你一起看经验的小朋友,大家都在不同的城市。那么,我们如何比较城市之间的好坏呢?

2

看图我们可以发现,不同城市的排名。那么这个排名又是如何产生的呢?这就需要用到数据降维。

3

如果我们可以把不同的数据如:GDP、人口、人均收入、城市面积、绿化程度,等等。综合成一个数据不就可以达到比较的目的了吗?主成分分析就可以做到!END

2.什么是PCA?
1

PCA就是主成分分析法,首先不要把他想的太难,如果用数学推倒的话,可能需要涉及最小二乘法、SVD分解等等较难的知识,但是好在如果只是想要使用主成分分析的话,借助计算机一步步操作就可以了,是很方便快捷的。我就会更新如何利用软件完成主成成分分析的具体步骤的经验,本条经验还是注重理解。

2

观察下图,我们可以看到数据中有很多的点,这些点都是用两个坐标表示的,正如我前文所说的。我们很多时候需要用一个数字来直观地反应大小关系。

3

现在想想一下,如果我们把图片旋转一下,如下图所示,当我们旋转到某一个位置时,让每个点的横坐标的平方和最大(此处使用的方法是最小二乘法),这时的x的坐标值就是主元1的值,通常我们做比较的时候用的呢就是主元1。

4

很多朋友会觉得主成分分析法迷糊的原因,还有一个就是,为啥还有主元2、3、4、5之类的,这时咋回事呢?还是观察我刚才画的草图,其实让他们x的坐标最大,其实对应的就是让他们y的坐标最小化啊!他们的y坐标不就是主元2吗。再举个例子,比较房子好坏的时候,如果我们考虑距市中心远近、朝向,这时数据是2维的,就能算出不同房子的主元1和主元2,如果再加上一个小区绿化比率,就能算出主元3,但要注意的是,我们通常考虑主元1就可以了,主元2和主元3包含的有效信息已经比较少了,如果你发现主元2也很大,这时可能就要考虑主元2了,但实际上分离出的主元越少越好,这就是指标有效性评价范畴的知识了,会扩展很多,会在以后进行更新。

注意事项
1

创作经验的主要目的就是为了脱离数学来用直觉理解问题。有了直觉其实就可以使用了,当你把每个数学知识都用直觉掌握之后,其实推导你也就能看懂了,循序渐进。

2

看完了之后自己也要多思考,最好能给其他人也讲一讲,如果给其他人也能将明白,说明你也就真的懂了

推荐信息