机器学习中的数学基础:(2)矩阵的奇异值分解(SVD)及其应用

news/2024/9/20 9:29:33

         在机器学习领域,有相当多的应用与奇异值都可以扯上关系,比如做feature reduction的PCA,做数据压缩(以图像压缩为代表)的算法,还有做搜索引擎语义层次检索的LSI(Latent Semantic Indexing)。

         奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样,给别人描述说这个人长得浓眉大眼,方脸,络腮胡,而且带个黑框的眼镜,这样寥寥的几个特征,就让别人脑海里面就有一个较为清楚的认识,实际上,人脸上的特征是有着无数种的,之所以能这么描述,是因为人天生就有着非常好的抽取重要特征的能力,让机器学会抽取重要的特征,SVD是一个重要的方法。

        说起奇异值分解,其一就要了解奇异值分解的计算方式、其二要掌握奇异值的特性。(奇异值分解的目的同特征值分解一样,就是提取出一个矩阵最重要的特征)

       --------------首先再回顾一下特征值:

   如果说一个向量v是方阵A的特征向量,将一定可以表示成r如下面的形式:A\vec{v}=\lambda\vec{v}

这时候λ就被称为特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成如下面的形式:A=Q\SigmaQ^{-1}

其中Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素就是一个特征值。我这里引用了一些参考文献中的内容来说明一下。首先,要明确的是,一个矩阵其实就是一个线性变换,因为一个矩阵乘以一个向量后得到的向量,其实就相当于将这个向量进行了线性变换。比如说下面的一个矩阵:

M=$ \begin{bmatrix} 3 & 0 \\ 0 & 1 \\ \end{bmatrix} $

它其实对应的线性变换是下面的形式:

因为这个矩阵M乘以一个向量(x,y)的结果是:

$ \begin{bmatrix} 3 & 0 \\ 0 & 1 \\ \end{bmatrix} $$ \begin{bmatrix} x\\ y \\ \end{bmatrix} $=$ \begin{bmatrix} 3x\\ y \\ \end{bmatrix} $

上面的矩阵是对称的,所以这个变换是一个对x,y轴的方向一个拉伸变换(每一个对角线上的元素将会对一个维度进行拉伸变换,当值>1时,是拉长,当值<1时时缩短),当矩阵不是对称的时候,假如说矩阵是下面的样子:

M=$ \begin{bmatrix} 1 & 1 \\ 0 & 1 \\ \end{bmatrix} $       它所描述的变换是下面的样子:

这其实是在平面上对一个轴进行的拉伸变换(如蓝色的箭头所示),在图中,蓝色的箭头是一个最主要的变化方向(变化方向可能有不止一个),如果我们想要描述好一个变换,那我们就描述好这个变换主要的变化方向就好了。反过头来看看之前特征值分解的式子,分解得到的Σ矩阵是一个对角阵,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)

    当矩阵是高维的情况下,那么这个矩阵就是高维空间下的一个线性变换,这个线性变化可能没法通过图片来表示,但是可以想象,这个变换也同样有很多的变换方向,我们通过特征值分解得到的前N个特征向量,那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向,就可以近似这个矩阵(变换)。也就是之前说的:提取这个矩阵最重要的特征。总结一下,特征值分解可以得到特征值与特征向量,特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么,可以将每一个特征向量理解为一个线性的子空间,我们可以利用这些线性的子空间干很多的事情。不过,特征值分解也有很多的局限,比如说变换的矩阵必须是方阵。

-------------------奇异值-----------------

下面谈谈奇异值分解。特征值分解是一个提取矩阵特征很不错的方法,但是它只是对方阵而言的,在现实的世界中,我们看到的大部分矩阵都不是方阵,比如说有N个学生,每个学生有M科成绩,这样形成的一个N * M的矩阵就不可能是方阵,我们怎样才能描述这样普通的矩阵呢的重要特征呢?奇异值分解可以用来干这个事情,奇异值分解是一个能适用于任意的矩阵的一种分解的方法A=U\Sigma V^{T}

假设A是一个M * N的矩阵,那么得到的U是一个M * M的方阵(里面的向量是正交的,U里面的向量称为左奇异向量),Σ是一个M * N的矩阵(除了对角线的元素都是0,对角线上的元素称为奇异值),V^{T}(V的转置)是一个N * N的矩阵,里面的向量也是正交的,V里面的向量称为右奇异向量),从图片来反映几个相乘的矩阵的大小可得下面的图片:

那么奇异值和特征值是怎么对应起来的呢?首先,我们将一个矩阵A的转置A^{T} * A,将会得到一个方阵,我们用这个方阵求特征值可以得到:(A^{T}A)v_{i}=\lambda _{i}v_{i}        这里得到的v_{i}v,就是我们上面的右奇异向量V^{T}。此外我们还可以得到:

\sigma _{i}=\sqrt{\lambda _{i}}

u_{i}=\frac{1}{\sigma _{i}}Av_{i}     这里的σ就是上面说的奇异值\Sigma,u就是上面说的左奇异向量u。奇异值σ跟特征值类似,在矩阵Σ中也是从大到小排列,而且σ的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前r大的奇异值来近似描述矩阵,这里定义一下部分奇异值分解

                                     A_{m*n}\approx U_{m*r}\Sigma _{r*r}V^{T}_{r*n}                     r是一个远小于m、n的数,这样矩阵的乘法看起来像是下面的样子:

右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,在这儿,r越接近于n,则相乘的结果越接近于A。而这三个矩阵的面积之和(在存储观点来说,矩阵面积越小,存储量就越小)要远远小于原始的矩阵A,我们如果想要压缩空间来表示原矩阵A,我们存下这里的三个矩阵:U、Σ、V就好了。--------------------其实整个过程就是在对非方阵的矩阵进行特征值分解)

---------------------------奇异值的计算-----------------------------

奇异值的计算是一个难题,是一个O(N^3)的算法。在单机的情况下当然是没问题的,matlab在一秒钟内就可以算出1000 * 1000的矩阵的所有奇异值,但是当矩阵的规模增长的时候,计算的复杂度呈3次方增长,就需要并行计算参与了。Google的吴军老师在数学之美系列谈到SVD的时候,说起Google实现了SVD的并行化算法,说这是对人类的一个贡献,但是也没有给出具体的计算规模,也没有给出太多有价值的信息。

    其实SVD还是可以用并行的方式去实现的,在解大规模的矩阵的时候,一般使用迭代的方法,当矩阵的规模很大(比如说上亿)的时候,迭代的次数也可能会上亿次,如果使用Map-Reduce框架去解,则每次Map-Reduce完成的时候,都会涉及到写文件、读文件的操作。个人猜测Google云计算体系中除了Map-Reduce以外应该还有类似于MPI的计算模型,也就是节点之间是保持通信,数据是常驻在内存中的,这种计算模型比Map-Reduce在解决迭代次数非常多的时候,要快了很多倍。

    Lanczos迭代就是一种解对称方阵部分特征值的方法(之前谈到了,解A’* A得到的对称方阵的特征值就是解A的右奇异向量),是将一个对称的方程化为一个三对角矩阵再进行求解。按网上的一些文献来看,Google应该是用这种方法去做的奇异值分解的。请见Wikipedia上面的一些引用的论文,如果理解了那些论文,也“几乎”可以做出一个SVD了。

    由于奇异值的计算是一个很枯燥,纯数学的过程,而且前人的研究成果(论文中)几乎已经把整个程序的流程图给出来了。更多的关于奇异值计算的部分,将在后面的参考文献中给出,这里不再深入,我还是focus在奇异值的应用中去。

参考连接:https://mp.weixin.qq.com/s/Dv51K8JETakIKe5dPBAPVg

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pgtn.cn/news/18622.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

基于传感器的人体生命体征监控技术

目录 1、简介 2、测量生命体征的技术 2.1、光学测量 2.2、生物电势测量 2.3、阻抗测量 2.4、MEMS传感器测量 1、简介 生命体征监测已经超出医疗实践的范围&#xff0c;进入我们日常生活的多个领域。最初&#xff0c;生命体征监测是在严格的医疗监督下&#xff0c;在医院和…

安装部署中的数据库打包和快捷方式启动浏览器

前一段时间&#xff0c;因为工作的需要&#xff0c;学习了一些.net的部署。在打包的过程中遇到了几个问题&#xff1a;<?XML:NAMESPACE PREFIX O />1、 数据库脚本打包&#xff0c;如何修改Web.config文件中的数据联接2、 数据库脚本中的方法和视图打包时要注意的问题…

机器学习中的数学基础(4.1):支持向量机Support Vector Machine(SVM)

SVM可以说是一个很经典的二分类问题&#xff0c;属于有监督学习算法的一种。看过那么多的博客知乎解释SVM我一定要自己总结一篇&#xff0c;加深一下自己的理解。 带着问题去读文章会发现&#xff0c;柳暗花明又一村&#xff0c;瞬间李敏浩出现在眼前的感觉 &#xff08;1&am…

液体测量技术:从水到血液

目录 1、医疗领域的液体测量 2、不同的阻抗测量原理 2.1、恒电势器 2.2、电流测量 2.3、循环伏安法 2.4、pH值测量 2.5、电化学阻抗分析 对于许多应用而言&#xff0c;确定液体的成分和质量至关重要。最主要的例子是水&#xff0c;水是世界上最珍贵的原生资源。净水和水…

和12岁小同志搞创客开发:如何选择合适的控制器?

目录 1、满足驱动要求 2、方便开发、维护 3、权衡性价比 4、外型工装美观 机缘巧合在网上认识一位12岁小同志&#xff0c;从零开始系统辅导其创客开发思维和技巧。 ​​项目专栏&#xff1a;https://blog.csdn.net/m0_38106923/category_11097422.html 如果说传感器是眼、…

PCL:点云数据基于法线的边界提取(从最初的法线估计理论推导到最终的边界提取)

该边界提取采用PCL库里边的方法&#xff0c;基于法线估计来实现的边界检测与提取&#xff1a; 首先从原始点云上计算出法线&#xff0c;再由法线结合数据估计出边界。&#xff08;这样解释还是特别抽像吧&#xff09; ------------法线求解&#xff1a;&#xff08;平面的法线…

和12岁小同志搞创客开发:拿到一款控制器,要怎么分析?

​​​​​​目录 1、分析外围电路 2、分析外设端口 机缘巧合在网上认识一位12岁小同志&#xff0c;从零开始系统辅导其创客开发思维和技巧。​​​​​​​ ​ ​​项目专栏&#xff1a;https://blog.csdn.net/m0_38106923/category_11097422.html 在我刚开始学习单片机控制…

跟踪workflow instance 状态

场景是这样的: 1.workflowruntime启动了持久化和监听服务 2.workfllowruntime创建多个实例,并启动,一些会长时间延时,一些会中途暂停,会不同的执行状态(业务状态) 3.另有一winform控制台,有个表格,刷新显示每个实例的信息,包括业务状态--比如创建,运行,挂起等 4.通过workflowru…