使用R的统计学习:算法与实践(一):MDS(1)
最近在读这本书:Modern Multivariate Statistical Techniques:Regression, Classification, and Manifold Learning,http://book.douban.com/subject/3649744/。
多元统计是统计学的一个重要分支,研究同时发生的多重随机变量的统计性质及各变量间的相互关系。多元统计的应用称多元分析,传统的多元分析可以看作是各个应用学科对多变量问题的研究而发展起来的各种方法的总和。其中大部分来自社会科学领域,特别是教育学和心理学,比如因子分析,主成分分析,对应分析,典型相关分析和多维标度法。还有一些方法来自早期统计学的应用实践,比如线性判别分析来源于分类学,而多元方差分析来源于农作物生长的随机试验,可以追溯到R.A.Fisher在农业试验站的工作。回归分析则起源于遗传学和优生学的研究。这种多样化的来源与实践是多元统计在很长时间内保持发展活力的重要原因。
但是在今天,随着数据规模越来越巨大,数据分析问题的复杂程度越来越深以及对数据的储存分析所需的计算能力要求越来越高,传统的基于正态假设的,以研究数据协方差结构为主的多元统计遇到了越来越多的挑战。大部分传统的多元统计方法创造于较早的年代,能处理的数据规模有限,在计算能力上也有很大的制约。
在传统上应用多元统计的各个学科按照各自面对的问题,给出了很多的新的思想和方法,特别是在计算机和信息科学领域,系统化的发展起了数据挖掘和机器学习这两个新的分支学科。这两个学科发展了很多传统的多元统计方法,也增加了很多新方法。这些新的发展促使多元统计扩展自己的框架以适应新的挑战,这就是作者Izenman写作本书的出发点。
这本书是作者按照统计学习观点重新审视多元统计的结果。本书基本可分为四个部分:多元随机变量的统计性质;回归和有监督学习方法;聚类;非线性维数缩减。包括一些传统的如回归分析这样的主题,还有一些如流形学习这样比较新颖的主题。内容上,突出了各种方法的背景和算法,并给出了很多案例。虽称不上经典,可也是一本内容丰富很值得一读的著作。
我打算以这本书的框架写一些读书笔记。一方面用来串一下自己的统计和机器学习的知识,
另一方面可以由此系统一下R在多元统计和统计学习的应用。
——————————————— 书评的分割线——————————————————
第一篇是一个相对(回归聚类什么的)冷僻的方法:多维标度法(MDS)。(本书第十三章)
1.MDS简介
多维标度法(Multidimensional Scaling),是一种维数缩减方法,把高维的数据点映射到一个低维的流形上;同时也是一种可视化方法,实践中通常利用2D或3D的MDS 结果观察(投影后)点的分布和聚集来研究数据的性质。
简单来说,MDS要处理的问题是:由n个指标(变量)反应的实体(entity),仅知它们之间的某种距离(相异度)或相似度,如何在较低维的流形中推测实体间的原始距离,以反映这n个实体的真实结构关系。
MDS起源于心理测量,具有广泛的应用,比如:
心理学:研究不同类别的心理刺激(如人格特质,性别角色)或物理刺激(如面孔,声音,颜色,味道)的认知的潜在结构,并绘制这些刺激的“感知图”(perceptual map)
市场研究:研究消费者的产品选择和产品偏好,可以识别产品间的联系。
社交网络:识别大型网络的集群。
以及地理学,生态学,天文学,分子生物学,计算化学,图形学甚至流行音乐研究等等。
MDS不是一个单独的方法,而是有相似思想的不同算法的集合。常用的MDS为距离标度(distance scaling),可以分为度量标度(包括经典标度和最小二乘标度等)和非度量标度。MDS方法和自组织映射(SOM)有着相似的目标。
MDS的思想方法在随机森林中也起着重要的作用,同时启发了非线性流形学习。
多元统计是统计学的一个重要分支,研究同时发生的多重随机变量的统计性质及各变量间的相互关系。多元统计的应用称多元分析,传统的多元分析可以看作是各个应用学科对多变量问题的研究而发展起来的各种方法的总和。其中大部分来自社会科学领域,特别是教育学和心理学,比如因子分析,主成分分析,对应分析,典型相关分析和多维标度法。还有一些方法来自早期统计学的应用实践,比如线性判别分析来源于分类学,而多元方差分析来源于农作物生长的随机试验,可以追溯到R.A.Fisher在农业试验站的工作。回归分析则起源于遗传学和优生学的研究。这种多样化的来源与实践是多元统计在很长时间内保持发展活力的重要原因。
但是在今天,随着数据规模越来越巨大,数据分析问题的复杂程度越来越深以及对数据的储存分析所需的计算能力要求越来越高,传统的基于正态假设的,以研究数据协方差结构为主的多元统计遇到了越来越多的挑战。大部分传统的多元统计方法创造于较早的年代,能处理的数据规模有限,在计算能力上也有很大的制约。
在传统上应用多元统计的各个学科按照各自面对的问题,给出了很多的新的思想和方法,特别是在计算机和信息科学领域,系统化的发展起了数据挖掘和机器学习这两个新的分支学科。这两个学科发展了很多传统的多元统计方法,也增加了很多新方法。这些新的发展促使多元统计扩展自己的框架以适应新的挑战,这就是作者Izenman写作本书的出发点。
这本书是作者按照统计学习观点重新审视多元统计的结果。本书基本可分为四个部分:多元随机变量的统计性质;回归和有监督学习方法;聚类;非线性维数缩减。包括一些传统的如回归分析这样的主题,还有一些如流形学习这样比较新颖的主题。内容上,突出了各种方法的背景和算法,并给出了很多案例。虽称不上经典,可也是一本内容丰富很值得一读的著作。
我打算以这本书的框架写一些读书笔记。一方面用来串一下自己的统计和机器学习的知识,
另一方面可以由此系统一下R在多元统计和统计学习的应用。
——————————————— 书评的分割线——————————————————
第一篇是一个相对(回归聚类什么的)冷僻的方法:多维标度法(MDS)。(本书第十三章)
1.MDS简介
多维标度法(Multidimensional Scaling),是一种维数缩减方法,把高维的数据点映射到一个低维的流形上;同时也是一种可视化方法,实践中通常利用2D或3D的MDS 结果观察(投影后)点的分布和聚集来研究数据的性质。
简单来说,MDS要处理的问题是:由n个指标(变量)反应的实体(entity),仅知它们之间的某种距离(相异度)或相似度,如何在较低维的流形中推测实体间的原始距离,以反映这n个实体的真实结构关系。
MDS起源于心理测量,具有广泛的应用,比如:
心理学:研究不同类别的心理刺激(如人格特质,性别角色)或物理刺激(如面孔,声音,颜色,味道)的认知的潜在结构,并绘制这些刺激的“感知图”(perceptual map)
市场研究:研究消费者的产品选择和产品偏好,可以识别产品间的联系。
社交网络:识别大型网络的集群。
以及地理学,生态学,天文学,分子生物学,计算化学,图形学甚至流行音乐研究等等。
MDS不是一个单独的方法,而是有相似思想的不同算法的集合。常用的MDS为距离标度(distance scaling),可以分为度量标度(包括经典标度和最小二乘标度等)和非度量标度。MDS方法和自组织映射(SOM)有着相似的目标。
MDS的思想方法在随机森林中也起着重要的作用,同时启发了非线性流形学习。
> 我来回应