DM in practice
1 Machine Learning:A Probabilistic Perspective的一个例子,14.4节 一个“玩具”例子 对围绕三个聚类中心随机生成的数据进行主成分和核主成分分析,比较结果 set.seed(0) patterns<-matrix(nrow=90,ncol=2) cluster.pos<-matrix(c(-0.5,-0.2,0,0.6,0.5,0),ncol=2, byrow=T) for (i in 1:3) { patterns[(i-1)*30+1......
(1回应)
这一篇讨论非线性PCA的另一种方法:kernel PCA(核主成分)。这是主成分分析引入核方法的结果((Scholkopf, Smola, and Muller, 1996)[1]。 1. 核技巧 核方法是机器学习最常用的方法之一。关于核方法,会在(或许很久很久…)之后的某篇专门讨论。 所谓核技巧(kernel trick)是通过一个非线性变换把(观测点所在的)输入......
使用R的统计学习(二): PCA(2)主曲线 这一篇讨论非线性主成分。 1.线性主成分的一些缺陷 作为一种线性的维数缩减技术,线性主成分对类似多元正态分布的椭圆分布数据效果明显,但对一般的非线性数据结构的效果比较差,比如二次,三次或高次多项式的数据;同时,线性主成分受随机扰动的影响也比较大。 例,考虑一个满足二......
使用R的统计学习(二): PCA(1) 降维的两种方式: (1)特征选择(feature selection),通过变量选择来缩减维数。(2)特征提取(feature extraction),通过线性或非线性变换(投影)来生成缩减集(复合变量)。 1.主成分分析(PCA)是一种较早发展起来的线性维数缩减方法(Hotelling,1933),对一组相关变量X[1],…,X[r]采用按......
两个多维标度法的例子。 例1:Morse code data 摩尔斯电码的基本成分是36个有点和划构成(依次对应26个字母和0-9这10个数字)。 为了检验这些电码的易混淆程度,Rothkopf在1957年做了一个实验,对598名应试者采用成对的方式播放这36个基本电码,让受试者判断代码相同或者不同,按照判断相同的比例,得到了一个邻近矩阵。 ......
(2回应)
4.MDS相关R函数和R包 (1)基于梯度算法的R函数 作为一种应用领域相当广泛的方法,MDS在不同的R包中,以不同的函数来解决。这些函数大多采用基于梯度的优化算法。有些在前面的例子中已经尝试过,不再一一举例。 经典标度: cmdscale( ) stats包 wcmdscale( ) vegan包:加权的经典标度 pco( ),ecodist包 pco( ),labdsv包 pco......
###因为表示数学符号不方便,正文中一般用[ ]表示元素下标,用( )表示矩阵或函数,请大家 ####按文意甄别 (2)非度量距离标度 Shepard diagram 当相异度是定性的次序量,采用非度量标度。此时,就是寻找一个t维空间上的结构 Y={Y[1],…,Y[n]},用它们的内点距离的大小次序来拟合原始相异度的大小次序。 设对称的相异度矩......
(1回应)
###因为表示数学符号不方便,正文中一般用[ ]表示元素下标,用( )表示矩阵或函数,请大家 ####按文意甄别 3.距离标度(Distance Scaling) 距离标度中,降维之后的距离d[i,j]≈f(δ[i,j]),其中f是一个单调增函数。 距离标度可分为度量距离标度(metric distance scaling):相异度是定量的(比例或区间)和非度量距离标度......
###因为表示数学符号不方便,正文中一般用[ ]表示元素下标,用( )表示矩阵或函数,请大家 ####按文意甄别 一个简单的例子和一些术语 一个经典的例子。关于MDS的易于理解的经典案例往往来自地理方面(本例最早来自文献[4]): 关于美国十个城市间飞行里程的数据。这十个城市是:亚特兰大(Atlanta)、芝加哥(Chicago)、丹......
最近在读这本书:Modern Multivariate Statistical Techniques:Regression, Classification, and Manifold Learning,http://book.douban.com/subject/3649744/。 多元统计是统计学的一个重要分支,研究同时发生的多重随机变量的统计性质及各变量间的相互关系。多元统计的应用称多元分析,传统的多元分析可以看作......