DM in practice

阿道克 2013-02-26 21:12:32
左侧是PCA,右侧是kernel PCA
1 Machine Learning:A Probabilistic Perspective的一个例子,14.4节 一个“玩具”例子 对围绕三个聚类中心随机生成的数据进行主成分和核主成分分析,比较结果 set.seed(0) patterns<-matrix(nrow=90,ncol=2) cluster.pos<-matrix(c(-0.5,-0.2,0,0.6,0.5,0),ncol=2, byrow=T) for (i in 1:3) { patterns[(i-1)*30+1...... (1回应)

阿道克 2013-02-25 23:51:57
这一篇讨论非线性PCA的另一种方法:kernel PCA(核主成分)。这是主成分分析引入核方法的结果((Scholkopf, Smola, and Muller, 1996)[1]。 1. 核技巧 核方法是机器学习最常用的方法之一。关于核方法,会在(或许很久很久…)之后的某篇专门讨论。 所谓核技巧(kernel trick)是通过一个非线性变换把(观测点所在的)输入......

阿道克 2013-02-22 20:26:39
使用R的统计学习(二): PCA(2)主曲线 这一篇讨论非线性主成分。 1.线性主成分的一些缺陷 作为一种线性的维数缩减技术,线性主成分对类似多元正态分布的椭圆分布数据效果明显,但对一般的非线性数据结构的效果比较差,比如二次,三次或高次多项式的数据;同时,线性主成分受随机扰动的影响也比较大。 例,考虑一个满足二......

阿道克 2013-02-13 22:24:31
使用R的统计学习(二): PCA(1) 降维的两种方式: (1)特征选择(feature selection),通过变量选择来缩减维数。(2)特征提取(feature extraction),通过线性或非线性变换(投影)来生成缩减集(复合变量)。 1.主成分分析(PCA)是一种较早发展起来的线性维数缩减方法(Hotelling,1933),对一组相关变量X[1],…,X[r]采用按......

阿道克 2013-02-08 22:42:54
两个多维标度法的例子。 例1:Morse code data 摩尔斯电码的基本成分是36个有点和划构成(依次对应26个字母和0-9这10个数字)。 为了检验这些电码的易混淆程度,Rothkopf在1957年做了一个实验,对598名应试者采用成对的方式播放这36个基本电码,让受试者判断代码相同或者不同,按照判断相同的比例,得到了一个邻近矩阵。 ...... (2回应)

阿道克 2013-02-07 21:20:23
4.MDS相关R函数和R包 (1)基于梯度算法的R函数 作为一种应用领域相当广泛的方法,MDS在不同的R包中,以不同的函数来解决。这些函数大多采用基于梯度的优化算法。有些在前面的例子中已经尝试过,不再一一举例。 经典标度: cmdscale( ) stats包 wcmdscale( ) vegan包:加权的经典标度 pco( ),ecodist包 pco( ),labdsv包 pco......

阿道克 2013-02-04 23:05:46
###因为表示数学符号不方便,正文中一般用[ ]表示元素下标,用( )表示矩阵或函数,请大家 ####按文意甄别 (2)非度量距离标度 Shepard diagram 当相异度是定性的次序量,采用非度量标度。此时,就是寻找一个t维空间上的结构 Y={Y[1],…,Y[n]},用它们的内点距离的大小次序来拟合原始相异度的大小次序。 设对称的相异度矩...... (1回应)

阿道克 2013-02-03 20:16:17
###因为表示数学符号不方便,正文中一般用[ ]表示元素下标,用( )表示矩阵或函数,请大家 ####按文意甄别 3.距离标度(Distance Scaling) 距离标度中,降维之后的距离d[i,j]≈f(δ[i,j]),其中f是一个单调增函数。 距离标度可分为度量距离标度(metric distance scaling):相异度是定量的(比例或区间)和非度量距离标度......

阿道克 2013-02-02 21:08:06
###因为表示数学符号不方便,正文中一般用[ ]表示元素下标,用( )表示矩阵或函数,请大家 ####按文意甄别 一个简单的例子和一些术语 一个经典的例子。关于MDS的易于理解的经典案例往往来自地理方面(本例最早来自文献[4]): 关于美国十个城市间飞行里程的数据。这十个城市是:亚特兰大(Atlanta)、芝加哥(Chicago)、丹......

阿道克 2013-02-01 23:11:35
最近在读这本书:Modern Multivariate Statistical Techniques:Regression, Classification, and Manifold Learning,http://book.douban.com/subject/3649744/。 多元统计是统计学的一个重要分支,研究同时发生的多重随机变量的统计性质及各变量间的相互关系。多元统计的应用称多元分析,传统的多元分析可以看作......