数据铺子的公告栏

机器学习和数据挖掘 ( 全部 )

2014-04-29 22:28:06
3.提升度和提升曲线 分类器分类为正例的比例称为深度(depth):(TP+FP)/T,T是全部待判样本数量。 提升度(lift)等于TPR/depth 以深度为横轴,以提升度为纵轴绘制曲线,得到提升曲线。 绘制提升曲线的思路和ROC类似。当阈值为0的时候,所有的样本都会判为正例,此时深度为1,提升为1;随阈值增大,深度减小,提升随之......
2014-04-28 23:58:44
分类器性能评价:图形方法(1) 1.几个基本概念 对于二元分类器,我们可以把分类样本的真实值记为1(positive,正例/阳性),-1(或0,negative,负例/阴性)分类结果记作1(success)和-1(或0,failure)。分类器分类正确,为真(true);分类器分类错误为假(false) 那么分类结果会有四种可能: TP,真正例/真阳性,预测为1且......
2014-04-15 21:04:37
recommenderlab:构建基于R的推荐系统(2) 3.评价推荐系统的表现 recommenderlab 包提供了函数 evaluationScheme()建立评价方案,能够使用简单划分、k折交叉验证、自助法进行模型的评价。下面采用简单划分的方法(split),即将数据集简单分为训练集和测试集,在训练集训练模型,然后在测试集上评价。 evaluationScheme()......
2014-04-13 21:19:20
recommenderlab:构建基于R的推荐系统(1) 1.推荐系统和recommenderlab包 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架。它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法 recommender包的数据类型采用S4类构造,使用抽象的raringMatrix为评分数据提供接口。raringMatrix...... (1回应)
2014-04-13 21:16:04
recommenderlab:构建基于R的推荐系统(1) 1.推荐系统和recommenderlab包 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架。它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法。recommender包的数据类型采用S4类构造,使用抽象的raringMatrix为评分数据提供接口。raringMatrix......
2014-03-14 20:16:05
鸡尾酒会
独立成分分析ICA(Independent components analysis),是一个线性变换。这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。独立成分分析可以看做盲信号分离(Blind source separation)的一种特例。ICA方法最早由Comon在1994年提出,并在之后的数年间得到很大的扩展。目前ICA被应用在语音信号分离、生物医学......
2013-07-18 23:02:36
4.glmnet包案例 这个数据集prostate在ESL的主页有下载 library(glmnet) ## Warning: package 'glmnet' was built under R version 3.0.1 ## Loading required package: Matrix ## Loading required package: lattice ## Loaded glmnet 1.9-3 prostate <- read.csv("E:/RB/prostate.csv") head(prostate) ## ...... (9回应)
2013-07-15 21:41:04
#本文的目的在于介绍回归建模时变量选择和正则化所用的R包,如glmnet,ridge,lars等。算法的细节尽量给文献,这个坑太大,hold不住啊。 1.变量选择问题:从普通线性回归到lasso 使用最小二乘法拟合的普通线性回归是数据建模的基本方法。其建模要点在于误差项一般要求独立同分布(常假定为正态)零均值。t检验用来检验拟合...... (5回应)
2013-04-13 16:27:38
#混合模型主题的系列笔记 #这一篇断续写了很长时间,细节还是很不让人满意 5.混合模型:基于模型的聚类及R包mclust 在介绍混合模型及其参数估计的EM算法之后,下面讨论混合模型的应用。 混合模型的主要应用之一是基于模型的聚类。在有限混合模型中,每一个成分对应一个类。这样关于合适的聚类方法以及聚类数目的问题转化...... (2回应)
2013-04-03 23:55:13
4.有限混合模型的参数估计:EM算法 #warning:本文全是公式 ,慎入 #文中细节2错了,更正在文末 注: EM算法对初值敏感,宜选择不同初值尝试。 EM算法不保证得到全局最优解。 (4)EM算法:应用于有限混合模型 #这个内容很多书里都有,就不抄书了。 更正细节2: (1回应)

DM in practice ( 全部 )

2013-02-26 21:12:32
左侧是PCA,右侧是kernel PCA
1 Machine Learning:A Probabilistic Perspective的一个例子,14.4节 一个“玩具”例子 对围绕三个聚类中心随机生成的数据进行主成分和核主成分分析,比较结果 set.seed(0) patterns<-matrix(nrow=90,ncol=2) cluster.pos<-matrix(c(-0.5,-0.2,0,0.6,0.5,0),ncol=2, byrow=T) for (i in 1:3) { patterns[(i-1)*30+1...... (1回应)
2013-02-25 23:51:57
这一篇讨论非线性PCA的另一种方法:kernel PCA(核主成分)。这是主成分分析引入核方法的结果((Scholkopf, Smola, and Muller, 1996)[1]。 1. 核技巧 核方法是机器学习最常用的方法之一。关于核方法,会在(或许很久很久…)之后的某篇专门讨论。 所谓核技巧(kernel trick)是通过一个非线性变换把(观测点所在的)输入......
2013-02-22 20:26:39
使用R的统计学习(二): PCA(2)主曲线 这一篇讨论非线性主成分。 1.线性主成分的一些缺陷 作为一种线性的维数缩减技术,线性主成分对类似多元正态分布的椭圆分布数据效果明显,但对一般的非线性数据结构的效果比较差,比如二次,三次或高次多项式的数据;同时,线性主成分受随机扰动的影响也比较大。 例,考虑一个满足二......
2013-02-13 22:24:31
使用R的统计学习(二): PCA(1) 降维的两种方式: (1)特征选择(feature selection),通过变量选择来缩减维数。(2)特征提取(feature extraction),通过线性或非线性变换(投影)来生成缩减集(复合变量)。 1.主成分分析(PCA)是一种较早发展起来的线性维数缩减方法(Hotelling,1933),对一组相关变量X[1],…,X[r]采用按......
2013-02-08 22:42:54
两个多维标度法的例子。 例1:Morse code data 摩尔斯电码的基本成分是36个有点和划构成(依次对应26个字母和0-9这10个数字)。 为了检验这些电码的易混淆程度,Rothkopf在1957年做了一个实验,对598名应试者采用成对的方式播放这36个基本电码,让受试者判断代码相同或者不同,按照判断相同的比例,得到了一个邻近矩阵。 ...... (2回应)
2013-02-07 21:20:23
4.MDS相关R函数和R包 (1)基于梯度算法的R函数 作为一种应用领域相当广泛的方法,MDS在不同的R包中,以不同的函数来解决。这些函数大多采用基于梯度的优化算法。有些在前面的例子中已经尝试过,不再一一举例。 经典标度: cmdscale( ) stats包 wcmdscale( ) vegan包:加权的经典标度 pco( ),ecodist包 pco( ),labdsv包 pco......
2013-02-04 23:05:46
###因为表示数学符号不方便,正文中一般用[ ]表示元素下标,用( )表示矩阵或函数,请大家 ####按文意甄别 (2)非度量距离标度 Shepard diagram 当相异度是定性的次序量,采用非度量标度。此时,就是寻找一个t维空间上的结构 Y={Y[1],…,Y[n]},用它们的内点距离的大小次序来拟合原始相异度的大小次序。 设对称的相异度矩...... (1回应)
2013-02-03 20:16:17
###因为表示数学符号不方便,正文中一般用[ ]表示元素下标,用( )表示矩阵或函数,请大家 ####按文意甄别 3.距离标度(Distance Scaling) 距离标度中,降维之后的距离d[i,j]≈f(δ[i,j]),其中f是一个单调增函数。 距离标度可分为度量距离标度(metric distance scaling):相异度是定量的(比例或区间)和非度量距离标度......
2013-02-02 21:08:06
###因为表示数学符号不方便,正文中一般用[ ]表示元素下标,用( )表示矩阵或函数,请大家 ####按文意甄别 一个简单的例子和一些术语 一个经典的例子。关于MDS的易于理解的经典案例往往来自地理方面(本例最早来自文献[4]): 关于美国十个城市间飞行里程的数据。这十个城市是:亚特兰大(Atlanta)、芝加哥(Chicago)、丹......
2013-02-01 23:11:35
最近在读这本书:Modern Multivariate Statistical Techniques:Regression, Classification, and Manifold Learning,http://book.douban.com/subject/3649744/。 多元统计是统计学的一个重要分支,研究同时发生的多重随机变量的统计性质及各变量间的相互关系。多元统计的应用称多元分析,传统的多元分析可以看作......
5人
数据铺子
something about data . 包括但不止于以下内容:统计,数据挖掘,统计学习,信息可视化,量化交易。

关注该小站的成员 ( 5142 )

  • 不负
  • shefer
  • 独自等待
  • 鲁小七
  • GY!BE
  • 蓝色忧郁
  • 雨霁天晴
  • LYLtim

关注该小站的成员也关注