文本挖掘的日记

苏格拉底大王 2015-06-19 11:09:00
转载自: http://pansop.com/1042/ A collection of important python tools regarding natural language processingThis is a part of Python Knowledge and Resources List NLTK NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to ......

苏格拉底大王 2015-04-30 12:02:54
Natural Language Processingby Dan Jurafsky, Christopher Manning Natural Language Processing by Dan Jurafsky, Christopher Manning Week 1 - Course Introduction Course Introduction (14:11) Week 1 - Basic Text Processing Regular Expressions (11:25) Regular Expressions in Practical NLP (6:04) ......

苏格拉底大王 2014-06-10 11:06:06
http://trends.baidu.com/compos
@黠之大者 (计算传播学小站编辑) 2014年高考前夕,百度“基于海量作文范文和搜索数据,利用概率主题模型,预测2014年高考作文的命题方向”。如上图所示,共分为了六个主题:时间、生命、民族、教育、心灵、发展。而每个主题下面又包括了一些具体的关键词。比如,生命的主题对应:平凡、自由、美丽、梦想、奋斗、青春、......

江离 2014-06-06 20:33:11
by: @江离 <yihongfa@yeah.net> (计算传播学小站编辑) LDA(latent dirichlet allocation)模型是主题模型的一种,属于概率主题模型。概率主题模型的本质是通过对文本中词的分布规律的观察,实现对相似分布规律词集的聚类。主题相当于聚类中的簇,文档以不同的概率属于不同的主题。 LDA可以追溯...... (1回应)

小和子 2014-06-05 11:23:08
By:@小和子 (计算传播学小站编辑) 情感倾向可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向。它由两个方面来衡量:一个情感倾向方向,一个是情感倾向度。 情感倾向方向也称为情感极性。在微博中,可以理解为用户对某客体表达自身观点所持的态度是支持、反对、中立,即通常所指的正面情感、负面情感、...... (33回应)

苏格拉底大王 2014-05-31 18:50:59
Tomas Mikolov
by @Mountain 去年 Google Research 的几个研究员开源了他们的词嵌入(词向量)模型的一个工具 word2vec。他们的理论模型和工具引起了普遍的关注。简单说,他们的模型可以无监督的将语言中的词汇或者短语嵌入到一个高维向量空间中。但最为有趣的是词向量的正则性。 Google Research 的 Tomas Mikolov 给了几个向量模型...... (2回应)

苏格拉底大王 2014-04-12 14:29:23
情感分析(sentiment analysis)和意见挖掘(opinion mining)虽然相关,但是从社会科学的角度而言,二者截然不同。这里主要是讲情感分析(sentiment or emotion),而非意见挖掘(opinion, 后者通过机器学习效果更可信)。 sentiment: 一个进行情感分析的R包 http://cran.r-project.org/src/contrib/Archive/sentiment/ 图片......

苏格拉底大王 2014-04-12 14:12:16
Sentiment analysis with machine learning in R 流畅阅读版本看这里: http://chengjun.github.io/en/2014/04/sentiment-analysis-with-machine-learning-in-R/ In an earlier post, I tried to reproduce the sentiment analysis using machine learning in Python. Here, I will introduce how to do it in the fram......

苏格拉底大王 2013-12-13 11:49:04
http://gdelt.utdallas.edu The Global Database of Events, Language, and Tone (GDELT) is an initiative to construct a catalog of human societal-scale behavior and beliefs across all countries of the world over the last two centuries down to the city level globally, to make all of this data freely a......

苏格拉底大王 2013-12-13 11:35:07
What can be learned from 5 million books http://v.youku.com/v_show/id_XMzA3OTA5MjUy.html This talk by Jean-Baptiste Michel and Erez Lieberman Aiden is phenomenal. The associated article is also well worth checking out: Michel, J.-B., et al. (2011). Quantitative Analysis of Culture Using Millions ......