《Bit By Bit》第一、二章读书笔记
作者:李铁薇
身处数字时代,每天都有数十亿人的行为被记录,存储和分析。 例如,我们每点击一次某个网站;在我们的手机上拨打电话,浏览网页,使用app;或使用信用卡支付某些费用时,我们行为的数字记录都会被记录并存储下来。 由于这些类型的数据是人们日常行为的副产品,通常称为数字痕迹。 我们难以避免地在便利和泄露自己的信息之间做出取舍。
如何看待数字时代带来的机会和风险?Salganik将之描述为“an ink blot”,认为这有点像罗夏墨迹测试(人们看到的东西取决于他们的背景)——社会科学家可能看到了一种新的测量工具;数据科学家看到了很酷的新机器学习; 许多商业人士看到了一种强大的方法来挖掘他们手中数据的价值;许多保护隐私的倡导者将其视作一个可怕的警醒:我们生活在一个大规模监视的时代。但正是这些混合的特征,作者认为它是进入社会研究未来的窗口。
在第一、二章,作者陈述了创作这本书的目的、大数据的一些特征、以及大数据源为数字时代的社会研究带来了哪些更有价值的研究方式。首先在引言中,作者表明,这本书的目标受众是“那些想要做更多数据科学的社会科学家,想要做更多社会科学的数据科学家,以及任何对这两个领域的混合感兴趣的人”。这也就是说,一开始作者就并非是想创作一本具体如何利用数据进行研究的handbook,他更想要传达的是关于社会研究的一种思考方式,因此整本书的写作呈现出一种开放、非学术、示例驱动的风格。正如后面几章显示的那样,这本书里面包含了大量的研究示例,对我们这些企图将社会科学研究与数据科学结合起来的初级入门研究者提供了更多研究的思路,对我们如何评价别人的研究也提供了一些启发。
今天的大数据源无处不在,无论是来自商业企业的数据,还是来自政府的数据都为我们的研究提供了新的机会,但是这些数据源并不是为了社会研究创建的。因此存在一些类似于“没有免费午餐”的数据规则:如果你没有投入大量的工作来收集它,那么你可能不得不投入大量的工作来思考它和分析它。在第二章中,作者总结了今天大数据源的10个特征其中三个通常(但并不总是)有助于研究:Big,Non reactive和Always-on。研究中一般(但并不总是)存在七个问题:Incomplete,Inaccessible,Nonrepresentative,Drifting,Algorithmically confounded,Dirty,Sensitive。
其中我觉的比较有趣的几个部分,第一是算法混淆。这是我们在研究之中(至少对我个人来说)常常忽视的一点。社会研究的一个挑战是,当人们知道研究人员正在观察他们时,他们可以改变自己的行为。而许多大数据源都是“非反应性(non reactive)”的,即人们在很多时候都不会意识到他们的行为数据在被记录。但是研究人员不应该认为这些在线系统中的行为是“自然发生的”。实际上,记录行为的数字系统往往是经过精心设计来诱导特定行为,例如点击广告或发布内容。系统设计人员的目标将某种特定的模式引入数据的方式称为算法混淆。 算法混淆对于社会科学家而言是相对未知的,但一个细心数据科学家应当关注到它。 例如我一直在某个平台上看某种特定类型的内容,可能并不是我对这种内容特别关心,可能只是平台上推荐算法导致的结果。在利用数据进行研究时,我们必须意识到我们手中的数据源是出于某种目的被某些人以特定的算法收集来的,因此要尽可能多地了解是什么人、出于什么目的、以何种方式收集了这些数据。
其二,不完整性。很多时候我们获得的大数据源都是不完整的。其实传统的社会科学也会遇到数据不完整的情况,例如现有的调查结果里没有提出所需要的问题,因此在前期设计问卷的时候我们便会去测量尽可能多的影响因素,以免测量出来的结果没有原来想象的那么理想。但是大数据中这种不完整性问题会更加严重,因为最开始这些数据并不是以研究为目的建立的,其中常常没有一部分我们想要的信息。根据作者的经验,他认为大数据往往缺少三种对社会研究有用的三种类型的信息:研究对象的人口统计信息、研究对象在其他平台上的行为以及可操作化的理论结构(operationalize theoretical constructs)的数据。前两种都比较好理解,我们来理解一下第三种。操作化的理论构造就是提出一些方法来捕获可观察数据的抽象概念。在传统的调查法中,我们在测量“规范”,“社会资本”和“民主”这样的概念的时候,历代的研究者对这些概念的测量经历了一代又一代的迭代更新。而大数据源中我们很难去测量这样的抽象概念。例如,我们想通过实证研究表明:“更聪明的人赚更多的钱”。在第一个研究中,研究人员发现在智力测试中得分更高的人,所报告的纳税申报收入较高。在第二项研究中,研究人员发现Twitter上使用较长词的人更有可能提到奢侈品牌。在这两种情况下,这些研究人员都可以声称,他们已经表明,更聪明的人可以赚更多的钱。然而,在第一项研究中,理论结构很好地通过数据进行操作,而在第二项研究中它们不是。对于人口统计信息和其他平台信息的缺失,我们可以通过插补(运用其他的用户属性推理)、结合调查、结合其他平台的数据等方式尝试解决,但是可操作化的理论结构的缺失,很难被解决。
在第二章中,作者还提到了大数据源主要有三种方式对社会研究最有帮助。首先,它们可以使研究人员在相互竞争的理论预测之间做出选择。这类工作的例子包括Farber(2015)(纽约出租车司机)和King,Pan和Roberts(2013)(中国的审查)。其次,大数据源可以通过“临近预报”帮助公司和政府对当前的状况作出更加及时和精确的估计。临近预测指的是使用预测的想法来衡量当前状态世界,即试图“预测现在”(Choi和Varian 2012)。这种工作的一个典型例子是Ginsberg等人2009年谷歌流感趋势的预测,它可以帮助公共卫生官员在处理新出现的流行病的时候,及时了解当下有多少流感。最后,大数据源可以帮助研究人员在不进行实验的情况下进行因果估计。这种使用大数据进行因果估计最典型的一个方法就是匹配(mapping),即通过调整数据,试图解释那些具备条件(接受干预)和不具备条件(不接受干预的)的被试之间存在的差异。作者提到的这类工作的例子是Einav等人(2015)(起价对eBay拍卖的影响)的研究。
此外,在章节即将结束的时候,作者还谈到一个非常有趣的问题——大数据源可能对数据和理论之间的关系产生重要影响。他在文中提到的大部分例子是理论驱动的实证研究方法。但是大数据源也使研究人员能够凭经验推动理论化。也就是说,通过仔细积累经验事实、模式和问题,研究人员可以建立新的理论。在数据收集昂贵的世界中,仅收集理论认为最有用的数据是有意义的。但是,在一个已经免费提供大量数据的世界中,尝试数据优先方法也是有意义的(Goldberg 2015)。
总的来说,在第一二章中,作者从更为宏观的角度,描述在数字时代,大数据源为社会科学研究带来一些新的机遇,同时大数据本身也存在局限。 Matthew在讲述这些的过程中还提供了丰富的案例,简明易懂。他写的非常有条理,始终也保持着十分谨慎的态度,对于他在书中提到的研究方法和案例都谨慎地提出了他们的局限和风险。 在后面的章节,作者在此基础上进行了更加详细地阐述。
> 我来回应