返回上一页 文章阅读 登录

陈峥:全数据模式的幻象与网络大数据的代表性

更新时间:2020-04-21 01:32:34
作者: 陈峥  
“可以收集过去无法收集到的信息”不等于“可以收集到社会科学研究需要的所有信息”,轻率地认定社会科学研究“现在不再依赖抽样调查了”的结论,是不严谨的。事实上,在很多情况下,可资社会科学研究的大数据并非“总体数据”,因而同样存在数据代表性问题。而在互联网普及过程中出现的网络分化,则让这种状况在可预见的未来不可能从根本上得到改变。网络分化是指不同的社会群体能够享受到的互联网资源是不同的,在互联网的使用中获益程度之异同,是一种新形式的社会不平等。[10]

   全球网络指数(global web index,GWI)的报告显示,截至2017年1月,作为世界第一大经济体、互联网发源地的美国,其互联网用户占整体人口的比例为86%。[11]但从全球范围来看,其他国家和地区则远远达不到如此高的覆盖率。全球人口约74.76亿,而互联网用户为37.73亿。[11]全球互联网普及率刚刚过半。

   从我国的情况看,由于经济发展不平衡,在互联网的普及方面,存在显著的地区差异、城乡差异。《第41次中国互联网络发展状况统计报告》显示,截至2017年12月,中国网民的规模达7.72亿,互联网普及率为55.8%,但非网民规模仍然高达6.11亿。[12]在中国网民中,农村网民占比27.0%,规模为2.09亿。虽然近几年农村的互联网的发展速度较快,其普及率上升至35.4%,但仍低于城镇35.6个百分点。[12]

   经济发展的不平衡不仅导致城乡之间的差异,还造成了明显的地域差异。互联网普及率从东部沿海发达地区向中西部欠发达地域呈梯次递减趋势。这些差异造成了“数字鸿沟”的存在,而填平“鸿沟”并非朝夕之事。由于“数字鸿沟”的存在,使针对不同研究对象、不同研究问题的社会科学研究在使用网络大数据时,会面临不同程度的数据代表性问题。例如,如果想要研究“知识北漂”关注什么,从社交媒体上获取具有较好代表性的数据是完全可能的;而如果是研究贫困山区的留守老人和留守儿童的心理状态,那还是采用传统的“田野调查”方法为宜。

   除了网民与非网民之别,网民结构与人口结构的差异也存在数据代表性问题。从我国的情况看,仅网民的性别结构与实际人口性别比例基本相符,而年龄结构、职业结构等都存在不小的差距。在网民群体中,年龄在20~39岁的占53.5%;从职业来看,学生占到了25.4%。[12]这显然与人口统计的特征不符,必然会导致网络大数据的结构性偏差,在社会科学研究中应予以充分注意。例如,在互联网舆情研究中,必须认识到这一事实,即从社交媒体所获取的数据不能很好地代表50岁以上的人群。

  

   四、用户偏好:数据生成的不均衡

   即便随着社会的进步,互联网最终实现了全球范围内的高度普及,网络大数据的代表性依然是社会科学研究中必须认真考察的问题,因为互联网用户的异质性,必然导致他们在使用频率、需求程度、技能水平、信息素养等方面存在不同程度的差异;同时,由于社会分工、知识结构、兴趣爱好等方面的不同,决定了互联网用户不同的使用偏好。

   有学者对2000年美国综合社会调查(GSS)的数据进行分析后,发现在美国互联网用户中,受教育程度高、收入高、认知测试成绩优异者更倾向于利用互联网“累积资本”,而非单单为了娱乐。[13]对瑞士1997-2000年互联网数据的研究也显示,受教育程度高、收入高的用户往往通过互联网获取有价值的信息,而社会经济地位较低者则更多地把互联网用于娱乐。[14]在中国的互联网应用层面,城乡网民在商务交易、支付、新闻资讯等使用率方面差异显著。[12]

   互联网上有多种多样的信息工具和平台,但任何工具、平台都不可能囊括全部用户,它们都有自己的目标群体,这就意味着任何一种工具、平台都是一个特定的数据子集。以在线社交平台为例,据在线市场营销咨询机构智慧洞见(smartinsights.com)发布的《2017年全球社交媒体研究概要》显示,截至2017年1月,脸书(facebook)已拥有18.71亿活跃用户,稳居全球社交媒体排行榜第一,有79%的美国成年网民使用它;脸书旗下的瓦次普(whats app)、脸书即时通(facebook messenger)分列第二、第三。[11]18.71亿活跃用户已经是一个相当惊人的数字,但也只占到全球网民的一半左右,某些国家的用户,例如中国用户,还特别少。

   至于风靡我国的微信,社交用户管理平台奇智睿思(curiosity)根据腾讯所发布的数据制作的《2015微信用户数据报告》显示,截至2015年第一季度末,微信月活跃用户达5.49亿,范围覆盖200多个国家,使用语言超过20种[15];《2017微信用户&生态研究报告》显示,截至2016年12月,微信国内版与国际版(wechat)共有月活跃用户数8.89亿。[16]其中,中国用户占有相当大的比例。

   虽然脸书与微信的普及程度都很高,但二者能够代表的用户人群显然不同。正如伊斯特·豪尔吉陶伊所言,“当大数据分析指向某特定社交网站或者服务项目时,该研究所能够展现的仅仅是决定加入并已开始使用相应网站或者服务项目的群体的行为与观点”,而“如果数据集中包含成千上万的用户的信息,就认定研究之结论可推而广之,这可能是错误的,这取决于方法体系而非数据体量”。[17]

   有些用户群体(如成长于传统媒体时代的中老年人),在网络世界里的活跃度有限,他们往往是凯特·克劳福德所定义的“倾听者”[18],主要浏览页面,不更新状态、不点赞、少与他人互动,存在感较弱。2011年,推特披露,约有40%的用户登录推特,目的只为倾听。[19]

   即便是活跃的用户,其关注点亦相当分散,这包含两层含义。其一,信息与某群体相关度越高,该群体的关注度就越高,在网络中的反应更为强烈。例如2016年的问题疫苗事件,关注者最多的是年轻的母亲。其二,兴趣偏好不同的群体,关注的网站、平台有所不同。德里克·鲁茨与尤尔根·普费弗的研究表明,照片墙(instagram)主要受18~29岁的成人、非洲裔美国人、拉美后裔、妇女、城镇居民的青睐;而品趣(pinterest)则更受25~34岁、年收入平均10万美元的女性的欢迎。[20]全球网络索引(global web index)2014年的数据显示,阅后即焚(snapchat)最受年轻人的偏爱,其用户群体中16~24岁者占57%,微信与汤博乐(tumblr)的这一数据分别为42%、39%,而在脸书和推特的用户群体中,16~24岁、25~34岁、35~44岁者的比例均在25%左右,45~54岁、55~64岁者的占比相对略低。[11]《2015微信用户数据报告》表明,微信用户以男性为主,男性与女性用户的占比分别为64.3%、35.7%,男女比例为1.8∶1。[15]

   因此,与传统的抽样调查不同,基于社交媒体大数据的研究面对的是自我选择样本,即用户自我决定是否成为样本,这种样本在很多情况下存在系统性偏差。[9]除此之外,垃圾账户现象亦值得注意。有些人拥有多个账户;有的账户是所谓的“机器账户”,这些账户由代码控制,可自动发消息,常被用来发送广告、交友等垃圾信息,其数据生成量一般很大,这些噪音也会对网络大数据的代表性有所影响。

  

   五、总结与展望

   大数据时代,互联网、移动互联网、物联网产生的海量数据为解决更多、更细的社会问题提供了可能。然而,认定大数据就是“总体数据”,认为目前社会科学研究可以全面开启“全数据模式”时代的观点,尚缺乏严谨的科学依据。一个明显的事实是,经济社会发展的不平衡现象将相当数量的人挡在了信息社会的大门之外,数字鸿沟的客观存在使互联网缺失了约半数人群的电子踪迹;社会的结构性不平等、用户群体的异质性、社会分工等因素导致数据生成方面的不均衡,等等,这些事实都还存在。因此,将网络大数据用于社会科学研究,在很多情况下无法实现“样本=总体”的目标,这是数据代表性问题无法回避的事实。正如丹·博伊德和凯特·克劳福德所说:“抛开特定数据集的代表性,只谈其体量的大小毫无意义。”[4]

   在大数据时代,社会科学传统的抽样调查方法并未终结。2017年4月24日,数据运营领域的翘楚——腾讯公司,其旗下的“企鹅智酷”公布了《2017微信用户&生态研究报告》,亦专门针对用户数据采样进行了说明。《报告》称,通过企鹅智酷网络调研平台采集到用户调研样本共19,511份,通过中国信息通信研究院采集到的用户样本为1,100份,采集到公众号运营者样本为9,018份。[16]甚至最具权威的中国互联网络信息中心,其历次的《中国互联网络发展状况统计报告》仍然采用计算机辅助、电话访问的方法获取抽样数据。[12]这些情况说明,依目前的信息采集条件,所获取的资料信息仍然是有限的,只能代表某些领域或某些方面。

   其实,对于多数社会科学研究而言,网络大数据并非完美的数据。“全数据模式”是相对于具体的研究任务而言的。例如,吉拉德·罗坦与艾尔哈特·格拉夫领衔的团队对2011年突尼斯与埃及革命期间激进分子、博主、新闻记者、主流媒体及其他参与者在推特上的信息流进行了研究。他们使用了两个相应的能够覆盖两场革命时间段的推特数据集,整理出常在推特上的发声者并将其归类,然后具体分析这些信息是如何产生并在推特用户网络中扩散的。这是典型的对在特定时间段发生的特定事件中特定群体的网络行为的研究,就此类研究而言,样本具有很好的代表性。而就除此之外的多数情况而言,针对具体的研究任务,所能使用的大数据往往存在系统性偏差,如果不能矫正这些偏差(至少这在当前是极为困难的),那么,基于大数据的分析与预测就谈不上多大的可靠性。[9]因此,研究者对此应有清醒的认识,尤其在运用某特定平台的数据进行推理时,应了解研究的适用范围,避开“代表性陷阱”的干扰。正如伊斯特·豪尔吉陶伊说:“大并不总意味着更好;当涉及数据集的时候,体量并非那么重要,大数据并不对偏误免疫;在研究过程中,无论数据的大小,要根据其取样框架来审慎推导结论。”[17]

   ①必应是微软搜索引擎的名称。

   参考文献:

   [1]Avantika Monnappa.How Facebook is Using Big Data-The Good,the Bad,and the Ugly[EB/OL].

   https://www.simplilearn.com/how-facebook-is-using-big-data-article,2018-05-05.

   [2]梁堰波.Facebook的数据仓库是如何扩展到300PB的[EB/OL].https://www.csdn.net/article/2014-12-09/2823024,2018-05-01.

   [3]王晓易.窗体底端百度大数据首席架构师林仕鼎介绍百度大数据[EB/OL].http://tech.163.com/13/1206/10/9FDG6V0H00094OB0.html,2018-06-09.

   [4]Danah Boyd,Kate Crawford.Critical Questions for Big Data[J].Information Communication & Society,2012(5).

[5]迈尔-舍恩伯格,(点击此处阅读下一页)

本文责编:陈冬冬
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/120947.html
文章来源:《天津师范大学学报:社会科学版》2019年第4期
收藏