返回上一页 文章阅读 登录

郑二利 王颖吉: 人工智能时代的数据意识形态——基于大数据对价值观和行为活动影响的思考

更新时间:2020-02-14 13:36:21
作者: 郑二利   王颖吉  
这些技术都已是标配。因为数据挖掘技术能帮助其从数据大杂烩中建立模型,分析数据,做出更有效的决策。显然,“这种借助数据进行决策活动的潜在机会不断涌现,其影响力涉及企业以及整个经济体的方方面面。正因此美国经济学家埃里克·布莱恩约弗森认为大数据将引发‘管理革命’。”[7]

   大众传媒领域的“管理革命”主要是针对用户的,用户被概念化为数据信息,这些数据信息被筛选、结构化处理后,用来预测用户可能带来多少利润,并方便管理者调整相应政策。针对用户的数据管理和分析,受市场意识形态支配,数据管理者考虑的是利润而非用户的利益。当用户信息被概念化为数据,用户被抽象化了,他的情绪、情感、尊严等这些无法数据化的指标多被忽略了。如果大众过多依附于大数据做出的决策,那么他们已经在不经意间被控制其中了。

   最典型的现象是大众传媒中的数据推送和供给。围绕在人们周围的资讯平台、社交媒体常常会“主动”把信息推送给用户。看似这些数据的推送是依据算法为用户“量身定制”,但实际上主导这一切的是算法设计者的意图。当然,算法设计者的意图是非常复杂的,除了追求利润之外,还与意识形态和文化环境密切相关。社会的政治、文化、道德等因素也会介入其中,这些都间接影响数据推送,政经新闻推送便是如此。

   数据屏蔽、数据过滤决定有些数据被关联起来成为有用的信息,有些数据被闲置或屏蔽成为“噪音”,信息屏蔽既是设立一种屏障,也是在设定价值导向。区分哪些数据是“噪音”,哪些数据是有用的信息,需要明确的判断标准。这里设立的判断标准往往出于某种利益诉求,而非信息本身的质量和价值。资讯平台的数据推送,通常依据用户过往浏览记录筛选信息,对于吃货,那就给他美食类信息;对于购物狂,那就给他购物信息。显然,这种数据信息过滤只为更大概率占据用户视线,并不是出于为用户负责,而筛选的高质量信息。约翰·博斯利说过:“数据不仅仅是数字,它本质上源于人类的交互和社会协商,是一种社会商品。”[8] 约翰·博斯利只说了数据的一个维度,显然,数据既是社会商品,它还是裹挟着政治、文化等复杂社会权力关系的信息载体。在很多国家的总统选举中,在国际上的民族性事件中,在引起全球关注的各种政治丑闻中,都能见出这样的事实,即谁控制了数据信息,那他就控制了话语权。

   总之,基于用户的数据分析剔除了多余的数据,保留有效的数据,在这个过程中,不是所有数据都被平等对待。那些指向性明确的数据信息,关乎用户既往经验的、符合用户喜好的信息,还有推送者有意推送的信息是有效的。显然,指向性明确的数据信息意在把用户控制在数据结构中,看似开放的虚拟社会被其设置了种种屏障和壁垒。越来越多的资讯、短视频“主动占据”用户的中心视点,试图引导和控制用户,这里既有国家意识形态的动因,也有资本逐利的动因,百度公司就多次被公众质疑为商户推广广告。毕竟,我们处在人人都无法摆脱数据的大数据时代,那些“主动占据”我们中心视点的信息,更可能被我们关注。反过来说,当数据成为资本,点击率意味着效益,针对用户的计算越来越精准,这也意味着用户可能被结构化、被固化,在某种程度上个性被消弭。

   三、大数据镜像中的个体——身份分离

   在人人都无法摆脱数据的大数据时代,人被概念化为数据,人的身份属性用数据描述。利用算法分析人的身份属性,是基于算法把人的身份数据进行结构化处理,这样做的原因是平台试图精准定义用户。值得注意的是,算法并不能分析人的所有特性,也就是说,只有那些能纳入算法框架下的部分才能被描述,其他内容无法描述。一般来说,性别、年龄这些确定性的信息能用数据描述,除此之外,算法会着重分析行为偏好、个人趣味、甚至深层欲望等。但是,这些数据并不是完备的,因此人的虚拟身份与真实身份之间是分离的。这就需要我们思考数据镜像中人的身份问题,以及虚拟自我与他者之间的关系。镜像是拉康提出的范畴,他用镜像描述婴儿自我认同的过程,婴儿通过“镜中之像”区分自我与他者,并形成对自我形象的认知。在镜像阶段,婴儿的自我形象映射在对他者的幻想上,通过镜像中他者的形象体验自己。但是,婴儿将自己映射到外部形象中,又会导致自我的疏离,这就是作为主体的自我与他者争夺的过程。数据镜像类似于拉康所说的镜像,不过二者性质不同。数据镜像是虚拟镜像,是网络空间中那些标识用户身份的大数据形成的虚拟镜像。在网络空间中,几乎每个用户都有在社交平台、购物平台、支付平台等通用的身份。虚拟身份是由数据信息建构的,是用户在互联网上注册、浏览、购物、社交等产生的数据。标识用户身份的数据是元数据,元数据用来标识用户年龄、性别、社会地位、财富指数、文化指数、行为偏好、位置关系、个人趣味等信息。所谓元数据是关于数据的数据,是对事物进行命名、分类、结构化处理,用来管理数据的数据。美国学者克里斯汀L·伯格曼说:“元数据是一种事物命名、数据表示和关系表示的手段……元数据是对信息资源进行描述、解释和定位等操作的结构化信息,其通过前述操作使信息资源更易检索、使用或管理”。[1] 元数据是管理数据的数据,用元数据描述用户身份属性,能把用户群结构化,并且精准化定位具体用户。这种操作终究是服务于平台检索、使用和管理用户,算法设计者通过算法引导、控制用户,而用户对这一切并不知情,用户常常不自觉地被平台推送的信息诱导就印证了这一点。可见,不管有意还是无意,用户似乎已经认同了数据镜像中的身份,最典型的表现是用户越来越依附于平台的定制和推送。在用户的身份数据中,算法侧重分析用户的个人趣味、行为偏好等信息,这些信息与用户的消费偏好关系密切。这与人的社会身份属性不同,人的社会身份关乎阶层、职业等与社会秩序相关的信息。相反,描述虚拟身份侧重关联人的消费偏好,而与其社会身份关系不大。说到底数据镜像强化了用户的消费偏好,而用户又受其诱导,常常会依此进行判断和选择。这一切导致人处于“信息茧房”中,难以主动进行理性分析,打破数据镜像。如电商用大数据“杀熟”,之所以有的电商能用大数据“杀熟”,就是因为算法把用户结构化为新老用户两类,并对新老用户实行不同的价格策略,吸引新用户采取的优惠政策会屏蔽老用户,这就出现同一商品老用户购买价格高,新用户购买价格低的情况。有意思的是,当老用户把既往信息全部清除之后,他的老用户身份就解除了,“数据镜像”被打破,他的虚拟身份又会被重新定义。可见,用户虚拟身份并不是同质的、稳定的,因为用户在资讯平台、购物平台、社交平台中所处的“结构”并不是一成不变的。

   平台依据大数据精准把控用户,用户的数据量越大、数据越完备,运算误差越小。这里值得注意的是用户的数据信息并不会被平等对待,有些数据是活的数据,关联度高,有些数据关联度低,是被闲置的数据。关联度较高的数据,产生于社交平台、购物平台、支付平台、数字地图平台等,这些数据信息是“互信息”,能综合分析用户的消费和社交等情况,相反,其他与消费无关的个性化的信息并不被关注。

   综上可见,虚拟身份与社会身份是分离的,社会身份是依据既往社会规则描述和确立的,与性别、年龄、职业、阶层、教育经历等这些因素相关,社会身份具有稳定性。平台并不在乎用户的真实社会身份,它更关注用户在虚拟空间的表现,特别是用户在虚拟空间中消费什么,关注什么,以及他的嗜好和偏好等。如有些平台的短视频推送,显然是利用算法分析了用户的偏好。因为其推送的短视频内容都是关联的,而且多与用户过去关注过的内容相关,也就是说,用户喜欢哪类短视频,平台就会推送大量同类视频给用户。当然,算法不仅计算内容,还计算视频时长、关联度等,多数两分钟左右的短视频以形式取胜,内容并无深度,形式却足够刺激视听感官。那些经过算法分析、筛选过的短视频能有效刺激用户神经系统分泌多巴胺,控制用户不停点击,迫使其“上瘾”。反过来说,如果用户长期接受这些被推送的内容,他就会处于信息茧房中,会被“固化”。说到底,所有这一切都浸淫了消费社会的“毒”性。法国学者鲍德里亚认为,在消费社会中,消费不再是消极的消耗,而成为具有主导意义的模式,消费者也被消费社会依据消费占据的符号意义而重新定义。据鲍德里亚分析,在消费社会中,依据消费者占据商品的符号意义,消费者被归属于不同的阶层中。消费文化收编了启蒙运动以来个人幸福的含义,并使得幸福可以测量,换句话说在消费社会中,幸福的指数由购买力测得,所以鲍德里亚感慨,幸福有毒! 而今,大数据技术被消费文化收编,消费者也被测量!

   此外,数据镜像中的虚拟身份与人的真实自我也是分离的,因为数据镜像中的虚拟身份缺乏“总体性”和稳定性。大数据没有能力描述一个复杂的人,用户的身份数据信息都是不完备的。也就是说大数据只能计算纳入算法的数据信息,不能纳入算法的信息,大数据无能为力。人性是非常复杂的,人的情感、情绪、幻想、想象、联想、无意识等,这些非逻辑、非理性的部分无法用数据描述,不能纳入算法的框架中。算法是逻辑性的、理性的,不能纳入算法框架的信息就不能计算和管理。说到底,计算得清楚的东西未必重要,重要的东西未必计算得清楚。也就是说,人性中无法用数据描述的部分可能是最重要的,但却只能被放弃。而这些部分构成了真实的自我,也是自我区隔于他者的核心所在。如果人不能警惕虚拟身份与真实自我是分离的,那么后果是很严重的。一方面,大数据规避了人性难测的一面,把复杂的人性抽象化为可以测量的指数,这浸染了消费文化的“毒性”;另一方面,年龄、性别、社会地位、财富指数、文化指数、行为偏好、位置关系、个人趣味等数据信息建构了用户的虚拟身份,但是用户却没有控制身份数据信息的权力。这些标识虚拟身份的数据很容易被别人控制和篡改,这无疑加剧了虚拟身份的不确定性,由此甚至引发伦理危机。最严重的莫过于用户数据泄露导致隐私泄露。对公众人物来说,身份失控后果更严重,尤其是公众人物一旦牵涉丑闻,他们的虚拟身份会完全失控,他者似乎拥有了书写、篡改、编造其身份数据的权利,而这一切却无需经过当事人知情或同意。大数据时代,公众人物更需小心翼翼维护自己的虚拟身份,维护其在大众心目中的“人设”,生怕其失控崩塌,毕竟,作为他者,大众对公众人物的认同也是通过数据镜像形成的。一切都是不稳定的,这似乎正应了马克·扎克伯格的说法,具有多于一重身份的身份是一种“缺乏总体性”的表现。

   四、大数据的伦理悖论——他者的数据,我的隐私

   今天,人们在互联网上几乎无处遁形,让人细思极恐的是我们的信息都在网上,而我们自己却无法保护自己的信息,因为我们几乎不知道这些信息的使用权和控制权在谁的手上。回想起来,最初的互联网是结构松散的虚拟世界,是一个没有人知道我是谁的空间,因为那时的用户无须认证,都是匿名上网,而且用户的虚拟身份与社会身份几乎没有关联。今天,不知道我是谁的时代已经终结了,大数据让我们在互联网上几乎无处遁形,同时,大数据时代常常发生个人数据信息被泄露,个人隐私被侵犯的情形。大数据引发的伦理危机频现,大数据时代,保护个人隐私、维护由于隐私泄露导致的名誉、权益受损,已成为重要的伦理难题。这里似乎存在悖论,一方面大数据时代需要个人生产和分享数据,提高数据运算的有效性;另一方面人需要保护自己的隐私,隐私数据不能共享。这看似形成了个人权益与公共利益之间难以弥合的鸿沟,实质隐含着数据资本争夺引起的伦理冲突和危机。

大数据时代,数据就是资本,拥有数据就拥有了资本。数据如此重要,以致有人用未来的石油比喻大数据。用户在社交媒体、网络平台、购物平台、数字地图等留下的注册、购物、浏览等信息都是数据,企业需要用这些数据计算用户,实现精准营销并获取效益。现在的高科技公司基本都是数据公司,苹果公司认为公司的未来就是发展人工智能,阿里的创始人马云也多次表示未来必然是大数据为基础的人工智能的世界。前谷歌研究院院长诺威格博士曾经谈到他在2001年加入谷歌,(点击此处阅读下一页)

本文责编:frank
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/120158.html
文章来源:《新闻与传播评论》2019年第1期
收藏