算法不正义与大数据伦理

Algorithmic Injustice and Big Data Ethics

  作者简介:林曦,复旦大学社会科学高等研究院教授、院长助理;郭苏建,教育部“长江学者”特聘教授,复旦大学社会科学高等研究院院长(上海 200433)。

  原发信息:《社会科学》(沪)2020年第20208期 第3-22页

  内容提要:大数据正在对中国社会科学研究范式、路径、方法和未来发展产生极其重大而深远的影响和挑战。然而,对于以各种算法为基础的大数据而言,在其数据收集、处理和应用中,也出现了相应的不正义伦理议题,亟需社会科学研究者进行深入思考。所谓的算法不正义,指的是在大数据的知识建构过程中,社会不同个体或团体,在大数据资源的占有、使用和分配上出现不平等,从而导致在数据资源的“代表性”、“用户画像”、决策支持、行动干预等不同维度上出现不正义的情形。在大数据收集、处理、应用的过程中,算法忽视或者无法甄别数据来源,传输和使用过程中对某个区域范围内总人口中特定人群的优待或者排斥,从而导致数据本身所蕴含的不平等被原封不动地转移到大数据的计算结果之中,这种计算结果有可能反过来进一步加剧原本不同人群在数据资源分配和再分配上的不平等,进而导致基于算法的大数据不平等和不正义。为了解决这些算法不正义的问题,学者们也提出了诸如“促进平等的数据倡议”的行动方案,有些国家和地区还出现了公民自发的“量化自我”运动,以有意识地应对因大数据及其算法而导致的不平等和不正义。

  Big data has begun having broad and far-reaching impacts on paradigms,methodologies,approaches and future developments in social science research.However,the algorithms-based big data during data collection,processing and application may encounter certain ethical issues of injustice,wherefrom the term “Algorithmic Injustice” is coined,referring to the scenario of inequity and inequality in possessing,using and distributing big data resources by individuals or social groups to such an extent that injustice will manifest itself along the dimensions of representativeness,user profile,policy support or social intervention.When data is being collected,processed or applied,the embedded algorithms may ignore or fail to detect the mechanism of exclusion/inclusion of certain groups in a population within a given region,resulting in a transfer of inequality from the society to big data.When such inequality-reproducing data is used as a basis for the making of public policies or decisions,it will further exacerbate the existing inequity in(re) distribution of big data resources among social groups.To solve these problems,there has emerged a proposition by scholars who argue for “pro-equity data initiatives”,alongside a bottom-up movement of “quantified self” in several states or regions.All these can be classified as conscious efforts to counteract the possible pitfalls of injustice as brought along by the algorithms in big data. 

  关键词:算法不正义/“大数据鸿沟”/“用户画像”/算法分析/Algorithmic Injustice/”The Big Data Divide”/”User Profile”/Algorithmic Analysis

  在过去的十年间,大数据对我们身处的社会进程和发展产生了很大的影响,在世界范围内,我们都可以观察到一个“数据化”(Datafication)的现象①。它包含了数字技术的蓬勃发展,而且,数据在各个国家的发展过程中发挥越来越重要的作用。数据的体量、应用规模、速度、范围等都出现了大规模的增长,数据也逐步成为政策决策的重要参考对象②。联合国把这个过程称之为“一场数据革命”③,并预言这样的一场革命,将带领人类社会进入可持续发展的轨道。新形式的数据,尤其是大数据和人工智能,能够帮助发展中国家更好地实现可持续发展的目标,比如,通过无人机、数据监控,更好地服务农业的发展、提高第一产业的效率,在工业上运用大数据实现智能制造,在公共卫生方面运用大数据预测流行病、提前部署疾控措施,通过大数据提高政府公开透明和行政效率,等等④。

  从定义上看,大数据所包含的数据种类繁多、体量巨大,运算速度也比传统数据高很多⑤,美国公共舆论研究学会曾给大数据下了一个定义,其认为大数据作为一个词汇,只是笼统地描述了一堆内涵丰富、复杂无比的数据集合,里面包含了各种与数据相关的特性、实践、技术、伦理议题以及结果⑥。正因为大数据体量巨大、种类庞杂、来源广泛,对于大数据而言,其数据采集、分析和应用都是借由各种算法来进行。一般而言,算法的定义即旨在解决某个问题的方式或进程。如果问题可以被看成是一个需要求解的数学题,那么,算法就是解决该问题的方程式,将输入的选项通过一系列的解决方法,得出输出结果⑦。对于大数据而言,算法在其中起到了不可替代的作用。搜索引擎运用特定的算法,对海量的数据进行采集、过滤、分类和索引;数据分析技术则依赖算法,对采集到的数据进行清洗、结构化处理和运算;最终,当数据分析结果需要呈现的时候,算法又对这些结果进行可视化的处理或者显示优先顺序的排列⑧。大数据虽然是关乎数据的整个价值链,但是,算法是贯穿始终的。离开了算法,大数据就无法以一种被人类思维“可理解”的方式呈现出来。对于大数据与社会科学研究之间的关系,乐观派的人士认为,数据收集和大数据挖掘能够让我们获得全样本数据,避免数据采集过程中因为无法获得足够样本量而导致数据偏差,正是因为大数据本身在数据采集过程中的大样本优势,所以,它可以帮助我们避免因为人为偏好而导致误差。但是,大数据中的算法,只有在数据来源本身优良、高质量的情况下,才能真正发挥出上述的优势,如果数据本身是有缺陷的,或者不够完美,那么,技术乐观派的那种理想主义假设就无法落到实处。现实的情况是我们所收集到的数据很多时候都是不完美的,这些数据有可能是之前决策者基于人为偏好而得到的,因此,此类数据本身就包含了偏见、不平等、排斥。而且,因为设备和资源使用的分布不均衡,这也会导致我们在采集数据的过程中,那些占有更多数据资源的使用者的偏好更有可能进入数据,如此一来,我们所得到的数据就会与社会上广泛存在的偏好、偏见重叠在一起。在数据挖掘的过程中,有可能会出现的情况是它与此前业已存在的排斥、不平等现象呈现出惊人的相似性或者一致性,都以同样的规律来呈现。因此,如果我们对数据进行分析,本身不加反思、不加批判地接受,那么,这就让我们无视那些在过去的历史发展中被边缘化、处于弱势地位或者岌岌可危的群体所遭受的不公,这就相当于拒斥了这些群体完全融入我们的公共生活之中。程序员或者编程人员在开发软件、设计算法的时候,可能并没有想到这些问题,而这些偏见都是人们在使用算法的过程中才出现的,因此,它是一个非意图的后果,如此一来,要想真切地发现并纠正此类算法所带来的偏见和不正义,就显得尤其困难⑨。

  对于大数据而言,经常会出现的一个迷思就是公众认为大数据是以“客观、公正、去意识形态化”的面貌出现,大数据否认自身存在意识形态或者偏见,这本身就是大数据的一个“意识形态”⑩。这其实是无视了大数据在数据收集的过程中,常常由商业公司来操作、带有商业目的或者追逐商业利益,由此而得来的数据难免会产生偏见或者偏好。不同类型的大数据,其内在的偏好有可能是不一样的,比如,在社交应用软件或者社交媒体网站上,一般在加入之前,都会在条款里面要求用户同意对方使用该用户录入的数据,如果有人对自己的隐私比较看重,不愿意接受这些条款,那么,这样的用户就无法在这些网站上注册成为用户。通过这些社交媒体网站或者应用软件而得到的大数据,很难宣称自己的数据结果是无偏见的,因此,这些数据在收集伊始,就已经排除了那些对自己隐私更加看重的用户(11)。

  因此,对大数据在形成公众认知和社会科学研究当中所起到的作用进行一个正义伦理维度的检视就显得重要。大数据不仅仅关乎技术,更重要的是它已经变成一整套的知识生产和建构体系,改变了我们对理论和实践的认知(12)。因此,本文就从这一知识体系入手,希望能够从大数据知识如何得以建构的运行体系中,发现大数据及其算法、运算、数据流通背后可能被人忽略的不正义层面。为此,我们有必要从整个大数据知识建构体系来进行逐一分析。这个体系大致包含三个方面,涵盖数据收集、数据分析和数据应用。在数据收集中,在确定了相应的“数据源头”(Source)之后,会运用相应的技术对其中的数据进行捕获或者抓取,这些数据汇总起来就形成了对“数据源头”或者数据用户的一个“代表”(Representation)。在收集数据的基础上,还需要对这些数据进行清洗、分门别类、结构化处理,由此完成一个“用户画像”(Profile),形成对数据的初步分析,并在此基础上进行相应的算法分析。数据分析所得出的结果以一定的形式呈现出来,并可以被运用到各个层面,用以支持公共决策或对行动进行干预(13)。这些数据的收集、分析和应用,又会反过来为整个大数据知识体系添砖加瓦,推动整个体系在增量和存量层面的积累。下文对大数据正义伦理所进行的探讨,也将以这个结构来展开,笔者将逐一讨论这一大数据知识建构体系中所可能出现的不正义场景。

  一、数据收集

  对于大数据而言,收集或采集数据是数据挖掘至关重要的一环,后续的数据分析和应用都取决于所收集或采集到的数据质量。数据收集主要涉及两个方面的问题:“采集”和“捕获”。首先,大数据集合需要确认被收集或采集的对象,即所谓的“数据源头”。不同类型的数据源头决定了数据收集或者采集方式的差异,比如,数据源头是温度、气压、空气质量等,则较有可能通过物联网传感器进行收集;相比之下,如果数据源头与人类行为有关,则很可能通过各种社交网络、互联网站或便携移动设备来进行收集。以智能交通为例,如果数据源头是实时的路况信息,则数据采集会通过GPS定位信息、分布在交通网络上的摄像头以及交通关卡的车辆统计等方式来进行(14)。本文主要讨论社会科学视域下的大数据,因此,笔者将主要讨论以人类行为为源头的大数据收集。

  (一)源头:从“数字鸿沟”到“大数据鸿沟”

  针对以人类行为为源头的数据采集,有一点是毫无疑问的,即不同人群在使用数字设备和技术上存在千差万别,其中,有些差异是结构性的。正如有些学者担心的那样,在数据集中,有不少与发展相关的问题或者社会群体,其代表程度是偏低的、不够的。如果以这种数据作为决策的依据,那么,就有可能对那些代表程度偏低的问题或人群造成不公。造成这种不公的原因可能包括“数字鸿沟”、“大数据鸿沟”、数据质量问题、数据收集的程序、在发展中国家和地区与数据相关的能力建设不足等(15)。所谓的“大数据鸿沟”(Big Data Divide),即不同群体或实体(比如公司、企业、高校)在创建、购买、存储、使用大型数据集层面存在的能力和知识等方面的差距(16)。这一“大数据鸿沟”与之前的“数字鸿沟”(17)(Digital Divide)存在着千丝万缕的联系。

  最开始研究“数字鸿沟”的学者主要聚焦于数字有产与数字无产之间的区别,这些研究认为,在拥有数字基础设施(比如计算机、互联网接入)层面,会存在相应的社会经济不平等(18)。后来,随着互联网的普及,因为基础设施占有而引起的数字不平等在逐步缩小(19),研究人员转而更加关注其他层次的不平等(20)。研究者发现,“数字鸿沟”会沿着传统的不平等而展开,比如收入、教育、种族、性别、居住区域等(21)。这些“信息层面上的被剥夺者”,他们处在一个更加劣势的发展和经济位置上(22)。后来,“数字鸿沟”学者的注意力主要转向了“数字技能”和“数字素养”上的差距,不同用户在内容生产能力上具有显著的差异,并且,这种差异是与一些地理上的区隔、差异重叠在一起(23),以及这些差距与用户在健康状况、健康效应上的差别(24)。因此,数字不平等本身是关乎人们接受、获取、使用某种新技术的倾向和能力,这样的倾向和能力又与用户在社会网络中的位置及其在该位置上所积累的各种资本相关。所以,数字不平等不仅仅是一个简单的、个体差异意义上的不平等,同时,它也彰显着个体背后的社会结构中的不平等,比如资源的分配、获取和使用技术的机会、训练数字技能的成本等。即便给不同群体赋予同等的获取技术的机会,仍然会存在其他的限制性条件,继而影响到个体对这些技术的实际使用,这些限制性条件包括语言、“媒体素养”(Media Literacy)以及其他结构性的影响因素(25)。

  从“数字鸿沟”的文献中汲取了相当养分的“大数据鸿沟”研究学者,则关注那些大规模、分布式数据集中的数据有产和数据无产之间的差异(26)。“大数据鸿沟”体现在以下两个群体不对称的关系上:一方是那些有能力收集、储存、挖掘海量数据的主体;另一方是那些被收集数据的对象(27)。对数据的获取,有些是依赖技术手段,有些则与经济资源有关,看谁有支付的能力。比如,推特只给一部分公司开放了完全访问其数据的权限,对于公众而言,只具备相当有限的访问权限(28)。同时,大数据也是一柄双刃剑,本身也会带来一些和数据相关的问题,比如无处不在的监控、丧失隐私、发展收益被私人企业占了大头、日益增长的不平等(29)。

  以城市规划为例,放眼全球,各个国家在城市规划和管理的过程中,会越来越多地用到各种各样的数据,这形成了一种“新型的城市日程”,旨在指引未来的城市规划和发展(30)。对于许多发展中国家而言,包括中国在内(31),政府都会有意识地力推“智慧城市”项目(32)。在这些政府看来,“智慧城市”和可持续发展、绿色发展等诸理念存在紧密的联系,数字技术也让城市规划部门能够运用更多的技术、智能和数据来协助其进行规划。比如,现在在各地应用非常广泛的远程感应就是通过在地面上布置的感应器来搜集环境数据。在这个过程中,还涌现了“数字孪生”(Digital Twin)技术(33),即通过物联网、数据平台、信息模型平台等技术手段,把现实世界中的客体映射到虚拟空间,在虚拟世界中创造出一个与现实世界相对应的“孪生”客体(34)。因此,顾名思义,“数字孪生”技术就是在虚拟世界中复刻和模拟现实世界中的具体对象,比如,现实中的地理空间、人口等信息,可以通过大数据在虚拟世界中进行相应呈现(35)。这一技术现在也被广泛地应用到城市规划中(36)。但是,有学者发现,在城市规划过程中,大数据所产生的影响,对那些已经在现实生活中被边缘化的群体而言,可能并不见得都是积极的。对于那些低收入、无固定住所人群而言,他们获取数据的途径缺乏,并且,他们的存在状态在各种大数据或由此产生的“数字孪生”模型中也很难呈现出来(37)。从程序上讲,如果大数据的采集或者“数字孪生”的创建过程不能很好地考虑到那些被遮蔽的群体,无法实现既定目标,不尊重居民的数据权利,或者在发展中国家和地区对那些已经被边缘化的群体造成“二度伤害”、排斥(38),那么,其最终的成果也无法满足分配正义的要求(39)。

  我们之所以在这里提到“大数据鸿沟”及“数字素养”问题,乃是因为这涉及到一个数据源头的用户代表性问题,即所收集到的数据在多大程度上能够代表现实人口中的多样性和族群比例。不同的社会群体在数据中所获得的能见度和曝光度,是不是能够与现实中的实际情况相匹配。有研究表明,城市中那些被边缘化的群体,他们在数据权利上长期以来遭受一些不公正的待遇,一个最突出的问题就是在现实中他们被边缘化,然后到了虚拟世界,在数字呈现中,他们同样是被边缘化的,这两个边缘化之间是相互映射的关系。因此,尽管基于大数据的“数字孪生”技术被寄予了打造智慧城市的厚望,但是,虚拟世界中的技术或数据亦可能复制、模拟、映射现实世界中的各种不平等和不公平。从数据来讲,这些群体不可见或者能见度很低,不仅仅是因为这些群体所处的区域并未在数字地图上标注出来,同时,在以数据为基础的资产和服务之中,这些群体是集体失声的。比如,在印度的金奈市和浦那市,虽然有关被边缘化群体的数据会有各方利益相关者在收集(比如民间组织、学者、地方政府等),但是,这些数据并不能符合相应的数据标准,包括开放、完整、准确、相关、正确的呈现方式(40)。而且,这些数据即便被收集起来,收集者也会认为这些数据是自己的私有财产。因此,对于这些被收集的对象以及其他利益相关方,反而是看不到、无法获取这些数据。即便这些数据被开放出来供公众获取使用,很多时候,数据仅仅覆盖被边缘化人群所处区域的一部分,或者数据老化、未得到及时更新,还有一种情况就是数据并未电子化,而是以纸质记录的方式,分散在各个政府部门。这样一种状况直接导致政府部门在公共设施规划和维护上表现不佳,也无法提供有效的公共产品(41)。

  当然,这里的能见度和曝光度,除了被呈现的权利之外,其硬币的另一面也是与个体的隐私紧密勾连在一起。虽然个体获得了能见度和曝光度,但是,这样的能见度和曝光度是不是以个体喜闻乐见的方式来呈现?并且,这种能见度和曝光度要持续多长时间,以何种形式储存、访问和索引,所有这些问题都是与能见度、曝光度纠缠在一起的,它并非一个简单的赋权或者失去权利的问题。这就涉及到用户在数据集合中的呈现方式,也与数据在捕获过程中所经历的数据化过程勾连在一起。为此,我们将在下一节考察数据捕获过程中的相关议题。

  (二)捕获:“平台单一性”

  在确定了源头或者采集对象之后,大数据的采集就进入“数据捕获”(Data Capture)的环节。从定义上看,“数据捕获”主要是与“数据输入”(Data Entry)相区别,采用自动化的方式收集、抓取和获取信息,而不依赖人工的方式进行信息输入。在大数据时代,依靠人工的方式手动输入数据到某个信息处理系统之中,这样的方式既耗时又低效。因此,大数据时代的数据产生,基本上依赖于自动化的方式进行“数据捕获”,比如,通过智能或者便携设备收集用户在使用过程中所产生的信息,或者使用编程软件在互联网上依靠某种算法自动抓取、汇编信息,这些都是“数据捕获”的手段和方式(42)。

  在“数据捕获”的过程中,前文所讨论的“大数据鸿沟”会在用户的“数字素养”(Digital Literacy)上体现出来,即受访者所掌握的数字技能熟练程度,这种素养对于受访者使用智能设备或者某种应用软件的方式有显著影响(43)。数字技能更加熟练的群体,比起那些数字技能弱或者差的群体,就拥有了在数据呈现和代表这个维度更多的话语权。并且,除了这一由“大数据鸿沟”所带来的“素养差距”(Literacy Gap)之外,还存在一个“平台单一性”的问题,即如果大数据研究针对的只是某个软件应用、网站或者服务,那么,在这个研究里面所呈现出来的人员数据(行为、看法)就是某个时刻正在使用该应用、网站或者服务的那些人。取样的样本对象就是该应用、网站或者服务的使用者。如果某个用户并没有使用该应用、网站或者服务,那么,该用户就被排除在取样的样本对象范围之外,该用户的特征、行为、看法也就无法进入研究者的视野。如果我们取样的样本量很大,成千上万乃至上百万,因为体量巨大,我们会倾向于认为,对这些样本进行考察的研究发现就具备了一定的普遍化特性,在这些人身上所得出的研究发现,可以推广到社会上更加广泛的人群。但是,现实中的情况并非如此。光是数字并不代表着可推广性(44)。比如,年轻人更容易使用脸书,而且年轻人的政治倾向、行为、看法都会与年长的人有所差别。因此,我们假设有一项研究是针对脸书上群体的特定政治看法,那么,这种政治看法其实就很难推广到社会上更加广泛的人群,尤其是年龄偏大的人群,他们不但可能较少使用脸书,而且他们的政治倾向、行为、看法都可能与使用脸书的年轻人相差很大(45)。曾经有学者做了一项研究,在脸书上考察超过1500万个状态更新,探讨性格和词汇使用之间的关系。这个研究其实都是从那些使用了该应用——“My Personality”的人那里得出,而并不是从脸书里面随机抽样。这个研究会产生偏差的地方在于,研究者所选取的对象本身就已经对“性格”这一选项表现出浓厚的兴趣,使用了和性格相关的应用软件,这其实大大限制了这个研究推广到其他人群的有效性(46)。

  在“数据捕获”的过程中,也有可能出现的情况是我们过于关注某个应用软件或者平台,从而让我们忽略了人们通过其他渠道进行人际交往的可能性,比如其他的线上服务平台或者打电话。而且,单纯依靠单一平台,其实是假设人们在日常生活中基本上都是在使用这个平台,很少或者没有通过其他渠道进行人际交往,这个假设与实际情况可能存在较大差异(47)。使用某个应用软件,其实是具有很强烈的行为形塑功能,会带来不一样的结果和行为模式。某个特定的社交软件或者网站,人们对其进行使用并不是随机的,而是与人口学、社会经济背景有关联(48),而且,“数字素养”、“数字技能”同样也是与人口学、社会经济背景相关(49)。因此,不同的社交软件、服务或者网站吸引了不同的用户人群,针对某一特定社交软件、服务或者网站用户而进行的研究发现,就很难被推广到其他社交软件、服务或者网站用户身上。

  “数据捕获”其实还涉及到国家运用公权力进行社会控制这一层面,这就涉及到一个问题,即不同的人群是以何种形式被变成“数据”。这个将不同用户群体进行“数据化”的过程涉及到“可读性”(Legibility)概念。在斯科特看来,国家会通过一系列的技术、测量、绘图等手段,让公民和社会变得“可读”,运用标准化的方法,对公民进行征税、征兵、防止动乱,就好比一个养蜂人,通过特定的布局和技术安排,让蜂巢变得井井有条、便于管理,从这个意义上讲,蜂巢之于养蜂人,正如社会之于国家,其都是通过一系列的手段,让前者能够被后者“读取”和“理解”,以便实施管理和控制(50)。多诺万将这一概念应用于大数据的研究,他指出,“可读性”打破了公民自身对数据和知识的控制,国家对公民和社会搜集大数据,有可能会用于强化自己的行政控制。这一点对于社会中被边缘化的群体而言,尤其如此。本来,被边缘化群体自身会发展出一套自洽的理解、知识体系,这样的体系对这些群体而言是赋权、有价值的,但是,国家权力干预进来,这可能对地方社群所具备的地方性知识和力量构成挑战和破坏。因此,“可读性”所可能带来的一个隐患就是控制权的丧失(51)。多诺万以肯尼亚内罗毕市区的基贝拉贫民窟为例,讨论当地被边缘化群体是如何抗拒国家对他们进行“可读化”的“数据捕获”。在基贝拉,有些机构(学校或者药店)不愿意在地图上被呈现出来,他们担心自己会遭遇“见光死”,即数据上的能见度带来国家的强势干预,而干预的结果就是他们被关闭,因为这些机构本身就是非正式的存在,并未履行相关的手续、登记程序,但是却实实在在地为地方社群提供不可或缺的公共产品(52)。无独有偶,同样的场景也发生在印度的金奈市,一些地方社群拒绝参与数据收集过程,他们觉得通过数据收集让大家都关注到自己的存在,反而弊大于利,因为别人一下子就会看到他们是“非正规”的存在,如果因为数据收集而“暴露在国家的视野中”,那就得不偿失了,很有可能会带来被驱逐、关停的风险。为了解决这个问题,一些非政府组织在印度金奈市收集那些编外、没有登记在案的捡垃圾者的时候,就会在数据上稍作处理,不提供这些人的地点或者法律身份,以便保护这些人免受国家行为的强势干预(53)。

  通过对“数据源头”和“数据捕获”这两方面的考察,我们可以看到,上述的研究指向了数据收集过程中的一个重要伦理维度,即数据收集可能会忽视、甚至强化已有的不平等和不正义。在城市规划的过程中,如果运用大数据来建造空间和建筑物,有可能会复制城市空间中已有的不平等。数据的采集和整理都有可能复制甚至增加现有的社会鸿沟,而不是弱化或者降低。而且,现在的城市规划用到了很多自动化的设备和联网的计算器,它们采集和整理大量的数据,我们在拿到这些源数据之后,有必要检视其中所隐藏的那些协议和技术偏好,尤其是算法按照什么样的规则进行分门别类和数据管理。因此,我们在检视大数据的过程中,有必要将技术的结构与现有的社会结构放在一起,进行比对和相互印证,看技术结构是否与社会结构相重叠,并且复制、强化了已有或者历史存留的不平等、不公正现象(54)。

转载来源:中国社会科学网

未经允许不得转载:思问哲学网 » 算法不正义与大数据伦理

分享到: 生成海报