返回上一页 文章阅读 登录

贾开:人工智能与算法治理研究

更新时间:2019-01-30 12:11:07
作者: 贾开  

  

   摘要:伴随着人类社会数字化程度的不断提升,算法已经成为影响世界运行的基础性规则。以机器学习算法为代表的第三次人工智能浪潮的兴起,更是突破了“波兰尼悖论”所揭示的人类表达能力的局限,使得算法实现了自我生产,通过基于大数据集的自我学习过程形成规则集并应用于不同场景下的感知和决策。算法性能的提升及其应用的普及在极大提高人类社会运行效率的同时,也带来了新的治理风险与挑战,相关议题集中表现为不可解释隐忧、自我强化困境与主体性难题三个方面。在对算法基本原理进行梳理并对其可能引发的治理议题进行合理评估的基础上,本文提出推进认知教育、促成算法伦理、区分政策优先级三方面政策建议,以形成兼顾发展与规制、且不超越当前及未来技术发展可能性的政策创新进路。

  

   2017年9月,《人民日报》连发三篇评论,对基于算法而向用户自动推荐个性化内容的互联网业态提出了批评。为吸引“眼球经济”而导致所推荐内容的低俗性、虚假性,片面强化用户偏见与喜好而使得整个社会可能陷入“信息茧房”的极端性,一味迎合用户而使得智能平台走向媚俗化并最终可能阻碍创新的危险性,共同构成了对于当前正蓬勃发展的算法推荐相关业态的深刻反思。[1]事实上,不仅仅是算法推荐,我们日益生活在一个“算法社会”之中。[2]搜索引擎对于用户搜索内容的排序算法,商业银行对于贷款申请者的还款风险评估算法,机场车站对于大规模人群的特征识别算法,都是已经被普遍使用并深刻影响我们日常生活的典型案例。

  

   由此引发的问题在于,对于伴随技术发展而出现的新业态,《人民日报》的警示性评论是否预示着算法在极大提高人类社会运行效率的同时,也会带来普遍性的治理挑战?若如此,考虑到算法及相关业态本身的复杂性,我们又该如何推进治理机制的创新以应对这种变化,尤其是如何通过公共政策框架的重构以平衡发展与规制的二元关系?本文将围绕上述问题展开分析,探索性地提出算法治理的三个基本问题。本文将指出,在数字化进程不断加深且网络空间与现实空间深度融合的时代背景下,我们需要充分认识到算法治理的重要性;另一方面,基于对算法基本原理及其应用场景的总结性分析,我们应该对新技术和新业态带来的治理挑战形成不超越其现有发展水平及未来发展可能性的合理评估,进而在此基础上有针对性地提出算法治理的公共政策创新进路。

  

   从上个世纪中期计算机和互联网的发明以来,以计算机程序代码为载体的“算法”便开始涉入并影响人类生活。在上个世纪末,哈佛大学法学院莱辛格教授即注意到了算法作为人类社会运行规则的基础性作用,并提出了“代码即法律(Code is Law)”的经典论断。[3]自此以后,旨在讨论算法形成、应用及影响的算法治理研究便逐渐成为学者关注的焦点。在继承已有研究的基础上,本文更多关注人工智能背景下的算法治理问题。本文将指出,以机器学习算法为代表的第三次人工智能发展浪潮下,算法的生产过程发生了本质变化;这一变化不仅意味着算法应用能力的提升和应用范围的普及,更意味着算法对于人类社会影响的扩大以及相应治理挑战的凸显。

  

一、人工智能背景下的算法治理:转变及其意义


   虽然“算法”这一概念在现实生活中耳熟能详,但其定义在学界却并没有形成高度共识。狭义的理解认为算法是特殊的决策技术[4],而广义的理解往往将算法视为建构社会秩序的理性模型[5],更聚焦的研究则对算法进行分类并特别关注“与公共利益相关的算法”。[6]不同理解的差异源于“算法”本身在事实上的模糊性与复杂性。一方面,算法被认为无处不在,其在不同场景下管理、分类、约束乃至决定整个社会的运行;但另一方面,算法却往往被描述为高深莫测或难以捉摸,我们并不能明确界定一个实体对象或工作流程来解释算法的运行。在佐治亚理工学院教授伯格斯特看来,算法就像“黑洞”,我们能清晰感受到它的影响但却并不能对其内部一窥究竟。[7]正因为此,试图对算法做出一般性的定义不仅困难,也是一个不可能完成的任务;而不同学科按照各自的理解与兴趣对算法的不同侧面展开研究则可能是更为实际的途径。计算机科学关注算法的模型与构成,社会学将算法视为设计者与技术参数互动过程的产物,法学聚焦算法作为法律原则外化的符号或代表的作用,而哲学路径则强调算法的伦理性质。[8]沿袭这一思想,本文从公共管理学科视角出发,重点关注算法影响社会运行的规则属性,并试图从规则的形成与应用出发,探究算法影响社会运行的机制与过程,并在此基础上提出算法治理公共政策创新的建议与思路。在此视域下,算法治理的对象将不仅聚焦作为其载体和结果的计算机代码,而同时包含影响这一载体和结果形成的所有相关因素,尤其是人工智能第三次浪潮背景下大数据的影响。

  

   就算法的规则属性来看,莱辛格教授提出的“代码即法律”无疑是研究的起点,不过其在十余年前对于该论断的解释并不足以完全回应算法治理在当前所面临的挑战。在莱辛格教授看来,“代码即法律”的意义在于回应了网络自由主义者对于“网络乌托邦”的想象,指出网络空间虽然能够避免政府干涉,但其却被置于市场主体这只“看不见的手”的完美控制之下,而后者正是通过算法来塑造网络空间的运行规则并进而对人类社会产生影响。[9]莱辛格教授的洞察开启了社会科学对于算法的研究兴趣,不过伴随着技术演化与业态发展的进程,算法本身的生产过程,及其对于人类社会的影响机制与结果都发生了巨大变化。就前者而言,在以机器学习为代表的第三次人工智能浪潮兴起的背景下,算法不再仅由商业公司(甚至不由人类)所生产并控制,算法的自我生产能力决定了其作为“规则”的复杂性;就后者而言,网络空间与现实空间的不断融合使得线上线下的边界逐渐模糊,原本局限于网络空间的算法规则开始对现实空间产生越来越多的影响。

  

   上述两方面转变的重要性可从“波兰尼悖论”中得到更清晰的体现。迈克-波兰尼曾指出,“人类知道的远比其能表达出来的更多”。[10]事实上,我们虽然能很容易记住一张面孔、辨别一个声音,但却并不能很好地阐述或解释我们为什么可以实现这一功能。在第三次人工智能浪潮兴起之前,传统算法的生产过程实际上就是人类表达自身的过程。对于传统算法而言,其往往需要设计者明确某项工作的实现流程并事无巨细地规定好计算机在给定条件下的给定动作。“波兰尼悖论”在指出人类表达能力缺陷的同时,也指出了传统算法生产过程的局限。但以机器学习为代表的第三次人工智能浪潮的兴起,则突破了“波兰尼悖论”的束缚,机器学习算法可以通过基于大数据的自我训练、自我学习过程完成参数调整与模型构建,也即完成算法的自我生产过程。尽管人类仍然参与其中,但机器学习算法已然摆脱了需要依赖人类表达能力的局限,从而极大地提升了算法能力并扩展了其应用范围。

  

   网景公司创始人马克-安德森2011年曾在《华尔街日报》上发表文章,描述了各个产业朝向数字化转型且其生产与服务过程被广泛嵌入软件的趋势,他将这一变化称之为“软件正在吞噬世界”。机器学习算法对于“波兰尼悖论”的突破,将加速这一进程的发生,最终使得“软件吞噬世界”成为更快到来的现实。算法作为社会运行的基础规则将由此扮演更为重要的作用,而因此出现的新的治理挑战也将成为重要的公共议题,算法治理研究在此背景下才凸显其时代意义。需要指出的是,虽然机器学习算法突破了“波兰尼悖论”,这并不代表我们就进入了所谓的“强人工智能时代”,也不代表算法就可以替代人类社会运行的所有规则并完成各项社会功能。事实上,机器学习算法的实现原理决定了其适用环境的局限性。

  

二、算法作为规则:原理及其应用


   尽管从不同角度出发可以对“算法”做出不同定义,但算法的基本功能则在于塑造了网络空间的行为规则,在允许某些人类行为的同时也限制了其他行为的实现。伴随着网络空间和现实空间融合程度的不断加深,算法作为网络空间行为规则的影响也逐渐延伸至现实空间,开始对后者的既有秩序产生冲击。

  

   在制度主义的理论框架下,规则包括正式规则和非正式规则,前者一般指代被清晰表述的成文规则,而后者则包含为既定范围社会成员所共识的价值信念、风俗习惯、文化传统等非成文规则。尽管从实现方式上看,算法都是以“成文”形式体现为计算机代码,但这并不代表所有算法都理所当然地应被视为“正式规则”;事实上,如果从规则对人类行为产生影响的机制与过程来讲,算法仍然可被划分为正式与非正式两类。前者具有明确的可解释逻辑,人类能够理解算法规则的内容并知道其是如何做出影响人类行为的决策或形成产出的;相比之下,后者不具有可解释性,无论是算法的生产者、使用者或受影响者,其都不能明确解释算法做出某种特定决策的原因与过程。如果回到“波兰尼悖论”的分析框架,传统算法可以被视为具有正式规则属性,而第三次人工智能浪潮背景下的机器学习算法则更类似于非正式规则。

  

   算法作为规则的不同属性源自其不同的实现原理。具有正式规则属性的传统算法多是建立在人类清晰界定议题、明确实现流程的基础上,并最终转化为可被计算机识别并自动执行的数字代码;相比之下,更类似于非正式规则的机器学习算法并不依赖人类的理解与分析能力,而是通过算法的自我训练、自我学习过程调整参数与权重以最终实现既定目标。后者的基本原理大致可分为标注、训练、应用三个阶段。[11]

  

   “标注”是机器学习算法的准备阶段,其目的是形成可供算法进行学习或训练的大数据集。无论是通过人工识别并标记的方式,还是基于传感器或物联网而自动生成的方式,“标注”将特定的人类知识与语音、图像、视频等可被计算机进行处理的数字材料联系起来。“训练”则是机器学习算法的自我调整、自我生产阶段。在既定目标(比如图像识别算法中的识别准确率)的引导下,算法对“标注”后的大数据集进行不同方式的处理,并最终形成由该大数据集若干共性特征所组成的规则集。这一规则集的形成过程是建立在反馈迭代的自动调整基础上。换言之,如果依据当前规则集而形成的输出结果不满足预先设定的目标,则算法将根据一定边界条件对规则集进行调整——正是在此意义上,机器学习算法突破了对于人类程序员的依赖而实现了自我生产。另一方面,该规则集所包含的共性特征不仅可能数量巨大,且往往不能被转换为可为人所理解的自然语言,而这便是导致机器学习算法不可解释性的原因所在。“训练”结束后所形成的规则集,便成为指导机器学习算法应用于不同场景下的标准与原则。事实上,“标注”、“训练”与“应用”是紧密联系的统一整体,“应用”过程形成的输出同时可作为新的数据来源反馈至“标注”阶段的数据集并指导“训练”阶段对于规则集的调整。

  

需要指出的是,机器学习算法存在多种实现路径,“标注-训练-应用”的三阶段过程更多属于“监督学习”这个分支,而不需要依赖数据集标注的“非监督学习”也正在得到越来越多的关注。(点击此处阅读下一页)

本文责编:limei
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/114860.html
文章来源:《中国行政管理》2019年第1期
收藏