返回上一页 文章阅读 登录

张耀铭:人工智能驱动的人文社会科学研究转型

更新时间:2020-07-30 15:46:29
作者: 张耀铭  

   作者简介:张耀铭,《新华文摘》杂志社编审,主要从事社会科学理论研究(北京 100706)

   原发信息:《济南大学学报:社会科学版》2019年第20194期 第20-28页

   内容提要:由人工智能引领的新一轮科技革命和产业变革方兴未艾,未来必将驱动中国的经济转型、教育转型、社会转型、文化转型,当然人文社会科学也不例外。新技术的应用和新方法的普及,使人文社会科学研究出现了一些新的时代特征。一是智能学术引擎开启文献检索新视野,二是大数据重构人文社会科学研究新范式,三是“学科融合”引领人文社会科学研究新探索,四是“人机协作”创造人文社会科学研究新场景。凭借大数据获取和超级算法的模式正在颠覆“凭借经验和直觉”的模式,这将促使大部分人文社会科学走向具有自然科学的特征,“科学性”显著增强。当然,人工智能带来的机遇与挑战并存。面对未来,如果不想成为恐龙,我们必须变得极其开放,拥抱转型,接受变革,深度融合。

   关键词:人工智能/大数据/人文社会科学/转型

  

   根据中国人工智能学会与罗兰贝格联合发布的《中国人工智能创新应用白皮书》报告,人工智能的定义是利用计算机模拟人类智能行为的统称,它涵盖了训练计算机使其能够完成自主学习、判断、决策等人类行为的范畴。人工智能奔跑的天梯是由移动互联网和大数据等新技术搭建的。万物互联后的大数据信息流,“除了会改变知识的产生过程和成本,还会颠覆知识传输的速度。正因如此,人工智能的力量得以爆发。”①人工智能与大数据之间的关系非常紧密,它们似乎就是天生的一对搭档。大数据作为一种“新能源”,推动着人工智能不断扩展所向披靡,至今已涉及计算机视觉、自然语言处理、语音识别、图像识别、机器学习、智能机器人和无人驾驶汽车等领域。

   人工智能不仅是一次技术层面的革命,未来必将驱动中国的经济转型、社会转型、教育转型和文化转型,当然人文社会科学也不例外。在社会科学研究领域,推动转型的重要因素是海量数据,这将促使“小数据辅助”研究传统向“大数据发现”研究范式转换,运用“数据发现逻辑”,分析和解构知识,“寻找隐藏在数据中的模式、趋势和相关性,揭示社会现象与社会发展规律。”②在人文科学研究领域,“人文计算的数据思维与计算方法为人文科学研究引入了新的思维模式,拓展了传统人文科学的研究样式,开阔了传统人文科学的研究视界与运用场景。”③显然,凭借大数据获取和超级算法的模式正在颠覆“凭借经验和直觉”的模式,这将促使“大部分人文社会科学走向具有自然科学的特征”,“科学性”显著增强④。

   一、智能学术引擎开启文献搜索新视野

   自2004年11月Google发布谷歌学术,科研工作者便站在了巨人的肩膀上,改变了以往的学术文献检索方式。学术搜索大体分为两类:一类是搜索引擎公司开发的,如谷歌学术、必应学术、百度学术、搜狗学术和360学术等;另一类是专业资源提供商开发的学术搜索,如中国知网、万方、读秀和百链搜索等。学术搜索具有“统一的检索平台;涵盖学术研究的各类型资源;一站式获取结果,提供全文或线索;结果按需排列或输出,能进行二次应用;能进行知识发现与分析”等特点。⑤但这些传统的学术搜索引擎,面对每年全球发表超过250万篇科学论文海量的数字化信息,不仅存在速度慢、信息过载、准确率低等缺陷,更无法像人类一样理解文献的内容。随着人工智能逐步应用于学术搜索,基于网络爬虫的智能化信息抓取、基于语义技术的用户意图自动识别,以及个性化搜索与信息推送,为人文社会科学带来了巨大的好处,尤其是它极大地拓展了我们获取文献资源与统计数据的渠道,也使得对海量文献的检索和利用大为便利。也正是在互联网平台上出现的文献资源与统计数据的共享性,为改变人文社会科学研究的方式和性质埋下了伏笔。李剑鸣教授认为,“过去一些机构和个人借助资料便利而取得的学术优势,可能遭到削弱,甚至颠覆。那些原来远离资料与信息中心的人,现在也能接触和利用同样的资料,于是就可能从原来的知识的接受者变成知识的生产者。”⑥

   人工智能与学术引擎深度融合,在学科渗透性、内容多样性、搜索便捷性、结果准确性等方面大幅度提升了用户搜索体验。2015年11月,美国艾伦人工智能研究所发布人工智能学术搜索引擎(Semantic Scholar)。这款学术搜索引擎,利用“机器阅读”技术从文本中挑选出最重要的关键词和短语,可以判断论文所论述的主题;从论文中提取的图表,可以帮助用户快速理解论文的内容;从论文引用文献中的被引次数、每次被引时的位置及上下文背景等“高影响力引用次数”,评价引用的价值和论文的学术影响力。美国微软公司2016年5月发布的微软学术(Microsoft Academic),是一个支持访问超过1.6亿篇学术论文的智能搜索引擎,可以识别作者、论文、期刊或研究领域。“它通过递归算法(免费提供)来判断:根据论文被其他重要论文的引用频次来判断其重要性,据此得出每个分支学科中最具影响力的科学家和出版物的排行榜,并每日更新排行榜。微软学术在实体之间建立有意义的关联,并自动生成可视化的知识图谱,引导学者阅读。”⑦百度学术新推出了一项特色功能“开题分析”,用户只需要输入自己拟写的论文题目和关键词,就可以搜索到相关领域已有成果的统计分析。如以“发现系统”为关键词进行开题分析,就会显示研究走势、关联研究、学科渗透、相关学者和相关机构的情况。“并且还将已有文献做了‘经典论文’‘最新发表’‘综述论文’和‘学位论文’四种类型区分,满足不同的文献需求。”⑧

   总之,智能学术引擎开启了人文社会科学文献搜索的新视野,可以更好地理解用户需求,给用户更直接的答案,并以一种更便捷、更专业、更友好的方式呈现;用户也可以随时随地获取数据、传递数据,了解和追踪人文社会科学研究中的新动向。

   二、大数据重构人文社会科学研究新范式

   2007年1月,美国计算机科学家、图灵奖获得者吉姆·格雷(Jim Gray)在加州山景城召开的学术会议上宣称:“科学世界发生了变化,对此毫无疑问。新的研究方式是通过仪器捕获数据或通过计算机模拟生成数据,然后用软件进行处理,并且将所得到的信息或知识存储在计算机中。科学家们只是在这个系列过程中的最后阶段才开始审视他们的数据。这种数据密集型科学的技术和方法是如此不同,因此值得将数据密集型科学与计算科学区分开来,作为科学探索的新的第四范式。”⑨吉姆·格雷认为人类科学研究经历了四种范式:第一范式为实验科学,以观察和实验描述自然规律;第二范式为理论科学,使用模型或归纳法进行研究;第三范式为计算科学,通过计算机对科学实验进行模拟仿真研究;第四范式为数据密集型科学,利用超级计算能力直接分析海量数据发现相关关系和新的知识。2009年10月微软公司出版The Fourth Paradigm,Data-Intensive Scientific Discovery论文集,吉姆·格雷的演讲《论eScience:科学方法的一次革命》作为开篇,并邀请国际著名科学家对“数据密集型科学”的理念、模式、应用和影响进行了深入研究。此后,关于“第四范式”的提法被广泛引用。不过,吉姆·格雷的四种研究范式主要是基于自然科学的发展历史而言的。在人文社会科学领域,研究范式的演化与吉姆·格雷总结的有所不同。国内有学者概括:第一研究范式,社会科学的定性分析;第二研究范式,社会科学的定量研究;第三研究范式,社会科学的计算实验的仿真研究;第四研究范式,基于数据科学的大数据研究。⑩

   自21世纪以来,大数据和人工智能技术取得重大进展,成为一种新型认识工具和影响人类社会生活的有力手段。何为大数据?2015年国务院印发的《促进大数据发展行动纲要》指出:“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合。”大数据有多方面的来源:一是来自政府的总体数据,二是来自企业公司的销售交易数据,三是来自文献数据库的专业数据,四是来自互联网与新浪微博的社交数据。任何零散的数据一旦连接形成大数据,便会威力无穷。正如维克托·迈尔·舍恩伯格在《大数据时代》所说:“大数据绝不会叫嚣‘理论已死’,但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆,很多旧有的制度将面临挑战。”(11)大数据驱动的人文社会科学研究对象,是“全样本”的海量数据。与传统研究通过问卷调查采集到的“个别样本”不同,现在的研究者可以借助大数据与人工智能等新技术获得长时间的、连续的、大量人群的各种行为记录甚至情感偏好。这些数据包括属性数据、行为数据和时空数据,不仅为人文社会科学研究提供了更加坚实的基础,而且正在推动研究范式的转变。

   第一,由“样本→总体”进化到“样本=总体”。

   传统的社会科学研究,尤其是在统计学研究中,有个非常著名的准则是使用样本来推断总体。这是在不可收集和分析全部数据的情况下捷径选择,随机采样的最大优点是根据样本推论总体时,可用概率的方式客观地测量推论值的可靠程度,从而使这种推论建立在比较科学的基础上。正因为如此,随机抽样在社会调查和社会科学研究中采用比较广泛,甚至应用于公共部门和商业领域。但是随机采集样本也存在许多固有的缺陷,首先采集到的永远是个别样本信息,即使最大比例的样本也不可能穷尽对象,因此所有的结论都带有推论性质。其次对于复杂的总体,样本的代表性难以保证。再次采样的随机性一旦存在任何偏见,分析结果就会相去甚远。

   大数据的出现,使“样本→总体”进化到“样本=总体”。采集“全样本”,提供全数据,不仅解决了随机采样带来的样本代表性问题和因数据缺失造成的变量遗漏,而且为社会科学研究提供了“全景式”的新视野和新方法。在政治研究领域,大数据和人工智能技术已经被应用到美国的国会政治和总统大选。华盛顿K街的游说集团通过大数据,可以仔细分析各个议员的投票历史、政治捐款行业分布、所有选举数据,基本能预测议员的投票情况。大数据技术的兴起,为美国总统大选提供了大量的宝贵信息,比如网络媒体中民众政治意见的表达、政治信息的传播与获取、社会动员与社会网络联络,选举动员、竞选宣传、选民投票、社会运动与群体行为的产生和发展,以及政府与民众的互动、公共政策的制定等(12)。2016年11月,英国政治数据分析公司——剑桥分析公司以不正当方式获取了5000万脸书用户的个人信息,通过对选民心理进行大规模的分析评估以及大规模的行为干预,成功助选特朗普当选美国总统。大数据因其“全数据”“大背景”和时空跨度等优势,使得社会科学研究者得以重新审视和研究经典理论和宏大叙事成为可能。大数据正在宏观经济数据挖掘、宏观经济预测、宏观经济分析技术、宏观经济政策等领域大显身手。面对这样的场景,国内已有学者提出了“大数据经济学”概念(13)。

   第二,由“模型驱动”到“数据驱动”。

   传统社会科学研究,特别强调模型驱动。首先,选定模型的组成变量并提出基本假设;其次,设置模型的模拟与求解;再次,收集数据实证检验并得出分析结论。模型驱动的优点是直观、简洁,具有理论吸引力。但其缺点是在有限的范围内,通过有限的参数、有限的变量,在做“小概率”的实证分析。“现实中很多这样的实证分析纯粹是为了凑合假设。而一旦模型假设本身不科学、不符合实际,模型的分析结论也就失去了意义,甚至可能会扭曲事实真相。”(14)

数据驱动是通过移动互联网或者其他的相关软件为手段,对海量数据收集、整理、提炼并总结出一套规律。这是一种自下而上的知识发现过程,是在没有理论假设的前提下去预知社会和洞察学术趋势。其中,“精细的概率模型、统计推理、数据挖掘与机器学习相结合,成为大数据中提取知识的有力途径。”(15)以社会学为例,(点击此处阅读下一页)

本文责编:陈冬冬
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/122307.html
收藏