返回上一页 文章阅读 登录

张耀铭:数字人文的张力与困境——兼论“数字”内涵

更新时间:2021-01-21 15:54:26
作者: 张耀铭 (进入专栏)  
开始领导、组织和资助美国数字图书馆的研究和开发工作。1995年,国会图书馆协同15家主要图书馆组建了“国家数字图书馆联盟”,意图在互联网上建立分布式的开放图书馆,动态地保存美国的历史和文化遗产。2004年谷歌发布了一个野心勃勃的计划,试图把所有版权条例允许的书本文献进行数字化。为此谷歌与密歇根大学图书馆、哈佛大学图书馆、斯坦福大学图书馆、牛津大学图书馆等达成交易,并发明了一个能自动翻页的扫描仪开始工作。在短短几年的时间里, 共扫描了大约2 500万本图书,使印刷文本上的内容变成了网络上的数据化文本,供用户通过搜索引擎查询和进行文本分析。然而谷歌的“网上图书馆”因涉嫌侵权被美国出版商和美国作家协会告上法庭。官司虽旷日持久,但谷歌因“合理使用原则”成为最终的胜利者。这仿佛是一剂猛药,令美国知识界以及更广泛的社会领域人士兴奋,并展开双臂呼唤数字化浪潮的到来。美国数字公共图书馆(DPLA)捷足先登,将美国图书馆、博物馆和档案馆的人文资料及相关资源进行数字化和网络化开发,并于2013年4月上线,免费提供给世界用户。美国各大学采用跨学科的方法,将专业知识与数据集结合起来,相继建立了大量的人文主题网站、专题数据库,从长远考虑以数据化形式储存、保护、开发手中的资源。一些非盈利组织也有计划地从事原生数字资源存档、互联网存档,开始布局数字化时代知识共享与大众化普及行动。各类基金会加大资助不同主题领域、研究方向数字化项目的力度,成为研究基础设施的重要推动力量。与此同时,英国、法国、俄罗斯、澳大利亚等国家的数字化建设也如火如荼,成为国家信息化建设的重要组成部分。

   我国的数字化建设虽然起步较晚,但投入和提速较快,不仅培育了若干个数字化科技巨头,而且为各行各业进入“数字世界”、共建命运共同体创造了良好的生态环境。以数字图书馆为例,1997年7月,“中国试验型数字图书馆项目”立项,1998年以后数字图书馆在我国开始升温。“中国数字图书馆示范工程”“中国试验型数字图书馆”“教育部数字图书馆攻关计划”、中国高等教育文献保障体系(CALLS)、国家科技图书文献中心(NSTL)、国家科学数字图书馆(CSDL)相继启动,“国家图书馆文献数字化中心”、数字图书馆研究所相继成立,中国数字图书馆、中国知网、超星数字图书馆、上海数字图书馆、华东师范大学数字图书馆等相继运营与完善,进一步推动了我国数字图书馆的研究与建设工作。2008年全国图书馆标准化技术委员会成立, 围绕数字图书馆建设制订了一批相应的国家标准、行业标准。2012年《全国图书馆标准化工作“十二五”规划纲要》,将“数字图书馆”列为第一个重点领域。麦肯锡全球研究院发布的“中国行业数字化指数”显示,中国与美国之间相对应行业的数字化程度差距正在迅速缩小。2013 年,美国的数字化程度是中国的 4.9 倍,到 2016 年已缩小到 3.7 倍。在零售业和娱乐业,中国的数字化程度已明显高于欧盟和美国[14]。数量可观的年轻网民,体量庞大的数字化市场,源源不断的海量数据,不断扩张的数字化生态系统,构成了数字人文研究的生机和命脉。

   (二)数据库改变了学术

   数字化只是转换了传统文献资料原先的存在方式,能够让计算机存储、处理和展示,在没有被数据化之前,本身不具有数据维度上的意义。真正能够改变传统文献资料利用方式的是数据化,数据化是将电子形态的文献数据结构化,按照一定数据格式构建成适用于可制表分析的量化形式。其意义在于,让数据从静态的“原矿状态”,变为动态的可分析数据资源。

   从数字化走向数据库进而走向平台化,是未来的发展方向。数据库按照数据结构来组织、存储和管理,既是一个长期储存于计算机中的有组织、可共享的、统一管理的数据集合,也是一个应用领域的通用数据处理系统。不同的用户可以按各自的需求使用数据库中的数据,多个用户可以同时共享数据库中的数据资源。数据库的类型大体有层次数据库、网状数据库、数字化文献资源库、关系型结构化数据库等。结构化数据库的数据之间可以任意重组关联,形成新知识,发现新问题,已经成为目前数字人文研究中最重要的平台。2008年,美国人文学科国家基金会推出“数字人文行动计划”,并成立了专门的数字人文办公室,推动各种类型数字人文项目的规划和实施。由此,使“数字人文”这个幽灵得以在美国和世界各国自由倘佯。近十年来,数字人文研究机构如雨后春笋般涌现,全球多个国家相继成立了数字人文研究学会和数字人文中心。数字人文中心主要分为两大类:一是以大学院系为主体成立的数字人文中心,主要依托文学、历史、艺术、考古与计算机等学科,有专职的专家与技术人员队伍,呈现出专业学术研究的特征。比如建立数字馆藏作为学术或教学资源,开展人文科学和人文计算研究,举办与专业领域相关的讲座、工作坊、会议,编辑出版专业书籍、期刊、会议报告以及博客等形式的研究成果,招收和培养研究生等。二是以大学图书馆为主体建立的数字人文中心,相当于各类数字人文项目的“孵化器”。这类中心多数定位于“跨学科协同创新服务机构”,通过具体的项目将不同学科的研究力量整合在一起,并为项目的运行提供必要的技术和管理服务。因此,这类中心集多种职能于一身:一是公共数据中心,通过数字化技术采集必要的信息资源,实现集成存储;二是技术支持中心,形成人文科学专家、计算科学专家与技术人员协同创新格局;三是在线服务中心,通过数字人文项目链接提供深层次信息服务;四是协同管理中心,围绕数字人文项目建设实现人力资源的合理配置;五是教育培训活动,强化社会大众的数字人文意识和相关工作技能[15]。截至2019年4月20日,数字人文合作组织“数字人文中心网络” (Center Net)收录的数字人文中心已达201个。据统计,数字人文中心约一半在美国,而这其中又有约一半设在图书馆,另有约四分之一和图书馆有某种程度的合作关系[16]。可见在数字人文基础设施建设中,图书馆的作用不容忽视。

   在欧美国家,大学、图书馆、数字人文中心、有影响力的学术期刊、商业公司和有能力的学者个人通常是数据库和平台的构建主体。欧美国家与中国文化有关的数字人文研究项目,具有范式意义的有三个:(1)中国历代人物传记数据库(CBDB),该项目由美国哈佛大学东亚语言与文明系与北京大学中国古代史研究中心和台湾“中研院”历史语言研究所合作,由包弼德教授主持。这是目前世界上最大的中国历史人物传记资料分析数据库,功能强大,支持各种各样的查询,包括人物入仕途径、官职查询、社会关系网络等,实现了数据、平台、方法论与工具的有机整合。“这样的数据库为研究者提供了一种新的方式,基于大量数据来思考人类的过去和历史。”[17]但系统过于专业复杂,也会给普通用户的使用带来不便。(2)中国历史地理信息系统(CHGIS),由复旦大学历史地理研究中心与美国哈佛大学东亚系、哈佛燕京学社、澳大利亚格里菲斯大学亚洲空间数据中心等机构合作,由包弼德主持。项目将中国历史地名和历史地图矢量化,并且以关系型数据库的方式记录地名的层级、沿革信息及可视化的展示,试图建立一套可靠、开放的基础地理信息数据库。(3)古籍半自动标记平台(MAR KUS),由荷兰莱顿大学魏希德教授与何浩洋博士设计开发,是一个纯线上文本标记工具。该平台自身没有数据,但可利用中国历代人物传记数据库及其他数据库,使用者可以为文本标记出人名、地名、年号、职官等关键词。这些经过标记的文本导入数据库后,会成为其他数字人文学者进行统计分析的数据来源。

   近十几年来,我国各个领域、各个方向统建、自建、共建的人文社科专题数据库不断涌现,但各自为政,条块分割,鱼龙混杂,参差不齐。性能比较优化的也有三个代表:(1)台湾大学DocuSKY数位人文学术研究平台,由项洁教授主持。这是台湾大学数位人文研究中心与资讯工程学系开发的平台,2018年新版页面正式上线。DocuSky提供研究者在平台中上传自己从各种不同渠道搜集来的文本资料,并且运用各式各样的新颖工具,进行文本格式转换,建置数字资料库,支持用户对自己的数据进行个性化探索,从多元的视角挖掘潜藏于资料中的议题线索及脉络。(2)《唐宋文学编年地图平台》,由中南民族大学王兆鹏教授主持开发,2017年3月上线。目前上传的唐宋诗人行迹数据已近500条,地图融时间、地点、人物、事件、作品为一体,将诗人的编年事迹和编年作品转化为关系型结构化数据,诗人一生活动轨迹都能可视化。这种支持多元素呈现的模式,不仅强化了文学史的空间维度,更改变了文学地理空间的认知方式。(3)学术地图发布平台,由浙江大学徐永明教授主持开发。自2018年3月上线以来,已发布300余幅数据地图、600多个图层、40余万条数据,涉及地学、农学、健康、环境、交通、气候气象及人文等各个领域,力求从空间维度展示中国人文与历史。

   数据库已经成为一种新的文本形式,一种新的数字媒介,正在改变着学者阅读与检索、分析与研究、写作与传播的方式。从这个意义上讲,说数据库改变了学术也不为过。但我们在使用、依赖这些性能各异的数据库和平台的同时,也对伴随的挑战充满了焦虑。第一,数据库不断扩张,重复无序,各自为阵,壁垒森严。各个数据库之间,缺乏统一的标准, 互不支持,互不买账, 这与数字人文开放、多元、协作的学术氛围格格不入。第二,部分专题数据库数据不完整、数据更新慢、数据冗余、数据共享不给力,已经成为“僵尸库”和“负面标签”,亟待升级转化为关系型结构化数据库。第三,部分大型数据库出版商,通过垄断学术资源数字出版权而在市场竞争中取得了极强的优势。他们把带有公益性性质的数字学术资源进行纯商业化运作,并且采取差别定价、不断涨价、不公平高价的做法,不仅损害了消费者的合法权益,而且也使学者(也是作者)们深感切肤之痛。

   三、从思辨式方法到数据驱动范式

   人文学科传统研究是一种思辨式的研究方法,即“先预设问题,然后收集及整理相关材料,通过对材料的思辨和诠释而形成成果。”[18]然而,这种方法过度依赖已有的研究成果与研究者的经验性、直觉性,易导致知识发现陷入“路径依赖”和“个性依赖”,并在很大程度上影响了学术研究的科学性。而“数字”的多样性、包容性和可扩展性,数字技术的大爆发为学术研究提供了一种新的思路与范式——数据驱动的研究范式,即通过数据挖掘、算法参与、社会分析、机器学习等手段重塑和改造人文知识。数字人文之所以不同于传统人文研究之处,“正在于‘数字’的背后代表的是一批学者试图以科学方法介入人文研究,从而建立新的认知方式、新的研究范式的自觉意识和实践。”[19]

   (一)文本挖掘

   欧美国家的数字人文研究一般以项目为基本单位,这些项目覆盖面比较广,几乎包括了所有人文学科,常见的有数字历史研究项目、档案与文献研究项目、语言与文学研究项目、艺术研究项目、图书馆信息和博物馆研究项目、数字人文公众科学项目等。例如档案与文献研究项目就包括GIS历史地理可视化项目、语料库建设项目、历史资料库建设项目、社会及历史场景重建项目、档案数字化项目五类。虽然都是围绕特定领域建立、特定问题组织,但追求的价值是对特定主题数字资源的深度挖掘与“基于数据的研究”。文本挖掘技术在欧美的数字人文项目中已经得到了广泛应用。数字人文学者通过从文本中挖掘隐含在数据背后、先前并不知道,但存在潜在价值、能被赋予意义的信息,进而发现新的知识。文本挖掘最常用的技术,包括词频统计、特征提取、结构分析、文本摘要、文本分类、主题模型、关联分析等。文本挖掘的一个重要指向,就是学者们利用它去研究文学与社会问题之间的关系。Elson等对60部19世纪的英国著名小说和期刊进行了社会网络关系挖掘,给出了这一阶段社会网络特征的新解释,阐明了小说人物的数量与社会网络特征的相关关系以及小说的形式与背景对社会网络关系的影响[20]。

文本挖掘在文学方面的应用,(点击此处阅读下一页)


爱思想关键词小程序
本文责编:heyuanbo
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/124513.html
文章来源: 吉首大学学报(社会科学版). 2020,41(04)
收藏