返回上一页 文章阅读 登录

刘石 李飞跃:大数据技术与传统文献学的现代转型

更新时间:2021-06-08 07:31:27
作者: 刘石   李飞跃  

   内容提要:大数据技术引发了传统文献的生产方式创革、结构形态新变和获取方式拓展,文献的碎片化、标准化、结构化与可视化形成各种文本集、数据库等“宏文本”“超文本”,促进了文献的关联与知识的再发现。网络分析、文献计量、主题模型等文本信息技术的应用,可以革新传统文献学的实践路径,增强传统文献研究的整体性和实证性,催生新的研究范式,促进传统文献学的现代转型。当代大数据技术改变了我们对传统文献学的认识方式和把握尺度,反映了人们对知识挖掘、组织、管理与再造能力的追求。

  

   关 键 词:大数据/传统文献学/知识形态

  

   基金项目:本文为国家社会科学基金重大项目“基于大数据技术的古代文学经典文本分析与研究”(18ZDA238)阶段性成果。

  

   作者简介:刘石,清华大学人文学院教授;李飞跃,清华大学人文学院副教授(北京 100084)。

  

  

   文献素指载有历史信息的文字资料,今已成为“记录有知识的一切载体”的代称。①在甲骨、金石、简帛、纸张之后,文献进入了数字化时代。数字文献是以数字代码形态存在,依赖计算机系统存取和传输的文本、图像、音频、视频等文献。大数据时代的新文献形态如电子文本、文本集、数据库、知识库、系统平台等,在体量、结构、组织、管理等方面呈现出与传统文献不同的特征。大数据的目的是将海量数据转化为知识(Big Data to Knowledge),②美国塔夫茨大学古典学教授克雷恩曾提出过一个发人深省的问题:“你怎么处理100万册的图书?”③大规模文献整理、文本挖掘与知识转化不同于小样本研究,工具和模型的使用是大数据研究与传统文献整理及研究方式的最大区别。

  

   传统文献学,前人又称“治书之学”,亦即围绕古代典籍进行搜集、整理与研究。它在长期发展过程中,形成了深厚的知识积累、相对确定的研究范围、自洽的理论体系和成熟的研究方式。大数据技术长于数据挖掘,而传统的文献研究者实际上也是“数据挖掘者”,只不过挖掘的对象和使用的方法不同而已。大数据技术引发了文献生产的创革、文本形态的新变和知识获取的拓展,最终将促进传统文献学的现代转型。审视大数据技术与传统文献学的通变,不仅可以发明大数据技术下新型文献学的实践功能,也可借此认识大数据技术与传统学术的深层关联。

  

   一、文献生产的创革

  

   传统的文献生产一般包括写抄、刊刻等文本制作,校勘、辑佚等文本整理,注疏、考辨等文本研究。与传统文献研究相类似,大数据研究同样关注文献整体特征和内在结构特征。不同的是,传统文献学的主要处理对象是较为固化的文献形态和具体知识,比较重视经验与思辨;大数据研究主要处理多种类型的文献形态和海量知识,更依赖工具与技术,例如文本分词、词性标注、命名实体识别、句法分析、特征提取、情感识别、自动纠错、可视化呈现等,同时往往会对文本库及其分层子库的数据来源、数据量、数据格式、输入机制、参数指标、算法工具等进行说明,其对文献的处理方式和功能建构也因而极大突破了传统文献的生产方式,实现了文献知识的再发现与再生产。

  

   (一)通过分词、标引、词向量等技术实现原始文献的碎片化与颗粒化。古代汉语分词是将汉字序列切分成单独的词并按照一定规范重新组合成词序列。古籍通过分词、标引、抽取等方式,生成各种新的知识单元,产生新的知识形态如语义网络与知识图谱。知识图谱对每一项有意义的知识单元都赋予独立标识并以标准方式(RDF)进行描述,所有数字对象均按照领域规范编码,形成数据化知识集。古代汉语字词在不同历史时期有着不同的含义与侧重,通过数字编码,每个字词的读音、义项甚至义原都有一个身份代码(ID)。数字资源唯一标识符系统(CDOI)以及语义空间向量表达,在单个字词的基础上按照读音、语义、用法等进一步颗粒化,便于按字数、字频、字量、词汇、句法等统计,从多维度呈现文本特征。

  

   当典籍根据语义标注的粒度被划分为篇章、段落、句子、词组、词等不同的簇,文本即可作为词汇的集合进入计算分析和知识生产的过程。在空间向量模型中,文本最终会被表示为向量。以往的典籍通常以点线面的二维空间模式呈现,而向量空间模型的应用可将文本以多维和高维模式呈现。计算机通过计算可获得语言特征的实例,如特征词的词性、词间关系、词位置分布等,继而分析特征词的出现频率、分布规律和语境特征,由此归纳作品整体的特性和风格。谷歌与哈佛大学共同开发数据库,对1800年至2000年出版的近520万册书籍的单词和短语的使用频率进行统计,推出书籍词频统计器,可查询词或词组在过去数百年的典籍中出现的频率与变化趋势,用以探索名物的兴衰沿革、话题的热度变化、人物或群体的影响力等。④

  

   词汇标注、词性标注和音韵标注,目的是表征传统文献用词的隐藏状态。通过对人物、事件、地名、职官、称谓等实体标引,可以对文本内容的微观结构重加组织。如对人名及字号、别名、谥号等标引,可使所有人物出现的文本位置都排列在主条目之下,实现相关知识的本体化。就是说,标引能够使原始文献基于实体或关系而形成相应的聚类,生成新的独立文本。将文献中的章、节、图、表、数值信息等拆分成知识单元,进行主题标引,便能够形成所需的结构化知识库。深度标注能使计算机快速准确地找到目标文献,从而有效建立文献之间的关联,进行统计分析和比较研究。

  

   (二)通过建词表、定格式、序编码等实现传统文献知识的标准化。原生文献在经过数据化处理后以集合、向量、概率等替代物形态呈现,人、地、时、事、概念、术语、图表、图像等对象的异质性也在此过程中被抹平。所有知识都被数字化编码,碎片化与数字同一性增加了知识单元之间的关联,形成一个超大而密集的文献网络,研究者可以便捷地获取位于任何一个序列中的文本与知识集合。词表的形成建立在分词统计的基础上,同时自身也构成更多新文献与文本的基础。题名、人物、称谓、职官、典故、地名等实体名词词表的创建提高了分词的准确率,有助于生成诸如传记、年谱、资料汇编等独立文本或知识集。词表、格式、编码等标准的确立与推进,将有力促进文献整理的规范化、规模化。从原生文献中抽取出特定的事实信息,如从编年史书籍中抽取详细的年表、年谱,从方志中抽取地名,从人物传记中抽取人物行踪及相互关系,从作品集中抽取不同题材作品和相关评论,生成专题史料集,将会变得易如反掌。

  

   电子文献的标准化及行业编码、国家标准的制订(包括电子格式、文本字符、图像格式、音声标准、索引工具等对象的标准化)将极大促进文献的传播、使用与研究。目前针对文献名目、主题、类型的规范工作,尤其对同一文献的不同责任者和同一责任者的不同称谓等进行消歧与合并已取得初步成果。针对文献作者、题名、摘要中的人名,可依靠人名库规范获取统一资源标识符(URI),再行著录。上海图书馆的开放数据平台发布了人名规范库、华人姓氏表、中国历史纪年表、地理名词表等人文词表关联数据集,涵盖人、地、时、事、物等人文信息资源要素,为古籍信息资源语义描述提供了有力支持。

  

   古籍预处理技术的标准化将推动自动化标引的发展。荷兰莱顿大学魏希德教授主持开发的线上文本标记工具“中文古籍半自动化标记平台”(MARKUS),一方面通过与中国历代人物传记资料库(CBDB)、中国历史地理信息系统(CHGIS)等资料库关联,借助规范数据针对历代人名、地名、职官等核心词汇自动标记;另一方面亦可借助载入关键字、正则表达式等对特定词汇及特定规律的字串进行自动或手动标记。标记后的内容可由系统汇成导出多种格式的数据文件,生成各种不同的文本或知识集。基于文献自身特点或相互关系而形成的多种元数据标准,包括字符、图像、格式等标准规范的确立,将极大促进数据、库、平台之间的融通。统一化的文本编码可由通用数字语言实现文本互通,最终形成一个巨大的“宏文本”。⑤

  

   (三)基于检索、算法、模型等实现传统文献与知识的重新关联与结构化。传统文献的线性平面形态决定了零散个体的研究价值通常要置于一个以时空划分、以文献群为单位的整体中才能被发现。文本集、数据库将知识单元按其属性类别加以集中序化和整合,这时的文献就不仅包括隐性知识的外化和显性知识的内化,也包括不同形态知识之间的转化。检索一体技术让我们从文档和数据库中获取的知识条块化,事实上是不同知识碎片的整合与单元重组。文献碎片化、知识颗粒化,基于检索、算法和模型生成超越原生文献结构的知识单元(语义单位)。深度学习模型可利用已有文献信息,自动提取、学习特征,发掘其内在的文本与知识关联。语义技术和关联数据可深度揭示知识内容,形成多层次、立体化的知识网络,也将使大规模分工协作与聚合分析成为可能。

  

   各类传统文献基于超文本链接和各种相关性产生关联,借助宏观的大型数据库、知识库、数据平台以及微观的分词、标引、词表及词向量等数据技术方法,通过数理逻辑、语义关系、分类聚类等知识联接形成新的文献单位。根据不同需求和研究目的进行多维度的文献特征提取及相似度计算,能在任意样本空间上实现文本聚类,析出各种文本集或知识本体。知识因新的技术而重新关联,它不再是线性平面文本中的字、句、段、篇联结的方式,而是文本与文本之间建立起的交叉、立体、动态关联,由此可以观察到许多在小数据环境中很难观察到的关系与性能。知识图谱作为融概念、实体、属性和关系于一体的知识库,可实现传统文献的语义检索、全面整理与深度揭示,也可将它们联结为更大的结构化知识。

  

   “超文本”作为线性平面文本的对立物,具有极强的关联性与查询能力。随着多场景纠错、新词发现、词义演变、语义网络等技术的发展,尤其词向量技术的进步,文献中蕴含的知识将在多维空间中投射意义。比如,常见的校笺工作有望借助数据技术以知识图谱的崭新形态呈现,异文、相同与相似语汇、典故、地名、人物、职官、事件等能够自动聚类,显现出各类实体随着时代或区域而发生的变化。一些古籍或文献专题建构了融语义词典、知识地图、跨库查询为一体的专题语义检索模型。一些古籍数据库还配备了相应工具箱,辅助文本挖掘和知识发现。

  

   大数据技术让人类第一次有了处理大规模传统文献数据的能力。基于大数据技术的新型文献学既内在于文本,又能够出离文本,用远观、算法、模型来发现和组织知识,从海量的数据中发现隐藏在传统文献中的知识、模式、关系、趋势与规律,这在小数据时代是无法做到的。正如舍恩伯格所说:“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发。”⑥在具有深厚传统的古代文献研究中,大数据技术从知识获取、标注表示、取样阐释等方面带来了根本性变革,本质上是一种方法论和研究范式的革新。由“人文计算”到“数字人文”的转变,体现的是从最初的“技术服务于人文”逐步向“领域内独特创新的方法和研究”的转变,⑦一种融合了不同媒介与资源的学术新大陆正在浮现。

(点击此处阅读下一页)

爱思想关键词小程序
本文责编:陈冬冬
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/126886.html
文章来源:《中国社会科学》2021年第2期
收藏