编者按
对人文学者来说,作为工具的计算机,已从文献检索时代进入到数据分析时代。计算机不仅能帮助我们从海量文献中快速检索到所需的资料,还能以数据为基础帮助我们发现问题和分析问题。随着数字人文技术的发展,数据分析的技术和方法越来越有针对性和强效性,能清晰地揭示隐藏在文学史背后的作家与社会之间、作家与作家之间、文本与文本之间的直接与间接、显性与隐性的多种关联,能以全知型的视角系统整体地还原和呈现文学史的立体景观,改变传统的思维方式和文学研究范式。
目前的中国古代文学研究,在数据分析方面虽然已经起步,但还没有完全跟上数字人文的发展步伐,可用于统计分析的关系型文学数据库建设还比较薄弱,适用于古代文学研究的分析工具、分析方法、分析模型还相当有限。近些年学界和业界推出了相当丰富的数字化的文献资源库,如《中国基本古籍库》《中华经典古籍库》等,但主要用于检索,还不是结构化的能进行统计分析和再生知识的数据库。运用数字人文的分析工具和技术方法来研究古代文学,也取得了一定的实绩,但还处在尝试性阶段,未成规模,影响不大。
为推进数字人文技术在古代文学研究中的应用与突破,本期约请清华大学中国古典文献研究中心数字人文研究团队的刘石、孙茂松、张力伟和刘京臣四位先生从不同的角度笔谈他们的构想和规划。刘石、孙茂松先生构建了古典文学研究的分析模型,刘京臣先生阐述了基于社会网络分析的文本与人物研究的理路,既有理论的前瞻性,也有方法的可操作性;张力伟先生提出了建设“中国古典知识库”(CCKB)的宏大构想,令人期待!(王兆鹏)
一
20世纪60年代,电脑就被西方国家运用于人文学科研究,称为“人文计算”。美、英、法、德等国利用大数据技术研究文学开展得早、影响大,相继成立了国家级项目组或研究中心,致力于莎士比亚戏剧、法国中世纪诗歌等多语种文学经典的内容分析,产生了一批引人注目的理论著述与应用成果。
进入新世纪,一些研究机构及企业开始对书籍进行大规模数据化。谷歌与哈佛大学共同研发的数据库可对1600年至2000年间出版的500多万册书籍的单词和短语的使用频率进行统计,通过关键词使用频率的变化,可以崭新的视角揭示500年来人类文化发展史的总体趋势。伴随人工智能技术的进步,机器的深度学习在文本分析方面展现了惊人效率。《布谷鸟的呼唤》原是《哈利·波特》的作者J. K. 罗琳于2013年匿名发表的小说。牛津大学的Peter Millican和杜肯大学的Patrick Juola运用法律语言学的分析方法对比分析,推测它很可能是罗琳的新作,最后,罗琳承认这部小说确出己手。
国内在20世纪80年代也出现了“人文计算应用”的概念,一些学者开始致力于运用电脑技术研究人文课题。早期对古典文学尤其诗词的研究多为计算机或统计专业的学者。厦门大学周昌乐教授课题组针对宋词风格“豪放与婉约”的分类问题,研创了基于字和词为特征的风格分类模型、基于频繁关键字共现的诗歌风格判定方法以及基于词和语义为特征的风格分类模型。首都师范大学尹小林教授最早研发了“《全唐诗》检索系统”,北京大学李铎教授也研发了“《全宋诗》分析系统”“《全唐诗》分析系统”“《资治通鉴》分析系统”等。北京大学杜晓勤教授研发的“中国古典诗文声律分析系统”首次实现对中国古典诗歌及有关韵文进行批量四声自动标注和八病标识、数据统计功能,不仅有助于研究永明体诗歌的声病情况,还可考察永明诗律向近体诗律演变的环节和过程。中南民族大学王兆鹏教授是较早采用量化分析研究古代文学经典的专家,他先后主持了“中国古代诗歌史的计量分析”“20世纪唐五代文学研究论著目录检索系统与定量分析”等多个项目,尤其是唐宋诗词名篇的定量分析(排行榜)及国家社科重大项目“唐宋文学编年系地信息平台”引发了社会的普遍关注。
郑永晓先生数年前已经呼吁古典文学研究从数字化向数据化的转变。基于大数据技术对古代文学经典文本进行高效和深度分析,可将文学研究纳入到一个更宏观的视野,提高研究结论的精准性、稳定性及可验证性,促生新的研究理念、方法与范式。但总体来看,古典文学研究领域目前还基本处在古籍数字化、数字化检索和少数专题数据平台建设阶段。
二
现阶段数字人文研究的主要技术方法,包括机器学习与人工智能、数据库建设、计算语言学、社会网络与地理信息系统、数据与文本挖掘等方面。这些技术方法可分别用于古典诗歌分析系统的尝试、作家生平事迹研究、古典小说研究、文本与人物研究、文体与文论研究,涵盖了古典文学研究的主要方面。
基于这样的理解,我们拟以先秦至明清品类纷繁的古代文学经典文本为中心,利用计算机、统计学、信息科学等学科的新兴技术手段,形成如右上图所示的研究结构。
研究的流程是文学专家提出问题——技术专家设计算法模型——借助知识库或数据库等平台进行文本分析——文学专家对分析结果进行解析和研究。数据库建设、技术创新运用与文本研究三位一体。数据库是基础,文本分析技术是关键,最终要落实到发掘依靠阅读经验难以发现的文本组织特征及相互关系,通过定量统计、定性分析,解决古典文学研究领域长期存在的疑而难决的作品归属、作品辨伪、异文辨析、修辞特色、风格生成、题材变迁、因革影响等方面的问题,期望在以下诸方向有所推进:
1.重新验证已有成说的经典史论问题。比如,提出“文必秦汉,诗必盛唐”的明代前后七子为代表的文人群体,其诗文创作是否落实和如何落实其文学创作的主张?利用共词分析、语义分析、人物事件交杂等技术思路,尝试全新分析和解决诸如文体形式、社团流派、人物关系、情节演进、阶段特征、历史影响等问题。
2.解决人力难以彻底解决的疑难问题,为作品归属、重出异文、改编续写、风格流派、文类划分等提供新的证据、思路与方法。如唐宋诗“体格性分之殊”的判断,诗词曲三种相近文类格律、用韵、题材、语词、典故、句法、意象、风格的穷尽性统计,为定性分析提供数据支撑,可以提高研究结论的精确性、稳定性及可验证性。
3.超越主观感受与印象分析层面,科学梳理文学史长时段中存在的特征、规律、关联性问题。比如陆游诗近万首,词自中唐产生而历经各代,他或它们的题材、修辞、风格变化轨迹究竟如何,数者之间的关系怎样?通过对一个作家或一类作品的“深度学习”(计算语言学专业术语),发挥其文本比对、关联分析等技术优势,追踪挖掘以往不曾注意到的迹象或线索,以期提高文学经典研究的可靠性与科学性。
三
利用大数据技术研究中国古代文学,对学术发展和学科建设的意义是明显的,特别体现在研究范式与思维方式的革新。
傅斯年认为,“凡一种学问能扩张他所研究的材料便进步,不能的便退步”。大数据技术可以实现相关研究史料的全覆盖,是对以往研究资料的极大扩充。目前研究中普遍存在的检索依赖会造成史料的类型遮蔽,特别是反证材料的遮蔽。检索依赖也会导致对史料的解读脱离历史语境,无数孤零零的没有历史气息的材料断片的组合,无法反映真实的历史场域中的问题。文学研究者接受的信息如果是非全息的,文史研究的科学性和有效性必然值得怀疑。全数据分析模式抛弃了随机性的样本研究模式,让研究者具有“上帝视角”,重视对事情整体系统的感知,又强调基于全数据的细节化,提高认知的精确度,是一种理想的学术研究模式。
传统的文献材料彼此间基本上呈现出相对明显的线性关系,可以找到前因后果,进而形成相对完整和自洽的因果链。大数据时代面对的只是具有相关性的海量数据,几乎不可能找到每个数据的微观因果链,如果坚持因果路径,将陷入无穷无尽的因果关系之中而茫然无措。因此,大数据时代不必非得知道现象背后的原因,而是让数据自己发声。对思想、情感和艺术为主体的古典文学学科而言,强调差异性、变异性和独特性的相关性分析方法比因果性分析方法可能具有更强的裁断力。
大数据技术的兴起,使数据采集、存储和处理极大地智能化、自动化。“全数据模式”将与问题相关的数据一网打尽,最大限度地摆脱客观条件局限造成的以局部论全部,问题可以得到更系统、更全面、更整体的刻画,从而得到更精确、更彻底的解决。这是数据化带来的一种严格意义上的整体论,将使思维方式从还原性思维走向整体性思维。
历史与逻辑、事实与价值的统一是人文社科研究的基本方法,大数据时代的研究尊重全体材料、重视量化分析和兼顾所有关系,这将有助于促进人文学科的研究由“解释性”向“求是性”转向。随着人的思想、情感、心理的数据化,人文学科的研究对象也能够实现数据化,可以通过数据挖掘、数据分析和数据建模来进行研究,这样人文学科也就由以往被认作非科学的学科跻身于科学成员的大家庭中,进而发展出人文科学。
总之,大数据思维为人文社科研究的变革与创新带来了千载难逢的历史机遇,正如美国康奈尔大学教授杰弗里·汉考克(Jeffrey T. Hancock)所说:“这是社科研究的一个全新时代,就好比显微镜的诞生对化学科学发展所起到的促进作用。”
需要指出的是,古典文学研究中新技术手段的应用需要充分依靠计算机科学和统计学的专业技术,在尚缺乏此类技术力量的今天,必然会促进学术研究人力资源的整合,倒逼跨学科合作研究的开展。但文学性问题的提出和分析处理不可能完全交给机器,也就不可能完全交给技术专家。相反,从问题的设置到语料的选取再到分析结果的解读、意义的阐释、体系的建构等,都将由古代文学和文献学相关领域高水平的专家学者完成。
(作者:刘石,系清华大学人文学院教授;孙茂松,系清华大学计算机科学与技术系教授)
走向深度学习
——大数据背景下“中国古典知识库”的构想
作者:张力伟
古籍是今日可见的文言时代的全部话语,在数字化时代到来以后,受到中文信息处理技术界的特别关注,成为后者技术移植和创新实践的实验场。20世纪70年代以来,古籍数字化产生了众多成果。从字库扩容到文本识别,建立起一批切实可行的古籍数字化整理标准,严格流程下加工的古籍文本,规范而整饬,优质的数字化文本不断积累。
已有的数字化文本,为阅读和研究提供了极大便利。用户可在某部图书或者在某个平台上的全部图书中搜检需要的字词,进而获取相关的内容。辅之以相应的工具,则可以进行统计、校对、词语匹配、内容聚类等工作,转换为古籍整理的工作语汇,就是说能够用计算机工具来处理文本校勘、词语名物注释、专题资料汇编等任务。
这些应用是从古文献领域来说的。从数据科学的角度看,近几年来,以深度学习为代表的大数据相关技术已成为当代科技发展的重要标志,渗透到社会各个领域,对各学科的知识体系及研究方式都带来了很大冲击。作为已有相关数字化基础的古籍整理专业,也需要认真思索,为拓展研究路径寻求有效的方法。
过往的学者在史料的爬梳寻检上既有真知灼见,又有宏大设想,只是限于物质条件和工具手段不得实现。如清代章学诚就已认识到索引的功用,提出应将古籍中的人名、地号、书目等一切有名可治、有数可稽者都制成韵编(即音序索引),以收事半功倍之效。但直至清末,这类索引的编制都寥寥无几,究其原因,在版刻刷印时代,不能不考虑篇幅巨大的索引带来的出版压力。
作为清华大学中国古典文献研究中心的兼职研究员,近年来我与中心同人合作,把古籍数据化及基于数据化的中国古代知识工程作为重要的学术思考方向,期望借此让古籍文本更有效地服务于实现传统学者的最高理想境界,即梁启超所谓的“探察人间全体之运动进步,即国民全体之经历,及其相互之关系”。
柳诒徵曾说,“史之所纪,则若干时间,若干地域,若干人物,皆有联带关系,非具有区分联贯之妙用,不足以胪举全国之多方面,而又各显其特质”。在传统的古籍整理手段下,学者们对此已做了很多尝试。如傅璇琮先生主编的《唐才子传校笺》,从群体观念、以笺证方式考证近四百位唐代重要诗人,将他们的生平和创作分事项列出,一一标举在不同文献中的记载和后人的考订,局部实现了这一学术理想。
中心以此为目标与追求,拟进行“中国古典知识库”(Chinese Classics Knowledge Base,简称CCKB)的建设工作,在保障古籍文献内容完整性及内部逻辑的基础上,突破文献原有结构,关注文献中的年代、地域、人物、社团、著述等实体的相关属性及不同实体间的关系,通过这些实体及相互关系对文献进行深层组织和知识管理。历史上的各种事物都在相互作用中发生、演进、湮灭、更新,这些事实散见于各类古籍中,有必要将其按客观的面貌梳理出来。
中心参与了国家重大科技文化项目“中华字库工程”,从传世宋元刻本文献中采集了大批经典文本,又参与不同专业出版机构的古籍主题词表及知识库建设工作,积累了较为丰富的经验。目前,CCKB已涵盖数以百万计的实体,千万计的实体属性及实体间关系,但还远不足以覆盖古籍文献内容。
知识库不仅能够智能化地保存和管理已有知识,还可对外提供便捷访问所需的知识接口,帮助人们准确、高效地获取知识资源。科技界在知识库构建方面已经做了大量工作,其工作思路和方法可作为我们的重要参考。比如,谷歌很早就提出知识图谱的概念,用符号来描述物理世界中的概念及其相互之间的结构,构建用于知识获取的网络服务。目前,该数据库已包含超过数亿个实体及实体关系,力图涵盖地球上所有书籍以及网站上的内容信息。专门领域的知识库也开始出现,哈佛大学费正清研究中心主持研发的“中国历代人物传记资料库”(China Biographical Database Project,简称CBDB),以中国历史人物为中心,对重要的工具书词条及传记资料进行数字化处理,提取人物及人物之间的社会关系,为学术研究提供了诸多便利。
这些经验印证了CCKB构建的可能性及广阔前景,也在操作方法上给予我们很多启示。多年来,我们主要采用人工方式提取各种实体,构建其属性和关系,稳妥而效率不高。清华大学在计算机及信息处理技术上有得天独厚的优势,在古文献研究这一传统领域也有着相当的实力,两相结合,应是未来中心构建CCKB的方向。清华大学计算机科学与技术系孙茂松教授的团队通过计算机对大量古代诗歌文本的深度学习,自主研发了古典诗歌创作系统,可以按照任意给定的主题或体裁,创作出格律谨严、内容合理、情感协调的律诗作品;清华大学统计学研究中心邓柯副教授首创“无指导中文文本分析技术”,即脱离先验词表的支撑,通过反复计算学习,可以初步实现对古籍文本的词语切分,为后续的标点断句、专名标注等工作提供了进一步审订编辑的基础。
结合这些高新技术手段,发挥文献中心传统古籍整理研究思路和基础实践等方面的长处,一方面,已提取的实体以及各种关系模型可以起到先验词表的作用,辅助开展实体及关系提取等文本挖掘分析工作,进而丰富扩大知识库的知识规模;另一方面,各类实体及其关系的抽取过程,实际上也是文本的标引过程,两者反复互动,最终将实现知识库与文献的映射与链接,从而达到所有文本的多维度有序提取、排列及重新组合。
在大数据技术支撑下,我们希望与多方通力合作,充分利用新技术手段和研究方法,构建古籍领域内完善的、足以映射全部内容的知识库,为今人及后人的古籍整理与文史研究提供一个可用的、好用的通用平台。
(作者:张力伟,系中国出版集团研究员)
社会网络分析与文学研究
作者:刘京臣
作为研究社会关系的一种实证研究方法,社会网络分析(Social Network Analysis)已有近80年的历史,近30年来逐渐成为人文社科研究的一种新范式。简单地讲,社会网络分析主要关注两点:一是点,即社会主体;二是由点连成的线,即社会主体间的关系。
“点”,主要指社会主体自身具有的诸如年龄、职业、性别、籍贯、教育程度等客观信息,通常被视为“属性数据”,是传统统计学所关注的对象;“线”,即关系,指彼此因接触、关联而产生一种或多种联系,通常被视为“关系数据”(例如个体间的仰慕追求、商业间的贸易往来、职场中的层级以及亲属关系中的血缘姻亲等)。社会网络分析重点考察社会主体间的关系——因为关系并不属于社会主体本身,而是依附主体间的联系、联络而存在。一旦联系、联络发生变化,关系也就会随之发生动态变化。观察关系,量化关系的变化,是社会网络分析的目的之一。
社会网络分析之前多应用于社会学、管理学、政治学、经济学、神经科学、物理学、网络舆情等领域,近年来开始有学者将其应用于文学研究领域。如严程博士《顾太清交游网络分析视野下“秋红吟社”变迁考》借助社会网络分析来考察顾太清与沈善宝等十余位诗友的往来诗作,将文献中涉及的人物、时间和事件信息转换成变动的人际网络,并借助Gephi软件呈现出来;赵微博士《社会网络分析与“〈大波〉三部曲”的人物功能》则对《大波》的两种版本五部长篇小说文本中的人物关系与社会网络进行了数据挖掘、中心性计算、可视化呈现与结果阐释分析。这都是应用社会网络分析古典文学与现代文学问题的有益尝试。
众所周知,社会网络分析长于对“关系数据”进行计算与分析,在古代文史研究领域,目前最为知名的关系型数据库首推由哈佛大学费正清中国研究中心与北京大学中国古代史研究中心等负责建设的“中国历代人物传记数据库”(CBDB)。截至2017年8月,单机版共收录中国历代人物传记资料417382条。CBDB旨在将计算机技术与人文社会科学研究相结合,系统性地对中国历史上所有重要传记资料进行数字化处理,提供检视过去个体或群体生平的方法,为群体传记学提供分析工具,同时也为社会网络分析提供支撑。在CBDB看来,每一位被纳入数据库中的个体,都可以“视为被关系网络界定且能够被量化和分析的实体”,这样,拥有41万多条数据的CBDB自然成为对古典文学进行社会网络分析研究的首选。
例如,目前CBDB共收录了460位曾任职祠禄官的宋代士人,这些士人之间是否存有亲属、姻亲关系,是否有师生关系,在职场上是否是上下级,是否存在官场奥援、荐举保任抑或政治同盟、政治对抗等?如果不借助现代技术手段,这些问题都难以在短时间内予以回答。现在,这些关系都可以依托CBDB“查询社会网络”功能统计出来。同时,CBDB还可对一些著述,例如墓志、序跋、传记、论说、书札等进行数据挖掘,除了梳理上述比较浅层的社会关系外,还可通过对文本的挖掘来梳理人物之间的社会关系。
在面对诸如明代江西进士群体、清代绍兴姻亲家族等大规模、长时段数据分析时,CBDB确实能够提供数据支持。对一些个体或个案,CBDB处理起来更得心应手。我们拟分别选取唐代的韩愈与宋代的苏轼为例,探讨以CBDB为基础的社会网络分析应用与拓展。
钱基博、罗联添、卞孝萱、张清华、刘真伦等先生对韩愈家族、师友、弟子等各类关系进行过考辨,为韩愈思想学术、文学创作、政治倾向等研究奠定了基础。但以往研究呈现出来与韩愈相关的社会关系多是线性关系。通过CBDB来探索韩愈的社会关系,孙羽津博士发现,它不仅可以呈现孟郊、李翱、张籍、张彻、李汉等韩愈研究中的习见人物,也能呈现权德舆、独孤郁、宇文籍、房武等以往韩愈研究中未能深入或未被重视的各类人物,可以较为全面地勾勒出韩愈于贞元、元和之际的社会网络,触及诸如古文运动、儒学复兴、永贞革新、牛李党争等一系列问题,或许可能成为新的学术生长点。
孙羽津还指出,以CBDB为代表的人物数据库在现阶段尚未实现穷尽式的数据挖掘,比如韩愈师承陆贽、归登、殷侑及同年崔群、冯宿等信息尚阙如,而这些信息正是研究韩愈与贞元政治、中唐公羊学及与“龙虎榜”关系等问题的关键所在。对此,尚需不断拓展文献来源,特别是在五代两宋时期的海量数据中挖掘、分析与韩愈相关的内容,将其进行分类、筛选,归并到适合的关系脉络中去,同时注重联系今人的各类考订成果,以期整体性推进韩愈与中唐文学、思想、政治诸领域的研究。
同样,关于苏轼的社会关系,也有一些信息是CBDB尚未挖掘出来的。例如范祖禹曾在元祐五年正月十九日上《荐士劄子》,对苏轼之刚正、才学极为赏识,据此劄子当增加一条范祖禹与苏轼的联系。由于CBDB原始文献有限,资源选取不够全面,不能对传主的生活轨迹进行全方位的梳理。同时,CBDB关系网络的构建来自于文本中实体关系的提取,提取出来后独立于文本存在,与文献本身没有形成映射关系。这就需要在CBDB的基础上增加文献来源。
我们可以充分利用关系型数据库复杂的人、地、著作、时代、职官等交织的网络关系,采用深度标引的方式,对碎片化后的文献进行组织管理,从而实现人物生平事迹相关文献的类聚、排比,组织形成立体交叉的知识网络。简单地讲,就是利用大数据时代背景下的有指导分词、无指导中文文本分析、文本挖掘等技术,构建以经典作家生平事迹为核心,映射、关联具体文献的关系型数据库。
现阶段,清华大学统计学研究中心自主研发的“基于统计学模型的无指导中文文本分析”技术,可以脱离先验词表的支撑,通过反复计算学习,实现对古籍文本的词语切分、专名提取,有相当准确率。同时,清华大学中国古典文献研究中心已有的专名库资源,可为统计学研究中心的文本挖掘提供一定的基础,通过这种有指导与无指导相结合的方式,数据的处理将会更为便捷、准确、高效。相信有了这样的技术支持,以CBDB为基础,以清华大学统计学研究中心和清华大学中国古典文献研究中心为依托,基于社会网络分析的文本与人物研究将会取得新的进展。
(作者:刘京臣,系中国社会科学院文学研究所副研究员)