8新型书院与数字时代人文新景象 “数字人文与《红楼梦》文本探勘”讲座 回顾

时间:2024-12-18    来源:中国人民大学明德书院    浏览量:

12月11日下午,明德书院“数字人文与《红楼梦》文本探勘”专题讲座于立德楼二层书院第六空间举办。本次讲座由清华大学人文学院李飞跃教授主讲,中国人民大学信息资源管理学院副院长任明老师担任主持。

讲座伊始,主持人就本次讲座的内容价值以及李飞跃老师的学术背景进行了简要的说明,并对李老师的到来致以热烈的欢迎。

此次讲座内容主要是李老师结合近年来的研究情况,概括介绍了《红楼梦》文本探勘方面的若干典型议题,诸如《红楼梦》前八十回及后四十回作者一致性分析、《红楼梦》诗词文本对于前代作品的化用情况分析、《红楼梦》情节及情感变化的可视化分析等。从这些个案讨论出发,李老师也对当下数字人文研究的发展状况提出了若干反思。

首先,李老师开门见山地指出,数字文献形态的出现与成熟大大丰富拓宽了我们的文本阅读方式,这种新诞生的阅读方式通常被称作“远读”。我们可以站在新维度下对旧有文本加以考察,既可对文本系统开展整体性分析,发掘文本间的关联,也能实现更细颗粒度层面上的知识聚合与探究。这就相当于同时拥有了“望远镜”和“显微镜”。具体到文学研究领域,文学风格计量、作者识别的问题是备受瞩目的议题,计算机与统计方法往往能为这类问题带来较多视野上的启发。李老师分别以《联邦党人文集》《静静的顿河》所涉及的知识产权争议为例,认为数字手段的介入能在一定程度上为这些作品的作者归属问题提供参考性证据。

倘将相同的目光投诸东方,我们最易想起的则是“《红楼梦》前八十回与后四十回作者是否同属一人”这一经典问题。瑞典学者高本汉是较早利用语言计量方法对《红楼梦》作者问题展开分析的学者。高氏的研究也为后来学者提供了路径上的参鉴。时至今日,学者仍多基于字频、特征词等对《红楼梦》前八十回与后四十回的文本风格加以评定,考证作者一致性的问题。在此,李老师特别强调应当注意干扰因素的鉴定与排除。举例而言,前人学者往往注意到《红楼梦》中前八十回中多花卉草木之叙,而此类描写在后四十回中大幅减少,辄以此作为前后回目非同一作者所作之依据。李老师认为,《红楼梦》全书并非匀质化的文本,这一现象的产生完全可能是与情节的推进、叙述重点的转换息息相关。要想确认此类证据的效力,必须额外建立对照组,对同时代小说的相关描写分布给予充分的考察。

在此基础上,李老师认为,使用数字方法研究文学文本,关键并不在于使用了何种方法,而在于如何正确使用方法。在此,李老师分享了黄一农老师对于曹雪芹卒年年龄的考据研究。解决这一问题的关键在于如何甄别“年未五旬”与“四十年华”这两项看似矛盾的说法。黄老师仅仅通过检索古文献中提及“四十年华”的表述,便发现与曹雪芹同时期的人普遍习于使用“四十年华”来称呼那些年近五十之人,可见“四十年华”与“年未五旬”两种记述实表达了相同的意思,并无冲突。由此可证,在对研究对象理解充分的基础上,简单的方法有时同样能够得出可信的结论。与此同时,李老师也提醒大家注意超越本质主义与二值逻辑,一方面看到现有数字技术在反映研究对象过程中的局限性,如小说文本不匀质的问题如何解决,还很值得我们长期地探索、反思,另一方面也悦纳、接受其不理想之处。无论如何,种种新方法、新技术的引入与完善,仍然拓展加深了我们对于《红楼梦》的理解。在这个意义上来讲,“是”或“否”的结论已经不再重要,重要的是我们能够站在现有结论的基础上进一步阅读观测到更多的层次、景观。

尔后,李老师将话题转向《红楼梦》的知识来源问题。研究这一问题,最有效的渠道之一即是研究其创作中存在对于前代作品的引用,这种引用背后可以体现知识的传播。李老师指出,通常意义上所说的引用,既包括直接引用,也包括更加隐含的化用。后者往往难以被传统研究者穷尽性地识别出来。李老师及其团队综合采用了编辑距离、词袋、doc2vec等方法,通过分析《红楼梦》中诗词与唐代诗歌的文本相似度,初步筛选出疑似化用诗句。通过分析,可以发现曹雪芹对于古典诗词的化用并非字词层面的简单挪用,而是存在语境的迁移,是将其视为一种艺术手法在有意运用的。此类诗句如果能够发现化用的原句,就能结合被化用的诗歌创作语境更好地理解诗中隐喻。

李老师补充指出,相同的思路还能被用于诗歌字句歧解的鉴定。除此之外,亦可联合LDA主题分析方法,对《红楼梦》化用诗句的所属诗集进行溯源,以考作者的诗学偏好。经分析,李老师认为《红楼梦》作者对于《才调集》的化用是最多的,这在一定程度上有别于以往的认识。

在这一部分末尾,李老师还以《红楼梦》内多处人物对话为例,专门论证了曹雪芹在写作《红楼梦》时非常注重用典与出处的问题,因或借人物之口引导读者留心。结合实际化用诗句的语境之契合,不难看出,这样的假设绝非子虚乌有。由此,李老师总结认为,《红楼梦》对于前代作品的化用问题关乎文本的深层理解,值得我们进一步探究。

紧接着,李老师以验证“钗黛合一”问题的讨论为例,介绍了利用数字人文方法对《红楼梦》中情节及情感变化作出分析的可能性。李老师首先简单展示了对于林黛玉、薛宝钗话语的词性分析、神态词频分析结果,发现二人在这些方面差别很大,但在言语文本的相似度上较为接近。这很容易让人联想到红学研究中时常论及的“钗黛合一”“二美合一”问题。借助人物情感标记与分析方法,可以发现林黛玉和薛宝钗在前六十回的情感发展上基本呈现出由对立趋于一致的态势。李老师也比较考察了《红楼梦》各章人物的对话次数与分布,发现林黛玉与薛宝钗在对话分布上的吻合度同样很高。以上结果正与脂砚斋“钗、玉名虽两个,人却一身”的评语契合呼应。由此,我们可以重新审视薛宝钗这一角色在《红楼梦》中的地位,以及其与林黛玉、贾宝玉之间的实质关系,也可对书中人物的判词取得新的理解。在这一认识的基础上,李老师还结合文本相似度的分析方法,对部分判词的化用出处予以溯源,从中进一步发现了作者对于二人命运的预先设置。

传统上与“钗黛合一”相似的,还有“晴为黛影,袭为钗副”之说。李老师继而对晴雯、袭人的情感变化开展了相同的考察,发现晴雯、袭人的情感线前期也是基本对立,后期则大体趋于一致,与钗、黛情感线的形态十分相似,在该层面上印证了这一假说。李老师指出,类似晴雯与黛玉、袭人与宝钗这样一人多写的例子在中国古代小说的写作中并不稀见,结合数字探勘的手段,我们可以重新审视发掘古代叙事文学“互文见义”的传统。

最后,李老师于理论层面分析了数字化探勘过程所需注意的一些事项。例如,包括但不限于《红楼梦》的版本选择问题、文本匀质性问题、文本处理时的单位划分问题、算法与建模方法本身存在的问题等。一些问题在当下研究中都普遍存在,且尚未能够很好地得到解决。不过,李老师也指出,从积极的方面来看,可验证、可证伪是数字方法为人文学科带来的深刻革新,数字方法的介入促成了人文研究的透明化,破除了以往的“黑箱”局面,让研究设想、研究过程变得公开可见。同时,它也促使计算批评连同批评者本身成为了批评对象的一部分。

在提问环节,有多名同学相继就数字手段是否能够真正充分、准确地挖掘文本中蕴含的情感表达了疑问。李老师认为,人类的情感往往是类型化的,在数据量足够大的情况下,情感分析得到的结论在宏观上具有逼真度和稳定性。其次,李老师就同学所提关于数字人文研究中数据缺失的问题给予了回应,认为今天的数字人文研究未必还需如传统研究训练所指导的那样,不能容许任何的差错。相反,试错与迭代是推进研究的必由路径。此外,还有同学询及文本相似度分析中数值结果的判定标准问题。李老师认为,对于数字人文研究而言,类似参考值的指定本身并不困难,关键在于选择纳入考量的因素之多寡。例如,当我们将目光从若干有限的经典文献转移到非定域之中,边界变得模糊不清,古籍文本的溯源问题就会变得极其复杂。同时,现有技术在字符串比对和句段层面的相似度分析任务中表现相对较好,而在泛文本和宽语境层面的相似度分析上尚无法做到让人满意。尽管数字化探勘的应用还需持续完善和接受考验,但通过这种新的尝试,经典文本得以不断地展现其盛大深幽的迷人景致。



文案 | 方树益

排版 | 吴梦阳


上一篇:明德音乐会(四) The Angel of Music 2.0 节目单公开!
下一篇:明德音乐会(四) The Angel of Music 2.0 即将归来