(通讯员:蔡鑫)2022年4月23日上午,我院以“交流·发展”为主题的文学文化系列讲座第六讲“历史典籍的数字人文知识库构建:从全文检索到概念检索”于云端开讲。讲座由南京师范大学文MK SPORTS语言科技系副教授李斌主讲。我院瞿林江副教授主持,余跃龙副教授评议。
讲座伊始,瞿林江对主讲人进行了简要的介绍:李斌主要从事计算学和数字人文方向的研究。包括词法分析、认知语义计算、语料库、语言知识库、语法理论、历史人文计算与数据库构建、数字出版等,关于语言分析和数据库构建的知识非常丰富。
李斌首先谈到当下学生学习古文的各种难处,引出古籍数字化工程的重要性。通过国内外古籍数字化的历史案例,说明数字化从字符串检索发展到概念检索的过程,不仅为古文学习提供了很大便利,而且增加了学习乐趣,是一个巨大的飞跃。传统的古籍数据库大多是基于字符串的全文检索,即能检索出包含关键词的原文;李斌副教授所说的概念检索,是指在输入一个关键词之后,能检索出与关键词概念相同的原文,例如检索嬴政,便可搜索出关于秦始皇、秦皇帝、秦王政、政、赵政、吕政、公子政的原文。与传统检索方式相比,概念检索得出的信息更加全面,也更加准确。
据李斌介绍,在建立数据库之初,团队经过了一个漫长的整理过程,包括断句、分词、加词类、专有名词编号等工作。在实践经验日益丰富的情况下,建立了“古汉语一体化词法分析平台”。
李斌副教授接下来介绍了《左传》《史记》《资治通鉴》《诗经》四个全文检索平台。首先对《左传》中出现的人物进行编号,然后对人物的别名、籍贯、活动地区等信息进行补充,从而使人物固化。同时通过整理人物关系,使人物朋友圈可视化,展现出社交群体的情况。除此之外,在对地点、诸侯国整理的基础上与人物联系,形成人物时空图。在对《史记》进行数字化的过程中,在将人物游行地图可视化的基础上融入地点和活动频次,形成热力图,直观地在地图上呈现了活动高发区域。在展示《资治通鉴》全文检索的过程中,进一步为大家展示了概念检索。如果对人名进行检索,便可得到人物的别名、性别、国别、是否出现在《左传》中、是否出现在《史记》中、与人物同现的地点、人物所在原文、人物关系图(用圆圈大小表示人物重要程度)等信息,地名检索与之类似。除此之外,根据人物和时间制作出人物风云榜单,可以瞬间获取每个时间段最具影响力的人。在四个古籍数据库中,《诗经》是最有趣的。该数据库对诗经中的动植物的数量、古今名称、出现的篇目、出现次数进行了统计,并且附有彩色图片,让大家能够通过检索立刻了解事物的模样。
李斌副教授总结到,其团队的工作方向是从传统的纸质文献转变到数字人文知识库,由文字检索发展到概念检索。还需要对古籍做各种各样的语言学标注、多媒体标注,把图片、地理信息、维基百科都结合进来,让古籍立体化。未来还有很多的工作要做,一是数据错误、二是侵权风险、三是底本的问题、四是与外部的知识库做更多的链接、五是做更多的语言以及与国外的历史数据库进行链接。
最后,余跃龙对讲座进行评议。他认为,李斌老师团队的数据库成果内容丰富、趣味性强、操作指导性高、学科前瞻性好。该项古籍数字化工作使古汉语研究、文献学研究等冷门学科变成了受年轻人喜爱的时尚之学,很有意义;从全文检索到概念检索的转变也开拓了研究思路。同时,这一工作真正实现了学科交叉,不仅使文史哲结合,还融入了植物学、动物学、地理学等学科,符合今后学科发展的方向。