文本挖掘实操|用文本挖掘剖析54万首诗歌(10)
2024-06-15 来源:旧番剧
4.2 甄别热门诗歌题材在这一环节中,笔者的在于根据一些诗歌领域知识,找到上述运行结果中热门题材及其下辖的题材专属性词汇。其中,“题材专属性词汇”的内涵主要有以下两点:
词汇不能再做进一步切割,否则词义会发生变化,比如,“丈夫”在古汉语中的意义是“男子汉”,在一个独立的词汇,若将其切割为“丈”和 “夫”,则原意丧失殆尽;
词汇仅在一个题材中出现,具有排他性,如“杖藜”只出现在“云游四方”这个题材中,不会出现在“金戈铁马”、“对酒当歌”、“悼亡故人”等其他诗歌题材中。
根据笔者在前文中的定义,写景、摹物、抒情、记事、明理皆是“题材”,这里的热门题材甄别采取“抓大放小”的原则。
此外,虽然聚类出的结果较为理想,但还是存在些许噪音,比如,出现少许跟题材相关性不强的词汇、题材区分度较低的词汇、词汇簇群中的词汇过少(如低于10个)等,这些都是需要被刨除掉的情况。
经过笔者的仔细甄别,共甄别出23个热门诗歌题材,分别是山川巍峨、田园躬耕、羁旅思乡、金戈铁马、咏史怀古、咏物抒怀、赠友送别、爱情闺怨、悼亡故人、楼船画舫、花开荼蘼、对酒当歌、骐骥骏马、得道修仙、世事变迁、静悟禅机、壮怀激烈、云游四方、黯然神伤、星宿璀璨、报效君恩、嘤嘤鸟语、蓑笠纶竿等,当然这些并不是全部的题材,限于笔者学识,仍然有大量题材没有发掘出来。枚举部分结果如下(点击图片可放大查看):
在这一环节,笔者根据对诗歌背景知识的了解,筛选出部分热门诗歌题材,并形成题材对应的关键词规则体系,后续可用于对这54万余首诗歌进行基于关键词的诗歌题材分类。值得注意的是,由于这一环节挑选关键词过于苛刻,导致数量较少,规则体系不甚健全。所以,在对诗歌语料库进行正式的诗歌题材分类前,笔者需要使用一些“小手段”,对上述热门题材的关键词规则进行扩充。
5 根据线性分类器特征延伸关键词
在这里,笔者先利用已得到的热门题材分类体系及其关键词规则给这54万余首诗歌打上题材标签,允许出现同一首诗歌命中多个标签的情形。除去其中未命中题材标签的数据,共计443,589行,其中多数诗歌打上了2个及以上的题材标签。