文本挖掘实操|用文本挖掘剖析54万首诗歌(12)
2024-06-15 来源:旧番剧
这样,各个类别各取TOP500词汇,经过笔者的甄别和梳理后,各个题材关键词规则得到了不同程度的扩充,使得该分类标签体系可以较好的辅助完成诗歌题材多标签分类任务,且后续可以结合分类结果做不断的扩充。基于这个更加完善的诗歌题材分类体系,笔者运行完之后得到58W 行数据,在之前的基础上增加了14W 行数据,数据规模提升明显!
至此,笔者第一个目标,即热门诗歌题材标签语料库构建完毕,后续的文本挖掘任务可以在此基础上进行。
由分类标签及其分类模型反向推导其中最具代表性的特征词汇,这是一个“数据--->规律”的归纳过程,很好的体现了数据驱动思维;而模型将学习归纳得到的“经验”推广到新样本的标签预测任务中,则体现了“规则--->数据”的演绎过程。
6 基于分类标签的各类统计分析针对上述58W 行数据构成的诗歌题材语料库,将其中的题材分类标签和各类meta data(如风格、朝代、作者等)做交叉分析,得到很多有意思的分析结果。
6.1 诗歌题材&风格分析
将诗歌数据集的风格标签和题材标签进行交叉列表的成分占比分析,得到的结果如下(点击图片可放大查看):
其中,可以发现一些明显的统计描述性特征:“赠友送别”和“嘤嘤鸟语”这两个题材在所有诗歌风格中的占比都较高,是两个较为“热门”的题材;
“悼亡故人”和“壮怀激烈”这两个题材在所有诗歌风格中的占比都较低,是两个较为“冷门”的题材。
6.2 题材标签共现分析
前面的诗歌题材分类是多标签分类,也就是可能会出现同一首诗歌对应多个题材标签的情况。在这种情况下,我们可以进行题材标签的共现分析,也就是多次同时出现的题材标签,它们之间会存在一定的关联性。
现对标签共现的情况进行建模,得到的结果可视化呈现如下所示(点击图片可放大查看):