文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些(13)
2024-06-15 来源:旧番剧
这样,各个类别各取TOP500词汇,经过笔者的甄别和梳理后,各个题材关键词规则得到了不同程度的扩充,使得该分类标签体系可以较好的辅助完成诗歌题材多标签分类任务,且后续可以结合分类结果做不断的扩充。
基于这个更加完善的诗歌题材分类体系,笔者运行完之后得到58W 行数据,在之前的基础上增加了14W 行数据,数据规模提升明显!
至此,笔者第一个目标,即热门诗歌题材标签语料库构建完毕,后续的文本挖掘任务可以在此基础上进行。
由分类标签及其分类模型反向推导其中最具代表性的特征词汇,这是一个“数据--->规律”的归纳过程,很好的体现了数据驱动思维;而模型将学习归纳得到的“经验”推广到新样本的标签预测任务中,则体现了“规则--->数据”的演绎过程。
6 基于分类标签的各类统计分析
针对上述58W 行数据构成的诗歌题材语料库,将其中的题材分类标签和各类meta data(如风格、朝代、作者等)做交叉分析,得到很多有意思的分析结果。
6.1 诗歌题材&风格分析
将诗歌数据集的风格标签和题材标签进行交叉列表的成分占比分析,得到的结果如下(点击图片可放大查看):
其中,可以发现一些明显的统计描述性特征:
“赠友送别”和“嘤嘤鸟语”这两个题材在所有诗歌风格中的占比都较高,是两个较为“热门”的题材;
“悼亡故人”和“壮怀激烈”这两个题材在所有诗歌风格中的占比都较低,是两个较为“冷门”的题材。