旧番剧

当前位置：首页 > 动漫资讯 >

文本挖掘实操｜用文本挖掘剖析54万首诗歌，我发现了这些(13)

2024-06-15 来源:旧番剧

这样，各个类别各取TOP500词汇，经过笔者的甄别和梳理后，各个题材关键词规则得到了不同程度的扩充，使得该分类标签体系可以较好的辅助完成诗歌题材多标签分类任务，且后续可以结合分类结果做不断的扩充。
基于这个更加完善的诗歌题材分类体系，笔者运行完之后得到58W 行数据，在之前的基础上增加了14W 行数据，数据规模提升明显！
至此，笔者第一个目标，即热门诗歌题材标签语料库构建完毕，后续的文本挖掘任务可以在此基础上进行。
由分类标签及其分类模型反向推导其中最具代表性的特征词汇，这是一个“数据--->规律”的归纳过程，很好的体现了数据驱动思维；而模型将学习归纳得到的“经验”推广到新样本的标签预测任务中，则体现了“规则--->数据”的演绎过程。

6 基于分类标签的各类统计分析
针对上述58W 行数据构成的诗歌题材语料库，将其中的题材分类标签和各类meta data（如风格、朝代、作者等）做交叉分析，得到很多有意思的分析结果。
6.1 诗歌题材&风格分析
将诗歌数据集的风格标签和题材标签进行交叉列表的成分占比分析，得到的结果如下（点击图片可放大查看）：

其中，可以发现一些明显的统计描述性特征：
“赠友送别”和“嘤嘤鸟语”这两个题材在所有诗歌风格中的占比都较高，是两个较为“热门”的题材；
“悼亡故人”和“壮怀激烈”这两个题材在所有诗歌风格中的占比都较低，是两个较为“冷门”的题材。

1 ...11 12 13 14 15 ...25 查看全文

猜你喜欢

动漫推荐

免责声明：动漫番剧数据来源网络！本站不收费,无vip,请勿上当！

www.jiufanju.com-旧番剧