文本挖掘实操|用文本挖掘剖析54万首诗歌(11)

2024-06-15 来源:旧番剧
部分结果如下所示(点击图片可放大查看):

文本挖掘实操|用文本挖掘剖析54万首诗歌


有了带标签的数据以后,笔者将多标签问题转换为单标签问题,再将上述诗歌文本及其对应的标签“喂进”线性分类器,根据线性分类器的权重来找到每个类别下最具代表性的词汇,也就是题材专有性词汇。这里选择线性分类器而不是时下流行的深度学习分类器的原因就在于它的可解释性,能让我们清楚的知道是哪些显著的特征(此处是词汇)让诗歌分到这个题材类别下的。其大致原理如下图所示(点击图片可放大查看):

文本挖掘实操|用文本挖掘剖析54万首诗歌


在笔者测试的众多线性分类器中,即RandomForestClassifier、Perceptron、PassiveAggressiveClassifier、MultinomialNB、RidgeClassifier、SGDClassifier,RidgeClassifier的区分效果最好,其F1_score为0.519,鉴于是词袋模型,语义表示较为简单,且原本是多标签分类任务,这个结果尚可接受。基于RidgeClassifier的特征词汇权重的降序排列结果,可得到上述23个热门诗歌题材分类中的若干题材专有性词汇,部分结果展示如下(点击图片可放大查看):

文本挖掘实操|用文本挖掘剖析54万首诗歌


猜你喜欢
动漫推荐
免责声明:动漫番剧数据来源网络!本站不收费,无vip,请勿上当!

www.jiufanju.com-旧番剧