文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些(10)

2024-06-15 来源:旧番剧
我们知道,在社交网络中,每个用户相当于每一个点,用户之间通过互相的关注关系构成了整个线上人际网络。
在这样的网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏。其中连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏。
如何去划分上述的社区便称为社区发现的问题。
基于社区发现算法的话题聚类/发现,在于挖掘词汇语义网络中居于头部的大型“圈子”。
将词汇拟人化,词汇之间存在的相似度/关联度可以视为词汇之间的亲密程度,那么,诗歌题材发现任务可以看做是找到不同成员组成的“圈子”,圈子的特性可以根据其中的成员特征来确定,换言之,题材的名称可以根据其中聚合的词汇的内涵来拟定,比如某个词汇簇群中包含“卫霍”、“甲兵”、“征战”等词汇,那么这个题材可以命名为“战争”。示意图如下所示(点击图片可放大查看):

文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些


运行社区发现算法后,居于头部的热门题材词汇簇群的可视化呈现如下(点击图片可放大查看):

文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些


其中,不同颜色表征不同的题材,字体大小代表其出现频次,词汇之间的距离远近表征其相关程度大小。
经聚类得到634个题材,根据热度(题材下辖词汇数量)的降序排列呈现最终结果,如下所示(点击图片可放大查看):

文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些


猜你喜欢
动漫推荐
免责声明:动漫番剧数据来源网络!本站不收费,无vip,请勿上当!

www.jiufanju.com-旧番剧