旧番剧

当前位置：首页 > 动漫资讯 >

文本挖掘实操｜用文本挖掘剖析54万首诗歌，我发现了这些(10)

2024-06-15 来源:旧番剧

我们知道，在社交网络中，每个用户相当于每一个点，用户之间通过互相的关注关系构成了整个线上人际网络。
在这样的网络中，有的用户之间的连接较为紧密，有的用户之间的连接关系较为稀疏。其中连接较为紧密的部分可以被看成一个社区，其内部的节点之间有较为紧密的连接，而在两个社区间则相对连接较为稀疏。
如何去划分上述的社区便称为社区发现的问题。
基于社区发现算法的话题聚类/发现，在于挖掘词汇语义网络中居于头部的大型“圈子”。
将词汇拟人化，词汇之间存在的相似度/关联度可以视为词汇之间的亲密程度，那么，诗歌题材发现任务可以看做是找到不同成员组成的“圈子”，圈子的特性可以根据其中的成员特征来确定，换言之，题材的名称可以根据其中聚合的词汇的内涵来拟定，比如某个词汇簇群中包含“卫霍”、“甲兵”、“征战”等词汇，那么这个题材可以命名为“战争”。示意图如下所示（点击图片可放大查看）：

运行社区发现算法后，居于头部的热门题材词汇簇群的可视化呈现如下（点击图片可放大查看）：

其中，不同颜色表征不同的题材，字体大小代表其出现频次，词汇之间的距离远近表征其相关程度大小。
经聚类得到634个题材，根据热度（题材下辖词汇数量）的降序排列呈现最终结果，如下所示（点击图片可放大查看）：

1 ...8 9 10 11 12 ...25 查看全文

猜你喜欢

动漫推荐

免责声明：动漫番剧数据来源网络！本站不收费,无vip,请勿上当！

www.jiufanju.com-旧番剧