文本挖掘实操|用文本挖掘剖析54万首诗歌(6)
2024-06-15 来源:旧番剧
训练完该模型后,将其训练结果投射到三维空间,则是如下景象(点击图片可放大查看):
在训练Word2vec的过程中,模型会从大量的诗歌文本数据中学习到词汇之间的2类关联关系,即聚合关系和组合关系。聚合关系:如果词汇A和词汇B可以互相替换,则它们具有聚合关系。换言之,如果词汇A和词汇B含有聚合关系,在相同的语义或者句法类别中可以利用其中一个来替换另一个,但不影响对整个句子的理解。例如,“萧萧”、“潇潇”都是象声词,多用于描述雨声,具有聚合关系,那么“山下兰芽短浸溪,松间沙路净无泥,萧萧暮雨子规啼”中的“萧萧”可以换做“潇潇”。
组合关系:如果词汇A和词汇B可以在句法关系上相互结合,那么它们具有组合关系。例如,“雨打梨花深闭门,忘了青春,误了青春。赏心乐事共谁论?”中的“忘了”和“误了”都和“青春”存在组合关系,都是“动词 名词”的动宾结构。
现在来寻找与“兵燓”存在语义关联性的若干词汇:
结果大都是跟“战争”&“创伤”相关的词汇,语义关联关系捕获能力较强,后续的热门诗歌体裁挖掘任务也会用到词嵌入模型的这个特性。3 度量诗歌词汇之间的语义关联关系
3.1 利用余弦相似性度量诗歌词汇关联度
度量词汇之间的相似度或者关联度,我们一般会使用两个词汇的词向量之间的余弦值,词向量之间的夹角越小,则余弦值越大,越接近1,则语义相关度越高;反之,相关度越低。如下图所示,展示了“甲兵”、“兵戈”和“烽火”之间的余弦相似度的可视化示意图(点击图片可放大查看):