文本挖掘实操|用文本挖掘剖析54万首诗歌(5)

2024-06-15 来源:旧番剧

在四字高频词中，空间方位的词汇较多，如“南北东西”、“江南江北”、“东西南北”等词。因四字词词长较长，像“人间万事”、“千岩万壑”、“明月清风”、“白云深处”、“相逢一笑”等词就拥有较高的信息量，能够还原大部分的诗歌意境了。2 训练含纳诗歌词汇语义关联性的词嵌入模型
词嵌入模型可以从海量的诗歌文本中自动学习到字词之间的关联关系，据此可实现字词关联度分析、字词相似度分析、聚类分析等任务。
然而，计算机程序不能直接处理字符串形式的文本数据，所以笔者首当其冲的一个步骤就是将诗歌文本数据分词，之后再“翻译”为计算机可以处理的数据形式，这由一个名为“文本向量化”的操作来实现。
先谈分词，它跟前面的高频词挖掘有联系，是后续所有分析任务的起始点。
结合前面积累的词库，再基于有向无环词图、句子最大概率路径和动态规划算法对这54万首诗歌进行分词操作。现试举一例：
分词前：
“万物生芸芸，与我本同气。氤氲随所感，形体偶然异。丘岳孰为高，尘粒孰为细。忘物亦忘我，优游何所觊。”
分词后：
["万物", "生", "芸芸", "，", "与", "我", "本", "同", "气", "。","氤氲", "随", "所", "感", "，",
"形体", "偶然", "异", "。", "丘岳", "孰", "为", "高", "，", "尘", "粒", "孰", "为", "细", "。",
"忘", "物", "亦", "忘我", "，", "优游", "何", "所", "觊", "。"]
分词之后再做适当处理就可以“喂给”词嵌入模型（这里是Word2vec）进行训练了。
基于Word2vec词嵌入模型能从大量未标注的文本数据中“学习”到字/词向量，而且这些字/词向量包含了字词之间的语义关联关系（可以是语义相关或句法相关），正如现实世界中的“物以类聚，类以群分”一样，字词可以由它们身边的字（上下文语境）来定义，而Word2vec词嵌入模型恰恰能学习到这种词汇和语境之间的关联性。
其基本原理如下图所示（点击图片可放大查看）：