文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些(6)
2024-06-15 来源:旧番剧
先谈分词,它跟前面的高频词挖掘有联系,是后续所有分析任务的起始点。
结合前面积累的词库,再基于有向无环词图、句子最大概率路径和动态规划算法对这54万首诗歌进行分词操作。现试举一例:
分词前:
“万物生芸芸,与我本同气。氤氲随所感,形体偶然异。丘岳孰为高,尘粒孰为细。忘物亦忘我,优游何所觊。”
分词后:
["万物", "生", "芸芸", ",", "与", "我", "本", "同", "气", "。","氤氲", "随", "所", "感", ",","形体", "偶然", "异", "。", "丘岳", "孰", "为", "高", ",", "尘", "粒", "孰", "为", "细", "。", "忘", "物", "亦", "忘我", ",", "优游", "何", "所", "觊", "。"]
分词之后再做适当处理就可以“喂给”词嵌入模型(这里是Word2vec)进行训练了。
基于Word2vec词嵌入模型能从大量未标注的文本数据中“学习”到字/词向量,而且这些字/词向量包含了字词之间的语义关联关系(可以是语义相关或句法相关),正如现实世界中的“物以类聚,类以群分”一样,字词可以由它们身边的字(上下文语境)来定义,而Word2vec词嵌入模型恰恰能学习到这种词汇和语境之间的关联性。
其基本原理如下图所示(点击图片可放大查看):
训练完该模型后,将其训练结果投射到三维空间,则是如下景象(点击图片可放大查看):