旧番剧

当前位置：首页 > 动漫资讯 >

文本挖掘实操｜用文本挖掘剖析54万首诗歌，我发现了这些(6)

2024-06-15 来源:旧番剧

先谈分词，它跟前面的高频词挖掘有联系，是后续所有分析任务的起始点。
结合前面积累的词库，再基于有向无环词图、句子最大概率路径和动态规划算法对这54万首诗歌进行分词操作。现试举一例：
分词前：
“万物生芸芸，与我本同气。氤氲随所感，形体偶然异。丘岳孰为高，尘粒孰为细。忘物亦忘我，优游何所觊。”
分词后：
["万物", "生", "芸芸", "，", "与", "我", "本", "同", "气", "。","氤氲", "随", "所", "感", "，","形体", "偶然", "异", "。", "丘岳", "孰", "为", "高", "，", "尘", "粒", "孰", "为", "细", "。", "忘", "物", "亦", "忘我", "，", "优游", "何", "所", "觊", "。"]
分词之后再做适当处理就可以“喂给”词嵌入模型（这里是Word2vec）进行训练了。
基于Word2vec词嵌入模型能从大量未标注的文本数据中“学习”到字/词向量，而且这些字/词向量包含了字词之间的语义关联关系（可以是语义相关或句法相关），正如现实世界中的“物以类聚，类以群分”一样，字词可以由它们身边的字（上下文语境）来定义，而Word2vec词嵌入模型恰恰能学习到这种词汇和语境之间的关联性。
其基本原理如下图所示（点击图片可放大查看）：

训练完该模型后，将其训练结果投射到三维空间，则是如下景象（点击图片可放大查看）：

1 ...4 5 6 7 8 ...25 查看全文

猜你喜欢

动漫推荐

免责声明：动漫番剧数据来源网络！本站不收费,无vip,请勿上当！

www.jiufanju.com-旧番剧