文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些(2)
2024-06-15 来源:旧番剧
从上表可以看到,该诗歌语料库中共计近85万余首诗歌,诗歌作者数量达29377位之多;其中,字段包括“题目”、“朝代”、“作者”和“内容(诗歌)”。
为了方便后续的分析,笔者仅取其中的律诗和绝句,且仅取其中的五言和七言,排律(如《春江花月夜》、《长恨歌》等)、杂言(如李白的将进酒)等就不在本文的分析范围之内。
经过数据清洗后,最终得诗504443,占到原数据库的59.1%。以下分别是清洗后的诗歌数据统计结果和部分样例: