文本挖掘实操|用文本挖掘剖析54万首诗歌(15)

2024-06-15 来源:旧番剧

唐诗的题材和意境也几乎无所不包,修辞手段的运用已达到炉火纯青的程度。它不仅继承了汉魏民歌、乐府传统，并且大大发展了歌行体的样式；不仅继承了前代的五、七言古诗，并且发展为叙事言情的长篇巨制；不仅扩展了五言、七言形式的运用，还创造了风格特别优美整齐的近体诗。近体诗是当时的新体诗，它的创造和成熟，是唐代诗歌发展史上的一件大事。它把我国古曲诗歌的音节和谐、文字精炼的艺术特色，推到前所未有的高度，为古代抒情诗找到一个最典型的形式，至今还特别为人民所喜闻乐见。
唐诗代表了中华诗歌的最高成就，无疑是中华以及世界文坛上浓墨重彩的笔触！这对于想要另辟新境的宋代诗人来说无疑是巨大的压力。正如王安石和鲁迅所言：
“世间好语言，已被老杜道尽；世间俗语言，已被乐天道尽”，
“我以为一切好诗，到唐朝已被做完，此后倘非翻出如来掌心之‘齐天大圣’，大可不必再动手了”。
7 通过GPT-2生成表达流畅的诗歌
从某种程度上讲，诗歌生成是从另一维度对诗歌进行深度分析。
生成什么诗歌，跟诗歌生成模型“吃下去”什么是息息相关的。诗歌生成模型的“生成”不是“无源之水”、“无本之木”，它是在充分学习和吸收前人的若干诗作后，习得了一定的“创作手法”，因而能生成效果尚可的诗歌。
同时，我们也能从生成的结果中发现诗歌创作的一些规律，做一些深入探究。
7.1 诗歌生成示例分析
在这一部分，笔者用于训练诗歌生成模型的语料库是基于热门题材标签体系得到的带有题材标签（目前是23个）的律诗（七言和五言）和绝句（七言和五言），它们都满足诗歌的结构性、音调性和语义性的要求。
这里笔者采用的是GPT2（Generative Pre-Training 2nd），它是一个无监督语言模型，能够生成具有连贯性的文本段落，在许多语言建模任务基准中取得了领先级表现（数据量级和参数量级摆在那里，当然跟它的后浪GPT3不能比...）。而且该模型在没有任务特定训练的情况下，能够做到初步的阅读理解、机器翻译、问答和自动摘要。其核心思想可以总结为“给定越多参数以及越多样、越大量的文本，无监督训练一个语言模型或许就可让该模型具备更强的自然语言理解能力，并在没有任何监督的情况下开始学会解决不同类型的 NLP 任务”。
在文本的诗歌生成任务中，笔者从零到一训练一个诗歌生成的GPT2模型，力求让该模型学习到诗歌数据集中的各类显性特征（题材与诗歌的关系、诗歌与风格的关系、藏头字和诗歌的关系等）和隐性特征（主要是诗歌的韵律），其大致原理如下图所示：

1 ...13 14 15 16 17 ...24 查看全文