文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些(23)
2024-06-15 来源:旧番剧
8 将诗歌翻译成通俗易懂的白话文
诗歌翻译,也就是将文言文色彩浓重、一般人不易看懂的诗歌翻译成现代人容易理解的白话文。
笔者此处用到的模型是两个BERT构成的Encoder-Decoder,目标是输入一句或者一首诗歌,生成相应的白话文翻译。考虑到古现代汉语存在大量词汇方面的语义延续性,不像中英互译这样,源语句和目标语句之间的语义和语法结构差异极大,它们会有很多共享词汇,所以训练的语料数量可以适当少些。诗歌翻译模型会从大量的翻译语句对中学习到它们之间的语义对应关系,而且是以较为流畅(较理想的情况下)的形式进行输出。
以下是简要原理图:
笔者编写爬虫采集了某诗歌分享网站上的若干诗歌及其翻译数据,经清洗后,得到3万条训练语句。部分训练数据如下表所示:
训练模型后,笔者选取部分未出现在训练集中的语句作为文本翻译的示例,部分示例如下: