文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些(21)

2024-06-15 来源:旧番剧
一路寒声送归雁,秋深不见客愁窗。
我欲从君寻旧隐,扁舟重访草堂堂。
独有英灵知此意,不堪回首泪沾裳。
回首故园归未得,西风萧瑟动悲歌。
回首不堪惆怅事,夕阳芳草满汀波。
...
上述生成的诗句缺乏革命主义的乐观豪情,这是封建时代的诗歌不具备的特质,但这恰好毛主席和陈老总这两首诗歌的与众不同之处。且看这两句:
天若有情天亦老,人间正道是沧桑。
投身革命即为家,血雨腥风应有涯。“
文章合为时而著,歌诗合为事而作”,上述的结果也恰恰从侧面体现了诗歌创作具有时代感和现实感,尽管是写同一题材,但由于诗人的人生轨迹和面临的时代背景不一样,胸中所内含的气象也大不相同。
上述由GPT2生成的诗歌看起来都还不错,很多到了以假乱真的地步,这种情况下,我们该如何甄别出其中哪些是人写的,哪些是机器写的?
机器写作诗歌归根到底还是一个统计学问题,“解铃还须系铃人”,甄别“真伪”的事情还得统计学来解决。
7.2 人机诗歌创作的差异比较
诗歌生成建模大致的原理是:通过大量诗歌语料,诗歌生成模型能学习到任一诗句中相邻的字词之间的依赖关系,比如出现一个“漠”,GPT2按照学习到的经验,会猜测接下来会出现哪个字,这些字都会以概率的形式“存放”在GPT2模型的“记忆”之中,如:
“漠”:0.1205,
“北”:0.0914,
“然”:0.0121,
“视”:0.00124,
...
一般情况下,机器“作诗”时会选择过往出现几率最高的字,以此类推,直到碰到“终止符”才结束,逐渐生成整首诗歌。

文本挖掘实操|用文本挖掘剖析54万首诗歌,我发现了这些


这是最简单的情形,生成的效果也就非常一般,很多时候是文理不通。
为了保证生成效果,一般会(同时)用到一些复杂的生成策略,如Beam Search、Top-k sampling、Top-p sampling(NUCLEUS SAMPLING,核采样)、Repetition_penalty(对重复性进行惩罚)、Length_penalty(对生成过长的诗句进行惩罚)等,这样会兼顾诗歌生成的一些其他因素,如流畅度、丰富度、一致性等,诗歌生成的效果也能得到较大的提升。
猜你喜欢
动漫推荐
免责声明:动漫番剧数据来源网络!本站不收费,无vip,请勿上当!

www.jiufanju.com-旧番剧