文本挖掘实操|用文本挖掘剖析54万首诗歌(19)

2024-06-15 来源:旧番剧
旌旗影动三军肃,刁斗声传五夜长。
中原战血三千里,南国英魂一断肠。
中原战血三千里,南国英魂一断肠。
西风鼓角寒吹雁,南国旌旗夜渡河。
...
然而,可能跟学习了大量封建时代的诗歌有关,这些生成的诗歌到末尾大都是一个悲情的基调,略显消极,如以下几句:
从此边城多战伐,不须笳鼓更悲凉。
一路寒声送归雁,秋深不见客愁窗。
我欲从君寻旧隐,扁舟重访草堂堂。
独有英灵知此意,不堪回首泪沾裳。
回首故园归未得,西风萧瑟动悲歌。
回首不堪惆怅事,夕阳芳草满汀波。
...
上述生成的诗句缺乏革命主义的乐观豪情,这是封建时代的诗歌不具备的特质,但这恰好毛主席和陈老总这两首诗歌的与众不同之处。且看这两句:
天若有情天亦老,人间正道是沧桑。
投身革命即为家,血雨腥风应有涯。
“文章合为时而著,歌诗合为事而作”,上述的结果也恰恰从侧面体现了诗歌创作具有时代感和现实感,尽管是写同一题材,但由于诗人的人生轨迹和面临的时代背景不一样,胸中所内含的气象也大不相同。
上述由GPT2生成的诗歌看起来都还不错,很多到了以假乱真的地步,这种情况下,我们该如何甄别出其中哪些是人写的,哪些是机器写的?
机器写作诗歌归根到底还是一个统计学问题,“解铃还须系铃人”,甄别“真伪”的事情还得统计学来解决。
7.2 人机诗歌创作的差异比较
诗歌生成建模大致的原理是:通过大量诗歌语料,诗歌生成模型能学习到任一诗句中相邻的字词之间的依赖关系,比如出现一个“漠”,GPT2按照学习到的经验,会猜测接下来会出现哪个字,这些字都会以概率的形式“存放”在GPT2模型的“记忆”之中,如:
“漠”:0.1205,
“北”:0.0914
“然”:0.0121,
“视”:0.00124,
...
一般情况下,机器“作诗”时会选择过往出现几率最高的字,以此类推,直到碰到“终止符”才结束,逐渐生成整首诗歌。

文本挖掘实操|用文本挖掘剖析54万首诗歌


猜你喜欢
动漫推荐
免责声明:动漫番剧数据来源网络!本站不收费,无vip,请勿上当!

www.jiufanju.com-旧番剧