文本挖掘实操｜用文本挖掘剖析54万首诗歌，我发现了这些(25)

2024-06-15 来源:旧番剧

如果采用一些手段扩充下语料，如将整首诗歌和对应翻译逐句拆分、对白话文部分进行文本增强（同义词替换、随机插入、随机交换等）和将意译改为直译等，训练处的模型可能会更强大些，翻译效果能提升不少。
结语
通过上述诗歌语料库分析流程，笔者想说一下对于（文本）数据挖掘的一些看法：
所谓挖掘，通常带有“发现、寻找、归纳、提炼”等内涵，既然需要去发现和提炼，那么，所要找寻的内容往往都不是显而易见的，而是“隐蔽”和“藏匿”于文本之中，或者是人无法直接在大范围内发现和归纳出来的。如果要抽丝剥茧，需要结合领域知识（如文中的诗歌常识），运用多种分析手段（如文中的各类NLU和NLG方法），有时甚至需要逆向思维（如文中的诗歌生成），且各类分析最好是一个前后相继、互为补充有机整体，这样才能以最高的效率来完成文本数据的探索任务。
参考资料：
《数学与文学的共鸣》，丘成桐
《迦陵说诗.嘉莹说诗讲稿》，叶嘉莹
《文本数据管理与分析》，翟成祥
《文本数据挖掘》，宗成庆
《古代汉语基础》，吴鸿清
《诗词格律》，王力
《语言的科学》，诺姆.乔姆斯基
《现代汉语词汇学教程》，周荐
《语言的认知研究和计算分析》，袁疏林
《自然语言处理的认知方法》，Bernadette Sharp
《自然语言处理入门》，何晗
https://github.com/Werneror/Poetry
https://github.com/kpu/kenlm
https://github.com/jiaeyan/Jiayan
《Catching a Unicorn with GLTR: A tool to detect automatically generated text》，http://gltr.io
《Better Language Models and Their Implications》，https://openai.com/blog/better-language-models/
《自由度凝固度统计的新词发现》，https://blog.csdn.net/qq_39006282/article/details/91357603
ABOUT | 作者
@苏格兰折耳喵：达观数据高级解决方案经理。擅长数据分析和可视化表达，热衷于用数据发现洞察，指导实践。

1 ...21 22 23 24 25 查看全文