文本挖掘实操|用文本挖掘剖析54万首诗歌(23)
2024-06-15 来源:旧番剧
如果采用一些手段扩充下语料,如将整首诗歌和对应翻译逐句拆分、对白话文部分进行文本增强(同义词替换、随机插入、随机交换等)和将意译改为直译等,训练处的模型可能会更强大些,翻译效果能提升不少。
结语
通过上述诗歌语料库分析流程,笔者想说一下对于(文本)数据挖掘的一些看法:
所谓挖掘,通常带有“发现、寻找、归纳、提炼”等内涵,既然需要去发现和提炼,那么,所要找寻的内容往往都不是显而易见的,而是“隐蔽”和“藏匿”于文本之中,或者是人无法直接在大范围内发现和归纳出来的。如果要抽丝剥茧,需要结合领域知识(如文中的诗歌常识),运用多种分析手段(如文中的各类NLU和NLG方法),有时甚至需要逆向思维(如文中的诗歌生成),且各类分析最好是一个前后相继、互为补充有机整体,这样才能以最高的效率来完成文本数据的探索任务。
参考资料:
《数学与文学的共鸣》,丘成桐
《迦陵说诗.嘉莹说诗讲稿》, 叶嘉莹
《文本数据管理与分析》,翟成祥
《文本数据挖掘》,宗成庆
《古代汉语基础》,吴鸿清
《诗词格律》,王力
《语言的科学》,诺姆.乔姆斯基
《现代汉语词汇学教程》,周荐
《语言的认知研究和计算分析》,袁疏林
《自然语言处理的认知方法》,Bernadette Sharp
《自然语言处理入门》,何晗
https://github.com/Werneror/Poetry
https://github.com/kpu/kenlm
https://github.com/jiaeyan/Jiayan
《Catching a Unicorn with GLTR: A tool to detect automatically generated text》,http://gltr.io
《Better Language Models and Their Implications》,https://openai.com/blog/better-language-models/
《自由度 凝固度 统计的新词发现》,https://blog.csdn.net/qq_39006282/article/details/91357603
看了上面的文章,如果想学,可以看笔者之前的“文本挖掘系列”文章,原理和笔代码兼有~