媒·眼看｜假升级，真打脸：逃离不了家庭的赘婿(11)

2023-06-03 来源:旧番剧

计算机处理问题需要明确的输入和输出格式。赘婿文“打脸”频率是初步选定的研究范围，人工分析最费时的机械劳动部分则转交给程序处理。
具体的研究计划为：以单个“打脸”情节中具有唯一性且结构最统一的结尾部分作为目标，降低程序识别难度。同时，程序效果被划分为阶段性任务，先在选定的单一文本内试运行，再推广到若干其他赘婿文的文本中，掌握赘婿文的“打脸”节奏，最后将程序运用到过去的都市异能类型文本里，从而实现赘婿文与其相近类型文本（传统都市异能文）的对比。本研究项目小组33按照计划展开研究实践，但种种因素影响下，现阶段尚未获得可用的成果，在此提出其中凸显出的一些问题，希望有益于相类的其他文学问题的数字人文研究。
首先，文本本身虽然以数据形式存在，但仍需要进行预处理才能被程序使用。在本项研究中，程序设计人员认为可采用机器学习34的方式训练模型完成任务，因此需要人工标记出一部分“打脸”情节的结尾作为训练数据。由于课程小组的人力有限：仅五人参与标记，并且无法花费太多时间，所以第一阶段只在100章文本中标注了55个数据。基于上述情况，代码实现人员采用了BERT预训练模型35降低对标注量的需求，不过它毕竟并非专门用网络文学文本训练出来的，会有不适应的地方。或许自行训练新的模型会是未来网络文学研究与数字人文技术结合的一个新方向。此外，小组合作标记导致成员对结尾的判断并不完全一致，首次标记时正例中最短的仅数十字，最长的达数千字，重新讨论标准后，才大致控制在数百字的范围内，实现训练数据的相对统一。
其次，未经历过程序相关知识学习的纯文科背景研究者，与信息科学背景合作者的沟通有较大的困难。在最基本的术语使用层面上，双方需要前期了解和磨合。同时，文科背景研究者必须转换思路，选择研究中可数据化的部分，将其变为能被计算机理解的问题，这一过程需通过合作者进行翻译，但翻译也会产生意图的偏移。文科研究者自身掌握相关程序技术应当是未来的努力方向。
最后，经过250章训练集的训练，单以现阶段的程序结果而论，目前在50章测试集的共15个人工标记正例中，程序标记出6个重合数据，同时还有4个额外标注的“错误”数据。现有的正确率较低，不仅无法推广到其他文本，连目前的文本都不可用。但从积极意义来说，这一结果表明目前的程序设计是可行的，机器学习已经能够在一定程度上识别出研究所需的“打脸”情节结尾，只是还需要更多的训练和调试。同时，“错误”数据也有价值，虽然眼下的“错误”数据与“打脸”结尾偏差较大，但未来提高精度以后，程序额外标注的数据就有可能是人工标注遗漏的数据，甚至可能属于跟“打脸”情节结尾相似但未被人类注意的其他情节，存在进一步分析的意义。另外，这也提醒研究者调整心理预期，程序的效果有其限度，它只呈现数量结果，在实际研究中应注意其有效的粒度36，当程序结果已经足以呈现出不同文本的差别37，即可推进后续的分析工作，数字人文研究中，程序的使用终究是为服务于人文研究者的分析，而不是为了制造出可用范围有限的精密工具，在程序效果上无须追求完美。

1 ...9 10 11 12 13 ...16 查看全文