逆袭故事:他从职高到大专、专升本杭电、考研浙大,博士麻省理工(4)
2022-11-05 来源:旧番剧
那篇论文设计了一种混合多阶段索引(hybrid multi-stage index)来减少写操作。启发于此,信静设计了一个双阶段(dual-stage)的索引来减少NVM上的写操作(关于这篇论文详细的说明可以参考这篇文章)。信静有些忐忑又有些期待地看向我:“你觉得这个想法怎么样?靠谱吗?做出来能中顶会吗?”我很肯定地告诉他:“我觉得非常靠谱,做出来的话应该能中。”信静欢欣雀跃地说:“我也这么认为!那我就去实现了!”
在这项工作中,还有一些让我印象深刻的事情。在与以前的相关工作进行实验对比的时候,我们发现之前的工作基本都没有开放源代码(开源)。数据库、系统方面的论文实现是极其复杂且困难的,常常会耗费巨大量的力气,因此如果之前的工作有开源的话,那就会大大减少复现的代价;否则的话,则可能要花大量的精力在复现论文上。信静抱着试试看的想法给作者们写了邮件,想看看能不能要到源代码,这样就可以省下大量精力。遗憾的是,所有最新的相关论文的作者都表示无法提供源代码,但是有几位作者表示,如果信静复现论文的过程中碰到问题的话,他们愿意提供帮助。“这怎么办呢?要不就选择比较老一些的但是开源了的工作?”我问信静。“不行,这样的话,实验结果就缺乏说服力了。不提供代码就不提供代码吧,我自己来实现!”信静坚定地回复我。后来,信静就凭借自己惊人的工程能力,将所有需要对比的工作都复现了出来。
这项工作在做了半年之后进行了第一次投递,投递在VLDB2020(VLDB是数据库领域最顶尖的两个会议之一)上。不幸的是,第一次审稿(review)结果出来,审稿人(reviewer)的意见都比较负面,主要的批评在于工作的实验是在NVM的模拟器上做的,审稿人觉得这不太具有说服力,希望能在真实硬件上做实验。审稿人写道(此为翻译):“如果是以前也就罢了,那时候Intel没有提供硬件给外界使用,那不得不用模拟器。现在Intel已经提供硬件了,那么没理由只是在模拟器上做实验。”“哼!提供个啥!明明只有和Intel有合作的企业才能拿到。”信静很委屈地和我吐槽。我当时和信静说,实在不行的话,就再投下一个会议吧,我想总有审稿人愿意接受模拟器上的实验结果的吧。信静不服气,觉得不能就这样放弃。后来他自己想办法联系到了阿里的一个数据库的组去实习,并与实习的组商量好,在实习期间把这篇工作的实验给做了。
在真实硬件上重新做了实验之后,信静再次将这篇论文提交到VLDB。审稿人看到这样的改进之后都非常高兴,纷纷给了接收(accept),这篇论文就这样中了。