逆袭故事：他从职高到大专、专升本杭电、考研浙大，博士麻省理工(4)

2022-11-05 来源:旧番剧

那篇论文设计了一种混合多阶段索引(hybrid multi-stage index)来减少写操作。启发于此，信静设计了一个双阶段(dual-stage)的索引来减少NVM上的写操作（关于这篇论文详细的说明可以参考这篇文章）。信静有些忐忑又有些期待地看向我：“你觉得这个想法怎么样？靠谱吗？做出来能中顶会吗？”我很肯定地告诉他：“我觉得非常靠谱，做出来的话应该能中。”信静欢欣雀跃地说：“我也这么认为！那我就去实现了！”
在这项工作中，还有一些让我印象深刻的事情。在与以前的相关工作进行实验对比的时候，我们发现之前的工作基本都没有开放源代码（开源）。数据库、系统方面的论文实现是极其复杂且困难的，常常会耗费巨大量的力气，因此如果之前的工作有开源的话，那就会大大减少复现的代价；否则的话，则可能要花大量的精力在复现论文上。信静抱着试试看的想法给作者们写了邮件，想看看能不能要到源代码，这样就可以省下大量精力。遗憾的是，所有最新的相关论文的作者都表示无法提供源代码，但是有几位作者表示，如果信静复现论文的过程中碰到问题的话，他们愿意提供帮助。“这怎么办呢？要不就选择比较老一些的但是开源了的工作？”我问信静。“不行，这样的话，实验结果就缺乏说服力了。不提供代码就不提供代码吧，我自己来实现！”信静坚定地回复我。后来，信静就凭借自己惊人的工程能力，将所有需要对比的工作都复现了出来。
这项工作在做了半年之后进行了第一次投递，投递在VLDB2020（VLDB是数据库领域最顶尖的两个会议之一）上。不幸的是，第一次审稿（review）结果出来，审稿人（reviewer）的意见都比较负面，主要的批评在于工作的实验是在NVM的模拟器上做的，审稿人觉得这不太具有说服力，希望能在真实硬件上做实验。审稿人写道（此为翻译）：“如果是以前也就罢了，那时候Intel没有提供硬件给外界使用，那不得不用模拟器。现在Intel已经提供硬件了，那么没理由只是在模拟器上做实验。”“哼！提供个啥！明明只有和Intel有合作的企业才能拿到。”信静很委屈地和我吐槽。我当时和信静说，实在不行的话，就再投下一个会议吧，我想总有审稿人愿意接受模拟器上的实验结果的吧。信静不服气，觉得不能就这样放弃。后来他自己想办法联系到了阿里的一个数据库的组去实习，并与实习的组商量好，在实习期间把这篇工作的实验给做了。
在真实硬件上重新做了实验之后，信静再次将这篇论文提交到VLDB。审稿人看到这样的改进之后都非常高兴，纷纷给了接收(accept)，这篇论文就这样中了。

1 2 3 4 5 6 ...8 查看全文