大三学生独自破解逆天AI模型:把撩妹的时间,都用来研究机器学习(3)
2023-06-03 来源:旧番剧
复现版GPT-2
“你怎么知道自己成功复现了15亿参数的GPT-2模型?”
这个问题,恐怕绝大多数人都想知道答案。
Connor Leahy同学给出的回应是:两个模型的大小和参数量相同,基于相似的数据源训练,使用了类似的计算资源,而且输出结果质量相仿。
他也给出了两者的一些明确不同,比方:
1、dropout和learning rate官方没有披露,所以设置可能不一样。
2、模型训练使用了Adafactor而不是Adam。Connor Leahy同学不知道怎么把15亿参数 Adam塞进TPU,即便16bit精度也不行。
哎?等下……
一个普普通通的大三学生,怎么能用到TPU搞这种研究?
感谢Google。
Google有一个Tensorflow Research Cloud(TFRC)计划。这个计划面向研究人员,提供1000个Cloud TPU组成的集群,完全免费。这个计划用于支持多种需要大量计算并且无法通过其他途径实现的研究项目。
当时Connor Leahy同学在研究GPT-2复现的时候,遇到了计算资源的瓶颈,然后随口跟TFRC团队提了一嘴,结果却得到了Google慷慨的支持。
实际上,在推进这个项目之前,Connor Leahy同学从来没有使用过TPU。所以,他在博客中热情的对Google团队表达了感谢。
不过,他还是在云端花费了大约600-800欧元(人民币6000元左右),用于创建数据集、测试代码和运行实验。
他用的笔记本是一台旧的ThinkPad。
Connor Leahy同学还对降噪耳机表达了感谢:让我保持宁静。
目前,复现版的GPT-2已经放在GitHub上开源,代码可以在GPU、TPU以及CPU上跑(不建议)。现在作者放出了两个版本,一个是1.17亿参数的小型版本,一个是称为PrettyBig的版本,比3.45亿参数的官方中型版稍大一点,也是目前公开的最大GPT-2模型。