AI助力基因组学发展的现状与挑战(2)
2023-07-14 来源:旧番剧
在此背景下,AI模型的快速发展为之提供了富有希望的可能性。2020年,牛津大学研究团队就曾提出一个名为DeepC的AI模型,可以使用兆碱基规模的迁移学习准确预测拓扑相关域(TADs)。TADs是基因组的3D核组织的基本单位,通过控制基因调控区域与目标基因在三维空间中的相互作用,对基因表达起到贡献作用。DeepC使用迁移学习方法和组织特异性的Hi-C数据来训练模型,从DNA序列的百万碱基(Mb)窗口预测基因组的折叠方式,从而可以预测原始序列的变异如何影响三维基因组结构。
目前,DeepC已被用于研究“为什么有些人的COVID-19症状很轻,而另一些人则会经历严重的呼吸衰竭甚至死亡”等问题,通过DeepC识别引起COVID-19呼吸衰竭的单核苷酸非编码变异和作用基因,科学家们已经找到了答案。
2. 结合不同数据模态解读基因组数据
AI能够结合大量基因组数据和其他医学及临床数据进行综合分析,使数据分析结果更准确、更易得。2022年11月,Moor等人发表论文,提出了医学人工智能的新范式,称为通用医学人工智能(GMAI)。GMAI模型能够使用非常少量或没有特定任务的标记数据执行各种任务。通过在大型、多样化的数据集上进行自我监督构建,灵活地解释不同医学模态组合,包括来自成像、电子健康记录、实验室结果、基因组学、图表或医学文本的数据。模型还能够进一步产生强表达能力的输出,例如自由文本解释、口头建议或图像注释,展示出高级医学推理能力。