AI助力基因组学发展的现状与挑战
2023-07-14 来源:旧番剧
2022年3月31日,《科学》杂志连发6篇论文,记录国际科学团队完成世界第一个完整的、无间隙的人类基因组序列,首次揭示了高度相同的节段重复基因组区域及其在人类基因组中的变异,在科学史上具有里程碑式的重大意义。
但基因组数据的复杂性对于临床应用来说,仍然构成了相当大的挑战。在这个后人类基因组序列的世界中,人类疾病的易感性不仅仅是特定突变引起特定基因功能障碍的结果,而往往是由非编码区域的遗传变异、基因组的三维结构以及DNA和蛋白质分子的化学修饰(表观基因组)的遗传变异引起的。
因此,要充分利用基因组数据进行治疗和诊断决策,需要整合编码和非编码区域的线性DNA序列数据、三维基因组结构信息和表观基因组。而关于这些不同基因组特征的信息可能来自完全不同的数据模态,如DNA测序、成像和各种生化检测。此外,要进行更准确的治疗和诊断决策还需要将基因组数据与医学信息和患者数据结合进行多维分析。
AI助力基因组学发展的现状
AI系统具有捕捉大型数据集和不同数据模态组合中的复杂模式的能力,或可成为解决上述一系列挑战,推动精准治疗和诊断决策的强大工具。下文将以AI助力分析基因组非编码区域的信息、AI结合多元数据类型解读基因组数据以及AI解释液体活检数据三方面典型用例,阐释AI助力基因组学的发展现状。
1. 解读非编码遗传变异
与疾病相关的大多数遗传变异位于基因组的非编码区域。目前,科研人员已经完成了第一个完整的、无间隙的人类基因组序列,下一阶段的研究和分析将产生大量非编码基因数据。然而,与分配给已知基因的编码区域遗传变异相比,非编码遗传变异更加复杂且不易解读。编码区域的变异可以基于对特定基因功能的了解进行解释,所以分析过程相对简单。而非编码变异需根据基因组的三维结构和表观基因组来调控不同的基因,因此,解读非编码变异是一项高度复杂的任务,需要超越传统数据分析的新方法作为支撑。