AI是基因检测发展的加速器?细聊“AI 基因检测”的正确打开方式(4)
2023-07-14 来源:旧番剧
另外,23andme在消费型检测市场的成功也给了基因检测行业的从业者们非常大的启示。尽管芯片检测覆盖的信息量并不算大,但基于这些信息23andme也已经有了不少成果,比如失眠基因和前文提到的二型糖尿病的研究。“全外显子检测的信息量是芯片检测的100倍,我想应该会有更多的突破。”周代星表示。
2019年2月,贝瑞基因宣布与在东南亚和欧洲市场具有影响力的基因检测公司Prenetics 联合投资成立的消费级基因检测公司圆基因,并邀请到前谷歌中国战略合作总经理严峻加盟并担任公司首席执行官,新公司定名 为“北京源圆基因技术有限公司(圆基因)”。据了解,圆基因将于2019年第二季度开始运营。周代星在采访中透露,为了使检测报告内容更客观更充分,圆基因也将采用全外显子检测。
“不管查什么,做检测的时候都应该尽可能的全面。”周代星强调,“从发展历程来看,先要有符合社会需求的产品,才能有数据的积累。有了这些基础,才能有人工智能分析,从一个疾病覆盖到更多的疾病。”
数据规范与管理
除了数量,数据质量一直是人工智能领域热议的问题。数据量大并非等同于大数据,数据的结构化、规范化程度也至关重要。
而在临床上,不同医生对同一症状可能会有不同的描述。比如A医生描述“腹痛”,可能就是B医生所写的“腹部痉挛”;再加之不同个体间痛感、表述差异,同一表征可能会有更多五花八门的描述。
在日常诊疗中,医生的各人习惯对疾病诊疗的影响并不是特别大;但当这些零星的数据汇总到一个数据集中,就很难真实有效的对这些数据进行统计和归纳。更重要的是,企业的数据库的来源可能来自多个不同的医院,如果数据量达到数万例,很难想象不同医生们对同一症状有多少表达方式。
如果能够将这些语言规范化,形成统一的表达方式,无疑将更加有利于数据的挖掘和使用。基于此,贝瑞基因开发了一款叫做NLPearl的计算软件,能够基于自然语言处理将不同用语习惯形成统一标准。尽管几个层次的学习,NLPearl就可以对医院的自然语言描述方式进行总结,当下一次遇到非结构化的自然描述时,系统就能够自动校准为标准描述。当数据积累到足够大的量级,且有足够量级之后,不管什么样的自然语言描述都有可能找到对应的位点;相应的,遇到这样突变的患者,也可以反推他可能会出现的一系列临床表征。或许,当系统训练到一定程度时、全基因组或全外显子检测普及时,患者还未到医院医生就能够对其进行初步诊断。而在医院就诊的环节,或许将更加注重治疗环节的讨论。