达摩院VQA首超人类,会带给我们什么?(3)
2023-06-03 来源:旧番剧
就图像识别来说,目前人工智能技术已经比较成熟,毕竟2015年AI已在图像分类上超过人类,识别单一物体人工智能已经不再是难事。
但是对VQA任务来说,问题往往并不是关于整张图片,而是针对图片中某一个或者某几个物体。人工智能要根据对问题的理解,把目标物体从复杂影像中聚焦出来,这是第二步。
譬如,图片中可能有10个人,VQA所提出的问题只与一个人有关,AI要从10个人中聚焦到问题相关的人,这就难了。
准确理解问题、聚焦信息还不够,还得根据问题的意思作出回答,你能够聚焦出来一幅图的重点物体是衣服,但是要回答的问题是衣服的文字代表什么球队。
因此AI还要学会推理,看衣服上什么文字和球队相关,然后根据球队标识回答。
最后,AI推理完毕了,还要产生自然语言的回答。这才算是完成任务。
我们现在日常用的AI识别,还属于感知级别的AI,譬如认个人脸,认个身份证,听懂语音。而VQA是多种AI技术的集成,已接近认知层面,可以算AI技术皇冠上的明珠之一。
所以,一开始这类测试,尽管参加者都是世界一流的科技公司,大学,研发机构,但是得分都很低,后来一年年随着技术和算力的进步才逐渐提升。
今天,阿里已经取得了80多分,超过人类的分数,这是非常不容易的。
攻克VQA难题
如同我们前面说的,VQA挑战的核心难点在于,需在单模态精准理解的基础上,整合多模态的信息进行联合推理认知,最终实现跨模态理解。
这相当于人类通过多个认知途径获取信息,最后综合判断做出结论。
对于这个挑战,阿里达摩院的NLP和视觉团队联手,对AI视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,做出一个整体的解决方案,具体包括四个方面:
一是先尽可能地提升单模态理解的精度。主要是对图片识别的精确。阿里从多个方面刻画图片的局部和全局的语义信息,同时使用Region,Grid,Patch等视觉特征表示,更清楚的把图片上的东西都识别清楚了,这样可以更精准地进行单模态理解。相当于人类在识别物体的时候看得更清楚,为后续打下基础。