达摩院VQA首超人类，会带给我们什么？(3)

2023-06-03 来源:旧番剧

就图像识别来说，目前人工智能技术已经比较成熟，毕竟2015年AI已在图像分类上超过人类，识别单一物体人工智能已经不再是难事。
但是对VQA任务来说，问题往往并不是关于整张图片，而是针对图片中某一个或者某几个物体。人工智能要根据对问题的理解，把目标物体从复杂影像中聚焦出来，这是第二步。
譬如，图片中可能有10个人，VQA所提出的问题只与一个人有关，AI要从10个人中聚焦到问题相关的人，这就难了。

准确理解问题、聚焦信息还不够，还得根据问题的意思作出回答，你能够聚焦出来一幅图的重点物体是衣服，但是要回答的问题是衣服的文字代表什么球队。
因此AI还要学会推理，看衣服上什么文字和球队相关，然后根据球队标识回答。
最后，AI推理完毕了，还要产生自然语言的回答。这才算是完成任务。
我们现在日常用的AI识别，还属于感知级别的AI，譬如认个人脸，认个身份证，听懂语音。而VQA是多种AI技术的集成，已接近认知层面，可以算AI技术皇冠上的明珠之一。
所以，一开始这类测试，尽管参加者都是世界一流的科技公司，大学，研发机构，但是得分都很低，后来一年年随着技术和算力的进步才逐渐提升。
今天，阿里已经取得了80多分，超过人类的分数，这是非常不容易的。
攻克VQA难题
如同我们前面说的，VQA挑战的核心难点在于，需在单模态精准理解的基础上，整合多模态的信息进行联合推理认知，最终实现跨模态理解。
这相当于人类通过多个认知途径获取信息，最后综合判断做出结论。
对于这个挑战，阿里达摩院的NLP和视觉团队联手，对AI视觉-文本推理体系进行了系统性的设计，融合了大量算法创新，做出一个整体的解决方案，具体包括四个方面：
一是先尽可能地提升单模态理解的精度。主要是对图片识别的精确。阿里从多个方面刻画图片的局部和全局的语义信息，同时使用Region，Grid，Patch等视觉特征表示，更清楚的把图片上的东西都识别清楚了，这样可以更精准地进行单模态理解。相当于人类在识别物体的时候看得更清楚，为后续打下基础。

1 2 3 4 5 查看全文