达摩院VQA首超人类,会带给我们什么?(2)

2023-06-03 来源:旧番剧
这个问题,对人类来说似乎不太难,但是对AI来说非常大的挑战。
整个测试都是各种各样不同的图和各种各样不同的问题,2016年水平的AI,在进行VQA测试的时候,分数很低,最高准确率仅能达到55%。
而经过多年的努力,2021年,阿里在这个测试中取得了非常好的成绩,这是与微软、Facebook、伯克利、百度等一流公司、一流大学、一流研发机构竞争,取得高分来之不易。
而且,这也是VQA测试以来,AI第一次超过人类水平,是标志性的重大突破。

达摩院VQA首超人类,会带给我们什么?


最近几年,AI的成果一直在转化,今天,我们用自然语言可以给智能音箱下命令,让AI像管家一样帮我们控制联网的家电。
这在短短十年前,都是科幻片的情景。但我们和音箱的交互技术主要是语音语义识别,仍然是单模态的。
那么,这次阿里达摩院在VQA这个高难度领域突破,超越人类,又会给我们带来什么?
皇冠上的明珠
过去几年,人类在AI上有很多突破,这些突破主要都是单模态的,也就是替代人类一种感官。譬如机器视觉用于人脸识别、物体识别。语音识别用于识别人类语音,判断语义。这些都依赖深度神经网络的发展。
从DNN(深度神经网络)到RNN(循环神经网络),CNN(卷积神经网络),GAN(生成式对抗网络),Transformer(机器翻译模型),AI在最近10多年中取得了巨大进步。
我们用上了智能音箱,普及了基于AI技术的人脸识别,有了能够交谈的AI客服,但AI与人类跨模态的交互问题一直没有解决。
VQA给AI一幅图像,一个用自然语言描述的问题,让AI用自然语言回答,要求多模态的技术能力。
首先,要让AI非常准确地理解图像和问题,这是第一步。
人类理解自然语言描述的一个问题,首先要懂语言,譬如一个英文问题,你先得懂英语才行。要懂英语,你得学单词,背语法,了解固定搭配,知道句型。而AI要看懂也得经历这个过程。除此之外,AI还要像人一样拥有常识和推理能力。
猜你喜欢
动漫推荐
免责声明:动漫番剧数据来源网络!本站不收费,无vip,请勿上当!

www.jiufanju.com-旧番剧