达摩院VQA首超人类,会带给我们什么?
2023-06-03 来源:旧番剧
自从2016年Alphago战胜李世石后,全球许多科技巨头都投入到AI的竞争中。我们也很快在我们的日常生活中用上了AI智能音箱,接触到AI智能客服,用上了AI的人脸识别。
同时,众多科技公司追求AI技术进步的脚步也从未停歇。2021年8月12日,阿里巴巴达摩院的AliceMind团队刷新全球最权威机器视觉问答榜单VQA(Visual Question Answering) ,并以81.26分的成绩让AI在“读图会意”上首次超越人类表现。
AI技术虽然发展很早,但是一度停滞了很多年,一直到新世纪深度神经网络复兴,应用到AlphaGo上击败顶级棋手李世石,AI才开始重新进入快车道。
AI的机器视觉,是一个非常重要而且有实用性的分支,通过CNN卷积模型,AI在2015年实现了视觉分类超越人类。但是应用到真实世界,AI仅仅能识别是不够的。
所以,全球计算机视觉顶会ICCV及CVPR从2015年起先后举办VQA挑战赛,聚集微软、Facebook、斯坦福大学、阿里巴巴、百度等众多世界最强AI研究机构,形成了国际上规模最大、认可度最高的VQA数据集,对视觉-文本多模态技术进行攻关。
VQA测试,是给定一些图片,然后用自然语言针对图片中的内容提出问题,让AI理解自然语言提出的问题,识别图片,然后正确回答。
我们看VQA的一道试题,给定下面这张玩具的图片,然后提出问题。
What are those toys there for?(这些玩具用在什么地方?)正确答案是Wedding(婚礼)。