达摩院VQA首超人类,会带给我们什么?(5)
2023-06-03 来源:旧番剧
VQA的未来
AI技术史上许多不起眼的进步,最终都给我们的生活带来了便利。自动驾驶的突破虽然没有让无人驾驶普及,但是自动泊车、自动跟车、高速路自动巡航已非常普及。
VQA技术拥有广阔的想象空间,可以用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶、虚拟主播等领域,有可能将变革人机交互方式。
目前,VQA技术已在阿里内部应用于商品图文理解、智能客服等场景。
据报道,数万家淘宝天猫商家开通了店小蜜客服VQA视觉问答功能,AI帮助提升了提问解决率,优化了买家体验,降低了商家配置工作量。盒马、考拉的客服场景,闲鱼的图文同款匹配场景也接入了VQA能力。
当然,这些VQA相关的应用仅仅是牛刀小试。
因为VQA其实并不是理解一张图片那么简单。未来的人机交互输入,可能不是图片而是现实世界的影像。而解决方案,也未必是语言回答,也可以是控制行动。VQA的技术成熟以后,我们可以通过自然语言发出指令,让AI在现实世界中完成更复杂的操作。
比如,我们给机器人下命令,机器人理解你的语言意图后,然后扫描周边环境,找到符合你意图的东西,执行行动。
可能,未来有一天,你对机器人说,“给我洗衣服。”
机器人理解你的意图,然后扫描房间内环境,聚焦到脏衣篮这个物体,移动到脏衣篮,然后聚焦到脏衣服这个物体,把脏衣服用机械手拿起来。
然后再聚焦到洗衣机这个物体,把衣服放进去。它通过常识和逻辑判断洗衣机如何操作,给你完成洗衣、甩干、烘干,最后拿出衣服,聚焦到你的衣柜,把衣服放进衣柜整理好。
整个过程的识别都需要VQA技术作为基础,这可能是VQA技术未来的一个应用方向。