达摩院VQA首超人类,会带给我们什么?(4)
2023-06-03 来源:旧番剧
二是做大量多模态预训练。达摩院团队基于海量的图文数据和多粒度视觉特征做多模态预训练,用于更好地进行多模态信息融合和语义映射,发展出了SemVLP,Grid-VLP,E2E-VLP和Fusion-VLP等预训练模型。
这个相当于人类上学学基础知识,你有了基础知识,才能对看到的东西做个判断,古代人不认识汽车,现代人因为学过什么是汽车,所以看到汽车就知道这是汽车。计算机也得学习,多模态的预训练就是这样的学习过程。学习得越多,识别得越准。
三是研发自适应的跨模态语义融合和对齐技术,创新性地在多模态预训练模型中加入Learning to Attend机制来进行跨模态信息地高效深度融合。就是说AI不能只会扫描大图,还要能聚焦到与问题相关的视觉信息上。
四是采用Mixture of Experts (MOE)技术进行知识驱动的多技能AI集成。因为VQA本身是多模态的,人工智能的神经网络当然不能只用一个,也得多个一起来,A神经网络适合算A,就去算A。B神经网络适合算B,就去算B。把这些神经网络集成起来,可以取得最好的效果。
至于看懂问题,阿里达摩院前身IDST早在2018年就在斯坦福SQuAD挑战赛中历史性地让机器阅读理解首次超越人类,当时轰动全球。2021年阿里开源了历时三年打造的深度语言模型体系AliceMind,包含通用语言模型、多语言、生成式、多模态、结构化、知识驱动等领域,能力已经很全面。
所以,阿里VQA超越人类不是一朝一夕之功,而是多年技术积累的结果。