达摩院VQA首超人类，会带给我们什么？(4)

2023-06-03 来源:旧番剧

二是做大量多模态预训练。达摩院团队基于海量的图文数据和多粒度视觉特征做多模态预训练，用于更好地进行多模态信息融合和语义映射，发展出了SemVLP，Grid-VLP，E2E-VLP和Fusion-VLP等预训练模型。
这个相当于人类上学学基础知识，你有了基础知识，才能对看到的东西做个判断，古代人不认识汽车，现代人因为学过什么是汽车，所以看到汽车就知道这是汽车。计算机也得学习，多模态的预训练就是这样的学习过程。学习得越多，识别得越准。
三是研发自适应的跨模态语义融合和对齐技术，创新性地在多模态预训练模型中加入Learning to Attend机制来进行跨模态信息地高效深度融合。就是说AI不能只会扫描大图，还要能聚焦到与问题相关的视觉信息上。
四是采用Mixture of Experts (MOE)技术进行知识驱动的多技能AI集成。因为VQA本身是多模态的，人工智能的神经网络当然不能只用一个，也得多个一起来，A神经网络适合算A，就去算A。B神经网络适合算B，就去算B。把这些神经网络集成起来，可以取得最好的效果。

至于看懂问题，阿里达摩院前身IDST早在2018年就在斯坦福SQuAD挑战赛中历史性地让机器阅读理解首次超越人类，当时轰动全球。2021年阿里开源了历时三年打造的深度语言模型体系AliceMind，包含通用语言模型、多语言、生成式、多模态、结构化、知识驱动等领域，能力已经很全面。
所以，阿里VQA超越人类不是一朝一夕之功，而是多年技术积累的结果。

1 2 3 4 5 查看全文