「万字长文」虚拟人漫谈|技术篇(8)
2024-06-15 来源:旧番剧
关于这一部分,我同样参考了国海证券《数字虚拟人——科技人文的交点,赋能产业的起点》中的「图表:主要捕捉技术特性对比」和「图表:主要驱动技术概况」。我觉得这份材料的很多总结简洁到位,是一份非常不错的参考材料。
05 灵魂
其实用“灵魂”这个词只是为了表达“身体与灵魂”这一概念的方便,其实我更想表达的是类似于“头脑、意识”这样的一个抽象的概念,与身体的“物质性”相对应,它属于人的“非物质”那一部分,我姑且把它称为“灵魂”。关于「灵魂」我想分为3个层面来介绍,分别是感知、认知和创造。虚拟人的「灵魂」主要需要依赖各种AI技术来进行赋能。
1. 感知
感知是人最生物性的层面,主要是和我们的五感有关,具体来说就是看、听、说三个部分;目前,直接的知觉、嗅觉等技术还不成熟,也许未来的脑机接口、体感设备等技术会在这些方面有所突破。
虚拟人的感知技术主要依赖于人工智能,在感知层面,人工智能技术当下整体而言是成熟的,不成熟的部分短时间内也难有重大突破,因此一般需要结合具体场景,通过合理的产品设计和精细化运营等方式来达到可用的程度。
看:计算机视觉CV
计算机视觉技术可以帮助虚拟人“看”到物体,并作出一定程度的简单分析。计算机视觉技术主要依靠深度学习中的CNN网络,一般的技术应用均为CNN的变种。CV技术主要有以下几类应用。
1)分类
给定一张输入图像,图像分类任务旨在判断该图像所属类别,例如,检测出一张照片中的主角是猫还是狗等,常用的分类网络包括AlexNet、VGG-16/VGG-19、ResNet等
2)检测
在图像分类的基础上,给出图像中的目标包围盒,常用的目标检测算法包括:
基于候选区域的目标检测算法,如R-CNN、Fast R-CNN、Faster R-CNN等基于直接回归的目标检测算法:如YOLO、SSD等3)分割
可以进一步分为语义分割、实例分割,均可理解为更加精细的检测任务,常用算法包括Mask R-CNN等。
下图非常形象地表示出了CV的几种关键任务,分别是:
分类检测语义分割实例分割