「万字长文」虚拟人漫谈｜技术篇(8)

2024-06-15 来源:旧番剧

关于这一部分，我同样参考了国海证券《数字虚拟人——科技人文的交点，赋能产业的起点》中的「图表：主要捕捉技术特性对比」和「图表：主要驱动技术概况」。我觉得这份材料的很多总结简洁到位，是一份非常不错的参考材料。
05 灵魂
其实用“灵魂”这个词只是为了表达“身体与灵魂”这一概念的方便，其实我更想表达的是类似于“头脑、意识”这样的一个抽象的概念，与身体的“物质性”相对应，它属于人的“非物质”那一部分，我姑且把它称为“灵魂”。关于「灵魂」我想分为3个层面来介绍，分别是感知、认知和创造。虚拟人的「灵魂」主要需要依赖各种AI技术来进行赋能。
1. 感知
感知是人最生物性的层面，主要是和我们的五感有关，具体来说就是看、听、说三个部分；目前，直接的知觉、嗅觉等技术还不成熟，也许未来的脑机接口、体感设备等技术会在这些方面有所突破。
虚拟人的感知技术主要依赖于人工智能，在感知层面，人工智能技术当下整体而言是成熟的，不成熟的部分短时间内也难有重大突破，因此一般需要结合具体场景，通过合理的产品设计和精细化运营等方式来达到可用的程度。
看：计算机视觉CV
计算机视觉技术可以帮助虚拟人“看”到物体，并作出一定程度的简单分析。计算机视觉技术主要依靠深度学习中的CNN网络，一般的技术应用均为CNN的变种。CV技术主要有以下几类应用。
1）分类
给定一张输入图像，图像分类任务旨在判断该图像所属类别，例如，检测出一张照片中的主角是猫还是狗等，常用的分类网络包括AlexNet、VGG-16/VGG-19、ResNet等
2）检测
在图像分类的基础上，给出图像中的目标包围盒，常用的目标检测算法包括：
基于候选区域的目标检测算法，如R-CNN、Fast R-CNN、Faster R-CNN等基于直接回归的目标检测算法：如YOLO、SSD等3）分割
可以进一步分为语义分割、实例分割，均可理解为更加精细的检测任务，常用算法包括Mask R-CNN等。
下图非常形象地表示出了CV的几种关键任务，分别是：
分类检测语义分割实例分割