AI 影视动漫行业消费复苏 AI赋能制作手握IP版权(3)

2024-06-14 来源:旧番剧

2.技术分析：CV领域技术的持续迭代使AI赋能动画制作的可行性有所提升
1）Stable Diffusion系列模型：
·22年8月，Stability AI推出并开源Stable Diffusion（文生图模型），用户只用输入提示文本或者拼合的素材图文本就可以获得完整的的设计图；
·23年3月17日，StabilityAI推出Stable Diffusion Reimagine（图生图模型），用图像编码器取代了原来的文本编码器，只要上传一张图片，就可以创作无数张外观相似、但细节和构图不同的图像；
·4月29日，StabilityAI推出全新开源模型DeepFloyd IF（更精准的文生图模型），与Stable Diffusion相比，理解文字部分模型从OPENAI的CLIP换成了谷歌T5-XXL，生成图像部分模型从潜扩散模型换成了像素级扩散模型，因此解决了文生图的两大难题：准确绘制文字以及准确理解空间关系，AI直出商品渲染图、海报等实用工作流程又打通一环。
2）Gen-2模型:23年3月20日，Runway发布首个多模态视频生成模型Gen-2，相比Gen-1，Gen-2可实现文生视频、文本参考图像生视频、静态图片转视频、从零开始自动创作短视频的功能，大幅缩短视频制作周期。
3)SAM模型及以其为基础的模型：SAM的推出并开源标志着CV领域的GPT时刻，基于SAM模型，23年4月以来，CV领域持续迎来技术突破：
·4月6日，Meta发布并开源SAM模型，解决了视觉领域的分割难题，能够查找和分割图像和视频中的任何对象；
·4月11日国内团队推出Grounded-SAM（BLIP SAM StableDiffusion），将图片检测、分割和生成三种能力合一，先用BLIP模型预训练对图像的文本描述，然后通过SAM细粒度的分割出mas，最后利用Stable Diffusion对分割出来的区域做可控的文图生成；
·4月24日，新国立学者推出Anything-3D（BLIP SAM Nerf），先用BLIP和SAM模型实现检测和分割，最后通过Nerf模型用分割出来的物体和文本描述执行3D重建任务。
·4月25日，南洋理工、伦敦国王学院和同济大学联合推出RAM模型（Relate-Anything-Model），该模型具备识别不同视觉概念间的各种视觉关系的能力。先利用SAM来识别和分割图像中的物体，并提取每个分割物体的特征，然后使用Transformer模块使分割物体之间产生交互作用，从而得到新的特征，计算它们的配对关系并分类它们的相互关系。

1 2 3 4 5 6 查看全文