AI 影视动漫行业消费复苏 AI赋能制作 手握IP版权(3)
2024-06-14 来源:旧番剧
2.技术分析:CV领域技术的持续迭代使AI赋能动画制作的可行性有所提升
1)Stable Diffusion系列模型:
·22年8月,Stability AI推出并开源Stable Diffusion(文生图模型),用户只用输入提示文本或者拼合的素材图 文本就可以获得完整的的设计图;
·23年3月17日,StabilityAI推出Stable Diffusion Reimagine(图生图模型),用图像编码器取代了原来的文本编码器,只要上传一张图片,就可以创作无数张外观相似、但细节和构图不同的图像;
·4月29日,StabilityAI推出全新开源模型DeepFloyd IF(更精准的文生图模型),与Stable Diffusion相比,理解文字部分模型从OPENAI的CLIP换成了谷歌T5-XXL,生成图像部分模型从潜扩散模型换成了像素级扩散模型,因此解决了文生图的两大难题:准确绘制文字以及准确理解空间关系,AI直出商品渲染图、海报等实用工作流程又打通一环。
2)Gen-2模型:23年3月20日,Runway发布首个多模态视频生成模型Gen-2,相比Gen-1,Gen-2可实现文生视频、文本 参考图像生视频、静态图片转视频、从零开始自动创作短视频的功能,大幅缩短视频制作周期。
3)SAM模型及以其为基础的模型:SAM的推出并开源标志着CV领域的GPT时刻,基于SAM模型,23年4月以来,CV领域持续迎来技术突破:
·4月6日,Meta发布并开源SAM模型,解决了视觉领域的分割难题,能够查找和分割图像和视频中的任何对象;
·4月11日国内团队推出Grounded-SAM(BLIP SAM StableDiffusion),将图片检测、分割和生成三种能力合一,先用BLIP模型预训练对图像的文本描述,然后通过SAM细粒度的分割出mas,最后利用Stable Diffusion对分割出来的区域做可控的文图生成;
·4月24日,新国立学者推出Anything-3D(BLIP SAM Nerf),先用BLIP和SAM模型实现检测和分割,最后通过Nerf模型用分割出来的物体和文本描述执行3D重建任务。
·4月25日,南洋理工、伦敦国王学院和同济大学联合推出RAM模型(Relate-Anything-Model),该模型具备识别不同视觉概念间的各种视觉关系的能力。先利用SAM来识别和分割图像中的物体,并提取每个分割物体的特征,然后使用Transformer模块使分割物体之间产生交互作用,从而得到新的特征,计算它们的配对关系并分类它们的相互关系。