风湿病疾病

首页 » 常识 » 常识 » StableDiffusion重磅更新
TUhjnbcbe - 2023/5/23 22:19:00
白癜风可以医治吗 http://pf.39.net/bdfyy/bjzkbdfyy/160318/4792638.html

编辑:编辑部

大火的文本到图像模型StableDiffusion2.0版本来了,然而因为这个原因,广大网友们闹起来了。

昨天,StabilityAI宣布,StableDiffusion2.0版本上线!

这个更新速度,可太神了。

1.0版本在今年8月出炉,三个月不到,还热乎着呢,新版本就来了。

StableDiffusion2.0

昨日,StabilityAI在博客上发布了深度学习文本到图像模型的最新版本——StableDiffusion2.0。

相较于1.0,新的算法比之前的更高效、更稳健。

时间回到几个月前,StableDiffusion的发布,掀起了一场文本到图像模型领域的新革命。

可以说,StableDiffusion1.0彻底改变了开源AI模型的性质,并且在全球范围内催生了数百种新模型,和其他方面的进步。

它是最快达到10KGithubstar星数的项目之一,在不到两个月的时间里飙升至K星,在Github上的一众项目中可以封神了。

开发StableDiffusion1.0版本的团队是RobinRombach(StabilityAI)和PatrickEsser(RunwayML),他们来自LMUMunichCompVisGroup。

在实验室之前的LatentDiffusionModels基础上,他们开发出了StableDiffuision1.0,并且得到了LAION和EleutherAI的大力支持。

这次的StableDiffusion2.0版本,具有强大的文本到图像模型。

这个模型是由LAION在全新的文本编码器OpenCLIP训练的,跟1.0版本相比,它显著提高了生成图像的质量——这次的模型可以输出默认分辨率为×像素和×像素的图像。

使用StableDiffusion2.0生成的图像示例,分辨率为x

模型在StabilityAI的DeepFloyd团队创建的LAION-5B数据集上进行训练。

LAION-5B是一个包含58.5亿个CLIP过滤图像文本对的数据集,比LAION-M大14倍,曾是世界上最大的可公开访问的图像文本数据集。

训练完成后,就使用LAION的NSFW过滤器进一步过滤,删掉「成人内容」。

这对于很多网友来说,堪称是「史诗级削弱」了……

LAION5B的采集管道流程图

2.0比1.0强在哪里?

具体来看,2.0比1.0有了哪些升级呢?

图像生成质量明显提升

上文我们已经看到,2.0版本中的文本转图像模型默认可以生成x和x像素分辨率的图像。

超分辨率Upscaler扩散模型

StableDiffusion2.0包含了一个UpscalerDiffusion模型,这个模型可以将图像分辨率提高四倍。

左图:x低分辨率图像。右图:Upscaler生成的x分辨率图像

可以看出,这个模型将低质量生成图像(×)放大为更高分辨率图像(×)。

有了UpscalerDiffusion的加持,StableDiffusion2.0与以前的文本到图像模型结合使用时,可以生成分辨率为×或更高的图像。

depth2img深度图像扩散模型

团队采用了一种新的深度引导(depth-guided)稳定扩散模型——depth2img。

它扩展了1.0之前的图像到图像功能,为创意应用提供了全新的可能性。

通过使用现有模型,Depth2img能够推断输入图像的深度,然后使用文本和深度信息生成新图像。

左边的输入图像可以产生几个新图像(右边)。这种新模型可用于保持结构的图像到图像和形状条件图像合成(structure-preservingimage-to-imageandshape-conditionalimagesynthesis)

Depth-to-Image

Depth-to-Image可以提供各种新的创意应用程序,转换后的图像看起来与原始图像截然不同,但仍保持了图像的连贯性和深度。

更新文本引导修复扩散模型

此外,这次更新还引入了一个新的文本引导(text-guided)修复模型,在新的StableDiffusion2.0文本到图像的基础上进行了调整,这样,用户就可以非常智能、快速地替换图像的部分内容。

更新后的修复模型在StableDiffusion2.0文本到图像模型上进行了微调

过滤掉一些NSFW(不可描述)的内容

经过LAION的NSFW过滤器,「成人内容」都会被砍掉。

总结一下,StableDiffusion2的更新如下——

新的SD模型提供了×的分辨率。U-Net的参数数量与1.5版相同,但它是从头开始训练的,并使用OpenCLIP-ViT/H作为其文本编码器。一个所谓的v预测模型是SD2.0-v。上述模型是由SD2.0-base调整而来,它也是可用的,并作为典型的噪声预测模型在×图像上进行训练。增加了一个具有x4比例的潜在文本引导的扩散模型。完善的SD2.0基础的深度引导的稳定扩散模型。该模型可用于结构保留的img2img和形状条件合成,并以MiDaS推导的单眼深度估计为条件。在SD2.0的基础上建立了一个改进的文字引导的绘画模型。

在博客最后,StabilityAI团队激动地说——

就像StableDiffusion的第一次迭代一样,我们努力优化模型,让它在单个GPU上运行,因为我们希望从一开始就让尽可能多的人可以使用它。

我们已经看到,当数百万网友接触到这些模型时,他们共同创造了一些令人惊叹的作品。

这就是开源的力量:挖掘数百万有才华的人的巨大潜力。他们可能没有资源来训练最先进的模型,但他们有能力用一个模型创造令人难以置信的成果。

这个新版本及其强大的新功能,将成为无数应用程序的基础,并激发人们全新的创造潜力。

第一家AI绘画「独角兽」

作为机器学习模型的一种,「文本-图像模型」能够将自然语言描述作为输入并生成与该描述匹配的图像。

它们通常结合了语言模型和生成图像模型:语言模型将输入文本转换为潜在表示,生成图像模型则将该表示作为条件生成图像。

最有效的「文本-图像模型」,通常是根据从网络上抓取的大量图像和文本数据进行训练的。

依托深度神经网络技术的飞速进步,「文本-图像模型」从年开始获得广泛重视。

OpenAI的DALL-E、GoogleBrain的Imagen等,都能输出质量与真实照片相接近的绘画作品。

StabilityAI创建的绘画平台StableDiffusion,则成为领域杀出的一匹「黑马」。

StableDiffusion的母公司StabilityAI,成立于年,总部位于伦敦。

公司背后的出资人是数学家、计算机科学家EmadMostaque,来自孟加拉国,今年9岁。

Mostaque毕业于牛津大学数学和计算机科学学院,曾在一家对冲基金公司工作过1年。

凭借StabilityAI和他的私人财富,Mostaque希望能够培育一个开源AI研究社区。他的创业公司之前就支持创建「LAION5B」数据集。

为了训练StableDiffusion的模型,StabilityAI为服务器提供了4,个NvidiaAGPU。

与OpenAI旗下多款AI工具平台不同,开发者可以免费下载StabilityAI的底层代码,来训练自己的模型。

StabilityAI

1
查看完整版本: StableDiffusion重磅更新