Cointime

扫码下载App
iOS & Android

Midjourney 劲敌再现! 谷歌 StyleDrop「定制大师」引爆 AI 艺术圈

谷歌 StyleDrop 一出,瞬间在网上刷屏了。

给定梵高的星空,AI 化身梵高大师,对这种抽象风格顶级理解后,做出无数幅类似的画作。

再来一张卡通风,想要绘制的物体呆萌了许多。

甚至,它还能精准把控细节,设计出原风格的 logo。

StyleDrop 的魅力在于,只需要一张图作为参考,无论多么复杂的艺术风格,都能解构再复刻。

网友纷纷表示,又是淘汰设计师的那种 AI 工具。

StyleDrop 爆火研究便是来自谷歌研究团队最新出品。

论文地址:https://arxiv.org/pdf/2306.00983.pdf

现在,有了 StyleDrop 这样的工具,不但可以更可控地绘画,还可以完成之前难以想象的精细工作,比如绘制 logo。

就连英伟达科学家将其称为「现象级」成果。

「定制」大师

论文作者介绍道,StyleDrop 的灵感来源 Eyedropper(吸色 / 取色工具)。

同样,StyleDrop 同样希望大家可以快速、毫不费力地从单个 / 少数参考图像中「挑选」样式,以生成该样式的图像。

一只树懒能够有 18 种风格:

一只熊猫有 24 种风格:

小朋友画的水彩画,StyleDrop 完美把控,甚至连纸张的褶皱都还原出来了。

不得不说,太强了。

还有 StyleDrop 参考不同风格对英文字母的设计:

同样是梵高风的字母。

还有线条画。线条画是对图像的高度抽象,对画面生成构成合理性要求非常高,过去的方法一直很难成功。

原图中奶酪阴影的笔触还原到每种图片的物体上。

参考安卓 LOGO 创作。

此外,研究人员还拓展了 StyleDrop 的能力,不仅能定制风格,结合 DreamBooth,还能定制内容。

比如,还是梵高风,给小柯基生成类似风格的画作:

再来一个,下面这只柯基有种埃及金字塔上的「狮身人面像」的感觉。

如何工作?

StyleDrop 基于 Muse 构建,由两个关键部分组成:

一个是生成视觉 Transformer 的参数有效微调,另一个是带反馈的迭代训练。

之后,研究人员再从两个微调模型中合成图像。

Muse 是一种基于掩码生成图像 Transformer 最新的文本到图像的合成模型。它包含两个用于基础图像生成 (256 × 256) 和超分辨率 (512 × 512 或 1024 × 1024) 的合成模块。

每个模块都由一个文本编码器 T,一个 transformer G,一个采样器 S,一个图像编码器 E 和解码器 D 组成。

T 将文本提示 t∈T 映射到连续嵌入空间 E。G 处理文本嵌入 e∈E 以生成视觉 token 序列的对数 l∈L。S 通过迭代解码从对数中提取视觉 token 序列 v∈V,该迭代解码运行几步的 transformer 推理,条件是文本嵌入 e 和从前面步骤解码的视觉 token。

最后,D 将离散 token 序列映射到像素空间 I。总的来说,给定一个文本提示 t,图像 I 的合成如下:

图 2 是一个简化了的 Muse transformer 层的架构,它进行了部分修改,为的是支持参数高效微调(PEFT)与适配器。

使用 L 层的 transformer 处理在文本嵌入 e 的条件下以绿色显示的视觉 token 序列。学习参数θ被用于构建适配器调优的权重。

为了训练θ,在许多情况下,研究人员可能只给出图片作为风格参考。

研究人员需要手动附加文本提示。他们提出了一个简单的、模板化的方法来构建文本提示,包括对内容的描述,后面跟着描述风格的短语。

例如,研究人员在表 1 中用「猫」描述一个对象,并附加「水彩画」作为风格描述。

在文本提示中包含内容和风格的描述至关重要,因为它有助于从风格中分离出内容,这是研究人员的主要目标。

图 3 则是带反馈的迭代训练。

当在单一风格参考图像(橙色框)上进行训练时,StyleDrop 生成的一些图像可能会展示出从风格参考图像中提取出的内容(红色框,图像背景中含有与风格图像类似的房子)。

其他图像(蓝色框)则能更好地从内容中拆分出风格。对 StyleDrop 进行好样本(蓝色框)的迭代训练,结果在风格和文本保真度之间取得了更好的平衡(绿色框)。

这里研究人员还用到了两个方法:

-CLIP 得分

该方法用于测量图像和文本的对齐程度。因此,它可以通过测量 CLIP 得分(即视觉和文本 CLIP 嵌入的余弦相似度)来评估生成图像的质量。

研究人员可以选择得分最高的 CLIP 图像。他们称这种方法为 CLIP 反馈的迭代训练(CF)。

在实验中,研究人员发现,使用 CLIP 得分来评估合成图像的质量是提高召回率(即文本保真度)的有效方式,而不会过多损失风格保真度。

然而从另一方面看,CLIP 得分可能不能完全与人类的意图对齐,也无法捕捉到微妙的风格属性。

-HF

人工反馈(HF)是一种将用户意图直接注入到合成图像质量评估中的更直接的方式。

在强化学习的 LLM 微调中,HF 已经证明了它的强大和有效。

HF 可以用来补偿 CLIP 得分无法捕捉到微妙风格属性的问题。

目前,已有大量研究关注了文本到图像的扩散模型的个性化问题,以合成包含多种个人风格的图像。

研究人员展示了如何以简单的方式将 DreamBooth 和 StyleDrop 结合起来,从而使风格和内容都能实现个性化。

这是通过从两个修改后的生成分布中采样来完成的,分别由风格的θs 和内容的θc 指导,分别是在风格和内容参考图像上独立训练的适配器参数。

与现有的成品不同,该团队的方法不需要在多个概念上对可学习的参数进行联合训练,这就带来了更大的组合能力,因为预训练的适配器是分别在单个主题和风格上进行训练的。

研究人员的整体采样过程遵循等式 (1) 的迭代解码,每个解码步骤中采样对数的方式有所不同。

设 t 为文本提示,c 为无风格描述符的文本提示,在步骤 k 计算对数如下:

其中:γ用于平衡 StyleDrop 和 DreamBooth——如果γ为 0,我们得到 StyleDrop,如果为 1,我们得到 DreamBooth。

通过合理设置γ,我们就可以得到合适的图像。

实验设置

目前为止,还没有对文本 - 图像生成模型的风格调整进行广泛的研究。

因此,研究人员提出了一个全新实验方案:

- 数据收集

研究者收集了几十张不同风格的图片,从水彩和油画,平面插图,3D 渲到不同材质的雕塑。

- 模型配置

研究人员使用适配器调优基于 Muse 的 StyleDrop 。对于所有实验,使用 Adam 优化器更新 1000 步的适配器权重,学习速率为 0.00003。除非另有说明,研究人员使用 StyleDrop 来表示第二轮模型,该模型在 10 多个带有人工反馈的合成图像上进行训练。

- 评估

研究报告的定量评估基于 CLIP,衡量风格一致性和文本对齐。此外,研究人员进行了用户偏好研究,以评估风格一致性和文本对齐。

如图,研究人员收集的 18 个不同风格的图片,StyleDrop 处理的结果。

可以看到,StyleDrop 能够捕捉各种样式的纹理、阴影和结构的细微差别,能够比以前更好地控制风格。

为了进行比较,研究人员还介绍了 DreamBooth 在 Imagen 上的结果,DreamBooth 在 Stable Diffusion 上的 LoRA 实现和文本反演的结果。

具体结果如表所示,图像 - 文本对齐(Text)和视觉风格对齐(Style)的人类评分(上)和 CLIP 评分(下)的评价指标。

(a) DreamBooth,(b) StyleDrop,和 (c) DreamBooth + StyleDrop 的定性比较:

这里,研究人员应用了上面提到的 CLIP 分数的两个指标——文本和风格得分。

对于文本得分,研究人员测量图像和文本嵌入之间的余弦相似度。对于风格得分,研究人员测量风格参考和合成图像嵌入之间的余弦相似度。

研究人员为 190 个文本提示生成总共 1520 个图像。虽然研究人员希望最终得分能高一些,但其实这些指标并不完美。

而迭代训练(IT)提高了文本得分,这符合研究人员的目标。

然而,作为权衡,它们在第一轮模型上的风格得分有所降低,因为它们是在合成图像上训练的,风格可能因选择偏见而偏移。

Imagen 上的 DreamBooth 在风格得分上不及 StyleDrop(HF 的 0.644 对比 0.694)。

研究人员注意到,Imagen 上的 DreamBooth 的风格得分增加并不明显(0.569 → 0.644),而 Muse 上的 StyleDrop 的增加更加明显(0.556 →0.694)。

研究人员分析,Muse 上的风格微调比 Imagen 上的更有效。

另外,在细粒度控制上, StyleDrop 捕捉微妙的风格差异,如颜色偏移,层次,或锐角的把控。

网友热评

要是设计师有了 StyleDrop,10 倍速工作效率,已经起飞。

AI 一天,人间 10 年,AIGC 正在以光速发展,那种晃瞎人眼的光速!

工具只是顺应了潮流,该被淘汰的已经早被淘汰了。

对于制作 Logo 来说这个工具比 Midjourney 好用得多。

参考资料:

https://styledrop.github.io/

评论

所有评论

推荐阅读

  • 智谱预告GLM-5.1将开源

    据 1M AI News 监测,智谱 Z.ai 全球负责人李子玄在 X 上发文:「Don't panic. GLM-5.1 will be open source.」(别慌,GLM-5.1 将会开源。)未透露发布时间及模型细节。

  • Claude Code上线云端定时任务:自动审PR、升级依赖,无需本地运行

    据 1M AI News 监测,Anthropic 旗下 AI 编程工具 Claude Code 新增云端定时任务功能。用户可指定代码仓库、执行计划和提示词,Claude 将通过云端基础设施按计划自动执行,无需保持本地 Claude Code 运行。从产品界面看,用户可通过 Web 端配置定时任务,也可在已有会话中输入 /schedule 命令创建。示例任务包括每日自动审查所有开放 PR、标记超过两天无人处理的 PR、每周一自动升级补丁级依赖并提交 PR、每晚重跑失败的 CI 任务并为反复失败的用例建 ticket。

  • 美股三大指数收跌,加密货币概念股普跌

    3 月 21 日,据 Bitget 行情数据,美股低开低走,道指收跌 0.97%,标普 500 指数收跌 1.51%,纳指跌 2.01%。超微电脑 (SMCI.O) 跌超 33%,英伟达 (NVDA.O) 跌 3.2%,美光科技 (MU.O) 跌 4.8%。加密货币概念股方面,MSTR 跌 1.87%;COIN 跌 2.67%,CRCL 跌 1.79%;SBET 跌 3.65%;BMNR 跌 0.95%。

  • 特朗普:正考虑逐步降级对伊朗的军事行动

    3 月 21 日,美国总统特朗普发文表示,随着他们考虑逐步降级在中东针对伊朗政权所开展的各项重大军事行动,他们已非常接近实现既定目标:1. 彻底削弱伊朗的导弹能力、发射装置及所有相关设施。2. 摧毁伊朗的国防工业基础。3. 消灭伊朗海空军力量,包括防空武器系统。4. 绝不允许伊朗哪怕是接近拥有核能力;同时,美国必须始终保持一种态势,以便一旦出现此类情况,能够迅速且强有力地予以反击。5. 以最高级别的力度,保护美国在中东的盟友,包括以色列、沙特阿拉伯、卡塔尔、阿拉伯联合酋长国、巴林、科威特及其他国家。特朗普称,霍尔木兹海峡的守卫与巡航工作,应在必要时由其他使用该海峡的国家来承担,美国将不再承担此责任。若受邀协助,美国愿为这些国家在霍尔木兹海峡的行动提供支持,但一旦伊朗的威胁被彻底消除,此类协助便将不再必要。尤为重要的是,对于这些国家而言,这将是一次轻而易举的军事行动。

  • 美国防部已为在伊部署地面部队做好详细准备

    3 月 21 日,据美国哥伦比亚广播公司报道,多位听取了相关简报的消息人士透露,美国国防部官员已为向伊朗部署美国地面部队做好了详细准备。消息人士称,随着特朗普正在权衡由美以主导的对伊冲突中的行动方案,高级军事指挥官已提交了旨在为此类选项做准备的具体请求。消息人士表示,特朗普一直在审议是否在该地区部署地面部队。目前尚不清楚他在何种情况下会授权动用地面部队。周四,当在椭圆形办公室被问及地面部队问题时,他告诉记者:「不,我不会在任何地方部署军队,」但他随即补充道:「如果我要部署,也肯定不会告诉你。」两名消息人士称,军方还举行了会议,准备应对如果特朗普决定派遣美国地面部队,该如何处理行动中可能扣押的伊朗士兵和准军事行动人员,包括这些伊朗人将被送往何处。(金十)

  • 特朗普:目前不想停火,霍尔木兹海峡会自动开放

    3 月 21 日,特朗普最新表示,他可以与伊朗进行对话,但目前不想停火,并表示尽管盟友不愿提供协助,但他有信心霍尔木兹海峡将在某个时间点「自动」重新开放。特朗普周五在白宫称:「你要知道,当你正彻底歼灭对方时,你是不会停火的。北约本可以帮助我们,但到目前为止他们还没有这份勇气。其他人也可以帮忙,但我们并没有指望他们。」谈及霍尔木兹海峡,特朗普再次表示:「我们不需要它。是欧洲需要它,韩国、日本以及许多其他国家都需要它,所以他们在那个问题上必须得参与进来。」特朗普还说,到了一定程度,霍尔木兹海峡会自动开放。谈到国内民调,特朗普表示:「CNN 今天发布了一项民调,我的支持率达到了 100%。」(金十)

  • Hugging Face CEO:中国开源正在成为塑造全球AI技术栈的最大力量

    据 1M AI News 监测,Hugging Face 联合创始人兼 CEO Clément Delangue 就 Cursor Composer 2 以 Kimi K2.5 为基座一事发表评论,称此事印证了三点判断:- 开源始终是竞争最大的推动力- 中国开源「如今是塑造全球 AI 技术栈的最大力量」- 前沿竞争不再只是谁从头训练,而是谁适配、微调、产品化得最快(他以 OpenClaw 为例)

  • 更新:Cursor官方确认Kimi K2.5为基座,月之暗面:使用经过授权商业合作

    据 1M AI News 监测,月之暗面官方账号 @Kimi_Moonshot 发文祝贺 Composer 2 发布,并说明:「Cursor 通过 Fireworks AI 托管的 RL 与推理平台访问 Kimi K2.5,属于授权商业合作。」Kimi 官方声明发出后,Cursor 联合创始人 Aman Sanger 和开发者教育副总裁 Lee Robinson 先后公开确认基座来源,并披露更多技术细节。Sanger 称团队对多个基座进行了困惑度评测,Kimi K2.5「证明是最强的」,随后叠加继续预训练和 4 倍规模的高算力强化学习,并通过 Fireworks AI 的推理与 RL 采样器进行部署。Robinson 补充,最终模型中来自基座的算力约占 1/4,其余 3/4 来自 Cursor 自身训练。Robinson 转引 Kimi 官方推文,表示月之暗面已确认使用符合许可证要求。Sanger 与 Robinson 均承认,发布博客时未提及 Kimi 基座「是一个失误」,表示下一个模型发布时会在第一时间注明基座来源。此前相关争议迅速在社交媒体上发酵,Elon Musk 也在 @fynnso 的帖子下回复「Yeah, it's Kimi 2.5」,进一步放大了话题热度。

  • James Wynn使用Hyperliquid邀请奖励40倍做空BTC

    3 月 21 日,据 Onchain Lens 监测,James Wynn 从 Hyperliquid 领取 5565 美元奖励,随后开设 40 倍杠杆 BTC 空单,入场价 69959 美元。

  • Strategy CEO:摩根士丹利若将2%资管规模配置BTC或给市场带来巨额买盘

    3 月 21 日,Strategy 首席执行官 Phong Le 在 X 平台发文表示,摩根士丹利旗下财富业务资产管理规模约为 8 万亿美元,其推荐的比特币配置比例区间为 0–4%,若按 2% 配置计算,意味着将给加密市场带来约 1600 亿美元潜在买盘,规模将是现有贝莱德比特币交易所交易基金 IBIT 规模的三倍。Phong Le 形容这类潜在需求为「Monster Bitcoin」,意指比特币市场将迎来巨额买盘,可能对价格和流动性产生显著影响。