【吐司创造营】第三期第二课:IPadaptor+ControlNet!所有复杂工作流的起始!


更新

该文章由【吐司创造营】直播的部分脚本编成,部分操作向和演示向内容无法用文本撰写,故推荐配合回放观看效果更佳。部分观点来源网络,如有错误欢迎指正!

本期文章对应回放为👉:BV1Vr42177aa

上节课遗留的问题:combine的具体使用方法

  1. 当你想分离提示词,分开描述画面的时候可以使用combine,同样用于分隔token,达到提示词不相互污染的效果。

  2. 在template中,可以把你想自定义给玩家的提示词通过combine的形式分离开来,讲提示词的使用权交给玩家自定义。

  3. 当指定一个物体的颜色污染到其他物体上时,我们称之为bleeding,及颜色污染或者颜色溢出。

  4. clip的分离和组合:类似SD当中break的做法。

    1. concat:隔离提示词,先联结两个提示词,再生成噪音。

    2. combine:将两个提示词单独进行了推理,分别产生噪音最后再把两张图像进行合并再生成一个平均化的内容。生成图像带有偏向性(偏向第一个提示词/第二个提示词),在使用时要先把提示词2的内容复制到提示词1,然后再单独在提示词1中加入想实现的提示词。

    3. average:平均采样,更适合两种不同画风的融合或者两种不同描述的融合。把两个提示词进行一个去重并且融合,再生成噪音。如果两个提示词的token不超过一个提示词token的长度(77),它会把所有的题词打标进一个提示词。

    4. 如何过度:右键-高级-设置条件时间,将两个提示词的权重分别设置(类似于controlnet里的介入时机)然后用combine送进正向提示词。

IPadaptor

  1. 定义:IP-adapter可以识别参考图的艺术风格和内容,生成相似的作品,还可以搭配其他控制器使用。

  2. 输入一张参考图片,需要通过clip vision模型对图像中的内容进行理解,再通过ip-adapter模型和大模型综合一下作为条件输入到潜空间。

  3. IPA结合了text encoding文字编码和image encoding 图像编码两种编码方式,把这个token打包成embedding然后再插入到扩散的过程当中(unet模型管道)

  4. 三种关系:Apply所负责的图像编码,prompt词的文字编码,Ksample采样

  5. 风格转汇最好的是plus

  6. face:作者早期针对面部特征提取的一个模型,更细致的来观测或者是提取我们这个图像当中的面部特征

  7. noise是IPA的重绘幅度

 

为什么在有了提示词的情况下要降低apply的权重?

两者都是embedding,一方权重高了的话会把另一方大部分的权重给顶掉,如果要加强提示词的权重,要降低apply的权重,适当降低CFG

Plus和1.5的区别

1.5的token是8个,plus是16个,plus对图像的理解更好,权重更大,更还原

4
0