导图社区 Stable Diffusion WebUI 全课件笔记
全课件笔记:① 基础配置要求 ②基础构架(大型/VAE/embedding/hypernetworks/LORA 以及 extension主流插件)③UI界面的功能介绍 ④ 介绍了主流插件尤其是controlnet的使用和功能⑤提供了一个案例思维导图。
编辑于2024-08-30 19:12:34Stable Diffusion WebUI
前置配置
① Python ② VS code user setup X64 ③ Git(专用下载器)
最低显卡配置:显存不低于8G 建议显卡显存:16GB+(对应2024年XL系列超大模型的普及) 硬盘空间:(长期使用前提下)预留1T的储存空间
基础构架
大模型 Base Model Checkpoint
文件格式 *.ckpt *.safetensors
文件大小 SD1.5 2G~4G SDXL 6G~8G
功能: 决定出图风格
文件路径 novelai-webui/ model/stable-diffusion
VAE 自分编码器
文件格式 *.pt *.safetensors
功能: 滤镜+微调
文件路径:models/VAE
注释: 某些大模型已经内置了"滤镜"效果,生成图像可能会影响画风色调
Embedding textural inversion
文件格式 *.pt
文件大小: 几十KB左右
文件路径: 根目录/embedding
注释: 【文本嵌入模型】 提示词prompt打包 关键词:人物/动作/画风等等
概念: 类似于把某些细化/复杂的models prompt 打包,可正推,可反推
hypernetworks
文件格式: *.pt
文件大小: 几十KB
文件路径: 根目录/models/hypernetworks
注释: 低配版lora 基于 画风/人物/物品/训练 权重值需多次调试测试
LORA/DORA LyCORIS
文件格式 *.ckpt *.pt *.safetensors
文件大小: LORA/DORA 100M左右 lycoris 300M左右
文件路径: 根目录/lora
注释: 专项微调类模型 大语言模型的低阶适应
功能范围: 复刻人物特征/(训练)画风&风格/提取all mostly特征
补充: 需要对应大模型来配套,生成效果最好,lora训练需要大模型做参考 权重数值建议在0.4~0.6之间 尽量不要混合过多的lora触发词 trigger words
extension(扩展)
文件格式: *.pth *.bin *.onnx *.safetensors 等等
文件大小: ~不等
文件路径: 根目录/extension
注释: 功能性【扩展插件】 放大/描边/动画/换脸/视频 &the like
SD extension(扩展插件)
civitai helper 【C站助手】
显示模型预览图的插件
全局代理
中文提示词插件
sd-webui-prompt-all-in-one
中文提示词自动补全
简体中文语言包
双语对照翻译(过时的)
Tag自动补全
中文补丁
位置: extension/a111-sd-webui-tagcomplete/tag
文件名:zh_cn.csv
设置
词库文件 zh_cn,csv
词库翻译文件 zh_cn.csv
civitAI Browser+
C站模型下载器
全局代理
WD1.4 标签器
stable-diffusion-webui-wd14-tagger
实现prompt的反推
推理出图片内的prompt (权重由大到小)
通过调整阈值 过滤掉权重值以下的prompt
排除tag中写入prompt 排除不想的内容
附加tag中写入prompt 生成需要的内容
inpaint anything
模型下载
ADetailer
解决全身像或多人图像的脸部修复
分类
face面部处理
hand手部处理
person身体畸变处理
算法
yolo算法
通用性/任何物理/亦适用于动漫
mediapipe算法
专注处理面部/写实模型
prompt
添加表情/配饰等面部特征
Detection model confidence threshold
检测模型(如图像识别或物体检测模型)中,模型输出结果的置信度阈值
高于某个设置阈值的面部会被检测到
inpaint
Inpaint denoising strength
重绘去噪强度
重绘区域的改变强度
建议≤0.6
Inpaint mask blur
重绘区域边缘羽化强度
SD终极放大脚本 Ultimate SD upscale
算法类型type
Band pass
细节将更为锐利,尤其是面部和衣物的精细纹理。你可以清晰地看到毛孔、笔触和色彩的细腻变化。
Half tile offset pass
画面整体显得更加自然流畅,仔细观察蒙娜丽莎的面部和背景,你会发现重复模式和伪影明显减少。(拼接自然)
Half tile offset pass + intersections
细节更加完善。色块和明暗交界处的过渡更加平滑,如蒙娜丽莎颈部与背景的交界。
算法参数
降噪值
过大导致细节丢失、画面模糊; 过小则可能使画面噪点过多
模糊度
过大导致画面整体模糊; 过小则可能使画面过于锐利
填充值
过大可能导致填充区域与周围不协调; 过小则可能无法有效填充空洞
ControlNet sd-webui-controlnet
插件安装
extensions/扩展插件
关闭程序 重新启动(并非点击页面重启)
模型安装
预处理器 Preprocessor
自动安装
通过预处理器把图片转化为不同的"数据图"
辅助生成类模型 Models
将"数据图"生成想要的结果
*.yaml格式
配置文件
*.PTH格式
权重文件与配置文件 命名要一致
P:正式版 E:测试版 U:未完成
手动下载
Windows powershell 命令提示符安装方法 F:\stable diffusion XXX\novelai-webui-aki-vs\extensions
输入:powershell
输入:git clone
安装包地址复制粘贴到命令栏,Enter
插件的多维度控制 controlnet unit 0-X
多控制单元对生成图片结果的控制
在【设置】
controlNet
Multi ControlNet 最大网络数量
UI面板图标
"单张图片"和"批量处理" 同webUI里的"图生图"功能一样
关于批量处理
若webUI内图片是单张 而controlnet图片是多张
原图与controlnet中的每个参考进行组合 最终生成为等同参考图数量的结果
图生图的批量处理 (原图多张)
生成与原图数量一样多的图片 并且不能确定原图与那张参考图组合
1.创建画布 2.启用camera 3.水平翻转camera 4.将参考图尺寸同步到生成图像
1.创建画布
等待作者修复这个问题
Pixel perfect【完美像素】
消除了之前预处理器带来的错位问题 优化预处理的结果
effective region mask
有效区域蒙版
控制权重/启动控制的步数/结束控制的步数
Resolution 预处理分辨率
根据情况选择合适分辨率
可以勾选【完美像素】 让系统自己去设置
control mode
类似"提示词相关性"与controlnet权重的结合体
不会影响预处理后的结果 但是影响生成图像的结果
可以多尝试"平衡模式/Balanced"或 "ControlNet为主/ControlNet is more important"
画面缩放模式/Resize Mode
相同于"图生图"中的缩放模式
当webUI所设置的宽高 与上传图片发生冲突时选择的处理方式
不同于
"图生图"中的缩放模式针对webUI的处理
该模式则对于controlNet所上传图片的处理
控制网络类型/Control Type
canny边缘检测
有更好的 lineArt 模型取代
对与黑底的线图,反转颜色,使用 invert 预处理器
Depth/深度图
保留构图/结构 绘制不同内容的图片
depth_leres depth_leres++ 适合处理室内场景or密闭场景 景深相对较近距离的
可以根据构图/绘画需求 进行【保留】或【删除】 【背景或前景】
depth_midas depth_zoe 可以更好表达纵深/远近关系 适合较大空旷场景
Recolor/重上色
原图→预处理器→黑白→辅助模型→上色
recolor_intensity
注重饱和度
recolor_luminance
注重色彩的明亮度 明暗对比度相对较好
推荐
Gamma correction 伽马校正/灰度校正
突出明暗对比度 越高对比度越强,但画面越暗
inpanint/局部重绘
通过mask引导AI进行局部重绘
支持少量或没有prompt的图像修复重绘
更加简单泛化
预处理器
inpaint only
只针对蒙版内区域进行重绘/不涉及mask以外区域
inpaint global harmonious
侧重于蒙版内容的融合 为融合蒙版区域内容会改动蒙版以外区域
风格不确定性
inpaint only+lama
lama抹除mask区域内容/再重新绘制mask内容
人物/物体在画面内的消除
Tile/分块
①细节AI重识增 ②根据画块内容引导扩散再生成
none/无
直接使用模型生成/无需预处理器
tile resample
降低分辨率/模糊化,增加生成图像的多样性
Down sampling Rate 缩放倍率 数值越大分辨率越小,图像变化越大
tile colorfix/修复色差
variation 重置图快色彩变化
缺点始终锁定色相
tile colorfix+sharp/锐化改良版
解决图像模糊不清
sharpness/锐化程度 建议:0.7~1.0
blur gaussian/高斯模糊
sigma控制图片模糊程度
模糊后给tile补充细节景深/空间
扩展点:tiled diffusion VAE插件会自动调用tile模型(目前未涉及)
运用技巧 高分辨率放大/生成高细节 细节替换/通过prompt引导生成新内容
softedge/软边缘
边缘柔和/处理毛发优势
HED
优点:保留原图更多细节,图像完整性好 缺陷:对轮廓内外区分准确度较差/刻画线条出现误区
PiDiNet
优点:较为合理的保留图片主体 缺陷:会损失一些细节
更稳定推荐
关于 safe 版本
前后景删除后的结果
强化"更多的细节"删除
IP-Adapter
I=image P=prompt 图像提示适配器
以 image 当作 prompt 生成带有【图像提示】的画像 风格/特征/画风迁移生成结果
运作方式: 图片转化为编码特征→嵌入到生成过程中
CLIP 将参考图整体看作提示
ip-adapter-plus_sd15(推荐侧重参考图) 无视controlnet中的控制侧重模式
face_id 面部特征作为提示
基础需求: 写实方向图片 面部足够清晰
不满足条件(审核条件): no face found in image
运用时调用lora模型
ip-adapter-faceid-plusv2
建议强度:0.5~0.7
推荐使用 plus V2 版本
特点:【可控】固定面部特征+可控面部clip图像嵌入
缺点:受公众人物肖像权干扰
安装依赖:预处理器/处理模型/lora模型
openpose/人物姿态控制
将图像中的人物转化为简化 骨骼图
子主题
UI界面内容
CLIP跳过层
contrastive language-image pre-training 语言与图像之间对比预训练
释义: 语言文字与图像之间关系的处理模块 跳过越多,系统对两者之间的认知关联越模糊
prompt提示词
功能区
正面提示词
希望出现什么绘图结果
反面/负面提示词
不希望出现的绘图结果
分类思路
[画质][主体][人物特点][人物服饰][背景][画风][镜头运镜/构图][季节时间][色调氛围] [自然现象][文化风格]NSFW
多阅览临摹成功案例
通过插件/extension
书写格式
内容语法
单词
1boy,handsomes,sitting,sofa
词组
1handsome boy,sitting on the sofa
短句
1handsome boy is sitting on the sofa
分隔格式
不同关联词tag之前使用英语"逗号"分隔, 空格或换行不影响生成
两个单词之间的空格有变化
越靠前的prompt权重越高,主体表达内容靠前书写
, +空白也会有微弱干预效果
描述同一类别内容,会分别/混合出现
红色头发+蓝色头发
增强/减弱(书写)
prompt权重数值
括号内写入权重(数值倍数)
(loli),(1girl:1.21),(cat ears:1.1):0.9
括号书写(上限三层嵌套)
括号 [] 降低权重
[] =0.9倍权重
大括号{} 增加权重
{} = 1.05倍权重
{{{ x }}}=1.15倍权重
小括号() 增加权重
() = 1.1倍权重
(())=1.1*1.1=1.21权重
下划线 _ 链接词义
牛奶咖啡
coffee,milk 牛奶和咖啡
coffee_milk牛奶咖啡
混合内容
用 AND 把多种要素柔和
1 cat AND dog
结果:又像猫又像狗
用 AND + 权重写法
1cat:权重值 AND 1dog AND 1tiger
[x|xx] 生成图片内容交替/混合采样
a girl,[black|red] hair
一个女孩有着黑色和红色的头发
控制提示词生效时间
[1man:flower:20] 假设生图step=60,前20step生成1man,后40step生成flower
[fish:0.8] 在生成图片时,当采样执行到80%时才生成[鱼]的内容
[prompt::数值]
prompt到多少step停止参与图像生成
采样器/迭代补数
Stable Diffusion V1.9 采样器
细化器/Refiner
根据采样方法+训练方式 精炼处理
调度类型
Karras
调速器/优化算法
SDE
随机微分方程算法 结合"a"祖先算法
不收敛/随机性/用于变换
sampling method (采样器类别)
DPM
提高step提升生成画质
DPM2
相比DPM有提升但耗时长
建议使用DPM + 调高采样step平替
with "a"
祖先采样器 随机性/不收敛/适合变换
NO "a"
稳定性/收敛算法
Heun
为Euler的改进算法
画质更加细腻 但出图时间慢一倍
Euler
简单直接的采样方式 处理速度快
(DPM++ )2M (DPM++ )2S
增加相邻层之间的信息创立
S:单步算法
M:多步算法
"S"的升级版,可以取代"S"
(DPM++)3M
实际使用中需更多 采样步数 适当调低 CFG Scale 才能有较好效果
测试 采样步数 30~40开始
文生图/图生图
基于SD模型的1.5版本
偏好分辨率 512~768之间
如出现生成内容比例不协调
考虑分辨率设置问题
提示词引导系数/CFG Scale
prompt内容对图片生成结果的影响系数
建议7~12
随机种子
扩展模型从种子库(噪点/像素组合)中抽取的样本数量
额外/extra
差异随机种子+差异强度 融合原有seed生成新的图像
图生图
缩放模式
拉伸/just resize
保持原有内容,仅图像比例的压缩/拉伸/变形
裁剪/crop & resize
裁剪原图部分内容
填充/resize & fill
(括图)扩展原有图像以外的内容【AI自生成】
人物/风景/背景
直接缩放(潜空间放大)/Just resize (latent upscale)
类似于 拉伸效果,配合重回幅度重新添加新的细节 (大构图不变前提下,重绘新内容)
涂鸦绘制/Sketch
涂鸦重绘想要改变的内容/色调
局部重绘/inpaint
蒙版模糊度/Mask blur
(羽化)边缘柔和融入
蒙版模式
绘制蒙版内容/Inpaint masked
涂抹的范围重绘
绘制非蒙版内容/Inpaint not masked
涂抹以外的范围重绘
蒙版蒙住的内容/Masked content
填充/fill
色调/像素糅合(混合)后生成复合整体的图像
原图/original
以原像素作为预处理,保持原图较高相似度/光影关系
潜变量噪音/latent noise
通过色块去噪点方式再生成图像
潜变量数值无/latent nothing
依据原始色相/色调重绘
(重)绘制区域/Inpaint area
仅蒙版绘制参考半径(像素)/Only masked padding, pixels
蒙版边缘预留像素
数值越高像素密度稀疏/松散
全图/Whole picture(较少运用)
全图像素密度参考/保持的重绘
仅蒙版/Only masked
蒙版区域内像素铺分
仅蒙版绘制参考半径 影响
图像width+height分辨率 影响
局部重绘手涂蒙版/Inpaint sketch
简单涂鸦绘制想要改变的区域内容
运用举例: -涂鸦部分已绘制待命 - prompt 适量修饰 -【蒙版模糊】羽化一定边缘 -【绘制蒙版内容】 确认 -【原图/original】确认 -【仅蒙版绘制参考半径(像素)】适当降低,提升像素密度 -【重绘幅度】适量,太高则生成不相关图像
蒙版透明度/Mask transparency
局部绘制(上传蒙版)/Inpaint upload
可通过Photoshop等修图软件绘制高精度mask上传(PS蒙版原理)
黑色区域 不涂蒙版 白色区域 蒙版区域
批量处理/Batch
配置文件夹路径/批量处理蒙版任务流
图片名称和蒙版名称对应
图片信息/PNG info
加载图片生成的信息参数
脚本/script
X/Y/Z plot
对比不同设置和参数下的生成结果
语法
每次加 1
1-5 = 1,2,3,4,5
不同步长
1-5(+2) = 1,3,5
10-5(-3) = 10,7
1-20(5) = 分成5张图对比
prompt/提示词 矩阵
对比不同提示词在图像生成中的效果
正常prompt|X prompt|Y prompt|Z prompt (测试XYZ的prompt效果区别)
从文本框或文件载入提示词 Prompts from file or textbox
每一行(段落)内容生成一张图片
-- 格式作为开始
--prompt"内容" --negative_prompt"内容" --width 1024 --height 768 --sampler_name"DPM++ 2M karras" --steps 10 --batch_size 2 --cfg scale 3 --seed 9
实际案例
About Space Astronaut Cat
文生图
checkpoints筛选/推演
MIX_PRO_V45
prompt
正面
起手式:质量/画风/色调 运镜逻辑:景深/透视逻辑/表现幅度(肖像?全身?半身?正面?) 构图内容:人形?非人类?雌性or雄性/特征描述/ 背景内容: 风景/自然现象/存在环境
负面
embeddding嵌入
lora
强化画风/细节增强/融入元素特征
大致结论
masterpiece,highres,illustrator,brilliant color, shallow depth of field,upper body,visual lens, tabby cat in white spacesuits,red eyes,(no humans:1.6),solo,colored sclera,furry,facing viewer,mature male,glowing eyes,ears that emit blue light, starry_background,galaxy,(meteor shower), <lora:spacesuit3:0.4>,spacesuit,<lora:add_detail:1.6>,<lora:Neon_Dreams:0.75>,Neon Dreams,
图生图
导入PS绘画修改
修正构图/结构/光影关系合理化
让AI识别到重绘位置的内容 结构/材质/
建立更加精确mask
图生图简单抽卡
controlNet插件
inpaint 局部重绘
精修/放大/转视频
inpaint 扩图
inpaint anything (扩展插件)
create a mask(局部重回蒙版)
PS导入再修正
controlNet插件
TILE模型调试
recolor重上色调整
CUDA out of memory 炸显存 BOOM!