Stable Diffusion 预置提示词优化过程

背景

Stable Diffusion/MidJourney对于不同的使用者有两种完全不同的作用和用法：

对于设计师等个人核心价值就在图片本身的角色，SD是提效工具。使用时会进行大量的尝试、调整、批量对比。
对于使用集成模型的用户，SD是赋能工具。在原来不能插图的地方插图，但是这些地方一定是非核心价值，整个过程就需要快速、简单、高质量。
对于后者，预置提示词的优化就非常重要了。因为用户会更倾向去选择关键字而非思考和尝试。

对于这些预置词，是可以充分利用ChatGPT来辅助炼丹的。因为我比较老土，并没有图片质量自动评估的手段，所以不能完全自动化。这里会充分利用ChatGPT的知识和扩展能力。

把目标词输进去，看这个词是不是在训练集中与目标内容有强关联
1.a 有强关联到step 2
1.b没有强关联到step 5
去chatgpt中问类似You are an expert in art and drawing. I will give you some art style in following messages. You will tell me how to judge the overall quality of this art style, respond with keywords. Both in english and Chinese.让chatgpt给出该目标词关联的一些keyword或者描述。
挑选一些描述，让chatgpt转成形容词。adj for
把这些词放到prompt中，选择0-3之间的权重，一般选1.0-1.5。评估词的有效性
4.a 如果有效到step 6
找到目标词的关联范例或者画家，翻译成英文后放到提示词中。权重在0.2-1.5间。
调整step到一个较好的状态。DPM++ SDE Karras默认可以从7-15中挑，某些特殊场景考虑6。

还有另一个套路是让用户的提示词过一遍LLM，把好SD prompt的规则填入到LLM中，让LLM补充内容。

让LLM填充主要的三个必填项：风格、背景和主体
为风格找到关联范例或者画家
根据风格找到合适的颜色风格
根据背景和主题找到合适的构图。但是构图通常不太能用prompt说明白，最好想办法搞一个构图的controlnet
风格最好是预置词，不同风格的step差别太大。当然也可以用LLM选择一个范围内的step，原则就是模糊+主体细节少step少，否则step多
这里可以观察一下jinaai的优化结果，基本上就是上述过程除去构图和风格预置词。

文章出处登录后可见！

已经登录？立即刷新