技术分享-关于AIGC前置图片生成
前言
通常使用AIGC类工具生成视频时,大致分为四种情况:1.文生视频;2.图生视频;3.视频重绘;4.复合生成(全能参考)。
这其中使用频率最高的后三种方式都会使用到静态图片资产,而且资产的质量往往对于生成结果会产生决定性影响。
所以在我的工作流程中,前置图片的生成我会倾向于使用市面上能力较强的图片生成模型,截止至撰稿,这个模型无疑是Nano-Banana2;在实际操作中,我倾向于ComfyUI接通API来使用它,通过控制Json参数+修改提示词的方式,实现精准的批量生成参考图。
(Json可以理解为前置提示词,AI输出的所有内容都会添加这个前提条件,比如现在要修改一张图片的背景,可以在Json中写死只修改背景,那么不管其它提示词写什么,AI都只会修改图中的背景。)
关于Json,我在我需要批量生成图片时,我会填写输出分辨率,和要完成的工作内容(比如白模上色、风格转绘等)。而通常我只需要一张或几张图片时,我会更倾向使用提前写好的Json代码,这个代码通常会使用更宽松的限制条件,让AI有更多自由发挥的空间,这偶尔会带来惊喜。
图片生成工具
我一般会结合实际情况使用三种生成工具:1.Gemini官网;2.CherryStudio;3.ComfyUI;
- Gemini官方对于需要前后文重复修改图片时最为好友,同时速度也相较于API更加迅速,并且免费。
- CherryStudio我更多的是满足我快速生成一张图片的需求,因为它是一款桌面软件,我可以快速的打开它,直接开始输入提示词,然后出图。
- ComfyUI就是作为流水线作业的最佳选择,我提前为它编写了多套工作流和Json来应对需要大量出图、抽奖的情况,我可以直接让它在无人监守的情况下批量生成几百张图片供我挑选,同时它也赋予了我极大的自由度,可以根据项目定制工作流,比较典型的适用场景便是3Dmapping的制作,因为其需要画板固定的特殊性,我可以在Json中通过代码来实现100%内容对位,而不用在每个自然语言提示词中复述我的需求。
ComfyUI工作流
在这篇技术分享文章中,我将以一份双图白模转绘工作流来举例。
它的工作流核心节点:1.Json代码;2.提示词;3.底图;4.参考图
- Json代码:模型前置条件。
- 提示词:自然语言提示词。
- 底图:要修改的图片。
- 参考图:要实现的风格。
首先是工作流截图:
Json代码(白模转绘):
{
“contents”: [
{
“role”: “user”,
“parts”: [
{
“text”: “Task: 3D Rendering. CORE RULE: You MUST strictly follow the geometry, perspective, and composition of the FIRST image (the white model). Do not change any shapes. Apply the materials, lighting, and textures from the SECOND image (style reference) onto the first image. Prompt: {{PROMPT}}. Technical Parameters: control_weight=2, style_weight=0.5, fidelity=1.0. \n[Internal ID: {{RANDOM_NUM}}]”
},
{
“inlineData”: {
“mimeType”: “image/png”,
“data”: “{{WHITE_MODEL}}”
}
},
{
“inlineData”: {
“mimeType”: “image/jpeg”,
“data”: “{{STYLE_REF}}”
}
}
]
}
],
“generationConfig”: {
“imageConfig”: {
“imageSize”: “2K”
},
“candidateCount”: 1,
“temperature”: 0.4
}
}
通过截图可以看到,相较于传统的开源图片生成模型,通过接入API的方式搭建工作流非常的简单,因为其实际的生成工作并非在本地完成,所以对于机器完全没有算力需求;而且价格也非常的廉价(一张2K图片的生成成本大约0.1元人民币);这使得工作流可以实现批量生产而不影响我的前台软件使用(因为不消耗本地算力),我可以同步进行后期合成、三维建模等前置工作。
NanoBanana2的提示词对于自然语言的兼容性极佳,在有Json辅助的情况下,几乎不用去添加任何限制词汇,这让我可以只用一小段提示词就可以精准的生成想要的效果,效率非常的高;同时这个工作流仅仅只是基础用法,在这之后甚至可以直接连接编写好的Seedance2.0节点(这在我的另一篇技术分享文章中有提到),实现AI生图-图生视频的全自动工作流,当然还可以根据实际情况继续扩展(比如我还搭建了一套直接提取视频中关键帧的工作流,方便我在网站中展示作品关键帧)。
总之我非常推荐去尝试以ComfyUI工作流去驱动闭源AI模型,当然市面上已经有诸如Tapnow等第三方网站集成了工作流的模式,但其创作成本对于个人创作者并不友好(巨贵!QAQ),不过在有AI帮助的情况下,至少对于我来说ComfyUI的学习成本并不高。
毕竟已经过了生啃教程的时代了!
(完)
