这份指南将带你走进 ComfyUI 的世界。我们将从最基础的概念开始,手把手教你搭建从文生图到视频生成的各种工作流,还会帮你理清那些让人头大的模型分类,并给出不同预算下的硬件配置建议。
ComfyUI 从入门到精通:节点式AI工作流完全指南
1. 什么是 ComfyUI?
想象一下,传统的AI绘画工具(如WebUI)就像一个“傻瓜相机”,界面友好但功能固定。而 ComfyUI 则是一台“专业单反”——它把AI生成过程中的每一个环节(加载模型、输入提示词、采样、解码等)都拆解成了一个一个的 “节点”。
你不需要写代码,只需要像拼乐高一样,用鼠标把这些节点连接起来,就能搭建出属于自己的AI工作流。
为什么大家都在用 ComfyUI?
- 高效省显存:相比于传统工具,ComfyUI对显存的管理更加优秀。它甚至支持“权重流式加载”,即使显存不太够,也能跑动大模型(虽然会慢一点)。
- 高度定制化:无论是简单的文生图,还是复杂的视频生成、AI换脸、高清放大,你都可以通过组合节点来实现。
- 可复现性:搭建好的工作流可以保存为JSON文件,分享给朋友或社区,对方拖进去就能用,完美复现效果。
2. 核心概念:Node(节点)
Node是ComfyUI的灵魂。理解节点,你就理解了ComfyUI的一半。
简单来说,一个节点就是一个拥有“输入”和“输出”的功能块。
- 输入:节点需要的原料(比如:模型、图片、提示词、参数)。
- 输出:节点加工后的产品(比如:处理后的文字、潜空间图片、最终成图)。
在ComfyUI中,工作流其实就是一个有向无环图。数据从最开始的节点流入,经过一系列节点处理,最终流向“保存图像”或“预览视频”节点。
三种常见的节点类型:
| 节点类型 | 作用 | 例子 |
|---|---|---|
| 加载器 | 载入模型或资源 | Load Checkpoint (加载大模型)、Load LoRA |
| 处理节点 | 执行核心计算 | CLIP Text Encode (编码提示词)、KSampler (采样器) |
| 输出节点 | 展示或保存结果 | Save Image (保存图片)、Preview Image |
如果你觉得自带节点不够用,还可以安装自定义节点。它们由社区开发,能解锁各种神奇功能,比如让AI写提示词、做视频、甚至3D建模。不过要注意,装太多“野生”节点可能会导致软件崩溃或安全性问题,记得只装你需要的。
3. 四大核心工作流编排
这里我们用“伪代码”和流程图来展示四种最常用的工作流应该如何连接。
3.1 文生图
最基础的流程,适合刚入门的你。只需要加载模型、写提示词、设置尺寸就能生成图片。
简单描述:
- Load Checkpoint:加载大模型(如FLUX.2或SDXL)。这个节点会输出3个东西:
MODEL、CLIP、VAE。 - CLIP Text Encode:把你的提示词(正面和负面)编码成AI能理解的东西。
- Empty Latent Image:生成一个空白的“潜空间”画布(设定宽高)。
- KSampler:核心节点,负责去噪生成。连接
MODEL、编码后的提示词和空画布,设置步数、CFG,点击运行。 - VAE Decode:把潜空间的图片解码成像素图。
- Save Image:保存到本地。
3.2 图生图
如果你想基于一张现有图片进行修改或重绘,就需要用到图生图。
关键变化:
- 将
Empty Latent Image替换为 Load Image 节点。 - 加载的图片需要经过 VAE Encode 节点,将其转换为潜空间噪声,再送入采样器。
- 在采样器中,记得设置
denoise参数。如果设为1.0,相当于文生图;设为0.6,则会给原图保留更多特征。
3.3 文生视频
视频生成是现在的热门趋势,需要用到专门的视频模型(如Wan2.2、LTX-2)。
注意事项:
- 模型选择:文生视频必须用专门的视频生成模型(如
Wan2.2-VACE或LTX-2),普通SD模型不行。 - 潜空间不同:视频需要生成多帧画面,所以潜空间不仅有宽高,还有“时间轴”(帧数)。你需要设置生成多少秒,以及帧率。
- 提示词风格:视频提示词要更注重动态描述,比如“镜头缓慢推进”、“人物眨眼睛”、“海浪拍打沙滩”。
3.4 图生视频
这是目前最常用的视频玩法,让一张静态图片动起来。
关键技巧:
- 图片驱动:输入的第一帧决定了视频的基础构图和人物长相。
- 运动幅度:这类工作流通常会有“运动强度”或“Motion Bucket”参数。调太高,人物会变形;调太低,画面可能几乎不动。例如LTX-2就提供了这种控制方式。
- 组合进阶:你可以先搭建一个文生图工作流生成一张高质量的图,然后把这个图的输出节点“拖”到图生视频工作流的“加载图片”输入上,这样就形成了一个图文生视频的高级工作流。
4. 本地部署与硬件推荐
ComfyUI可以在普通电脑上运行,但显卡是核心。显存大小直接决定了你能跑多高级的模型。
| 级别 | 推荐显卡 | 显存 | 适合场景 | 建议 |
|---|---|---|---|---|
| 入门级 | RTX 3060 / 4060 | 8GB - 12GB | SD1.5, SDXL, 小尺寸视频 | 尽量玩SDXL模型,或者使用fp8(8位浮点)量化版的大模型,能有效降低显存占用。 |
| 进阶级 | RTX 4070 / 3090 | 12GB - 24GB | FLUX.2, SD3, 短时文生视频 | 二手RTX 3090 24GB是目前性价比之王,显存够大,能跑绝大多数模型。 |
| 旗舰级 | RTX 4090 / 5090 | 24GB+ | 高分辨率视频、长视频、训练模型 | 如果你买到了RTX 4090或50系,恭喜你,这就是ComfyUI的“完全体”。即使是LTX-2这种大模型也能轻松驾驭。 |
除了显卡,内存也建议32GB起步,如果有64GB会更从容,因为当显存爆掉时,ComfyUI会把数据暂时移到内存里。硬盘空间建议留出200GB以上,现在单个大模型动辄30GB,插件和输出文件也很占地方。
5. 模型9大分类详解
这是最让人头疼的地方,我们为你梳理了ComfyUI中常见的9大类模型:
| 序号 | 模型类型 | 文件后缀 | 存放位置 | 作用 | 代表模型 |
|---|---|---|---|---|---|
| 1 | Base Model / Checkpoint | .safetensors | models/checkpoints/ | 大脑。包含生成图像的所有知识和权重,是整个工作流的起点。 | SD1.5, SDXL, FLUX.2, Wan2.2 |
| 2 | LoRA | .safetensors | models/loras/ | 风格插件。用于微调,可以让人物长成特定样子,或学会特定画风,体积很小。 | 各种人物、画风LoRA |
| 3 | VAE | .safetensors | models/vae/ | 解码器。负责潜空间图像和像素图像之间的转换。好的VAE能让你画面的色彩更鲜艳。 | sdxl_vae.safetensors |
| 4 | CLIP / Text Encoder | 内嵌或单独 | models/clip/ | 翻译官。把人类写的提示词转成AI能懂的向量。 | CLIP-L, T5 (Flux常用) |
| 5 | ControlNet | .safetensors | models/controlnet/ | 姿势控制器。通过提取参考图的边缘、姿态、深度等信息,精确控制生成图的构图。 | OpenPose, Canny, Depth |
| 6 | Upscale Model | .pth等 | models/upscale_models/ | 放大镜。专门用于放大图片,比直接拉分辨率效果更好。 | 4x-UltraSharp |
| 7 | Video Generation | .safetensors | models/checkpoints/ | 视频大脑。专门生成视频的扩散模型。 | LTX-2, Wan2.2-VACE, Mochi |
| 8 | IP-Adapter | .bin | models/ipadapter/ | 形象保持器。给几张参考图,就能让生成内容保持统一的风格或人物特征。 | IP-Adapter Plus |
| 9 | Inpainting / Edit | .safetensors | models/inpaint/ | 修图专家。专门用来重绘图片的特定区域,或者进行局部修改。 | Qwen-Image-Edit |
希望这份指南能帮你推开ComfyUI的大门。不要被密密麻麻的节点吓到,从最简单的文生图模板开始,试着连一连,改一改,很快你就会发现这个“乐高”世界的无穷乐趣。
如果这篇文章对你有帮助,欢迎分享给更多人!









