Jak jsem si rozjel AI generování obrázků lokálně

Kompletní průvodce instalací ComfyUI pro fotografy a 3D grafiky

Jan Lipina | únor 2026

Poslední rok sleduji, jak se AI generování obrázků posouvá raketovým tempem. Midjourney, DALL-E, Google Gemini – všechny tyto služby dělají skvělou práci. Ale jako někdo, kdo žije z reklamní fotografie a 3D vizualizací, jsem potřeboval něco víc než jen webový formulář s textovým polem.

Potřeboval jsem plnou kontrolu nad každým krokem procesu – od přesného nastavení sampleru, přes integraci s mými renderovacími pipeline v Cinema 4D, až po možnost trénovat vlastní modely na specifickém stylu klienta. A hlavně: pracovat bez závislosti na internetovém připojení a bez toho, aby každý můj prompt putoval přes servery třetí strany.

Rozhodl jsem se rozjet AI generování kompletně na vlastním hardware. Tady je přesný postup, jak jsem to udělal – krok za krokem, včetně všech odkazů a příkazů.

1. Co budete potřebovat (hardware)

Lokální AI generování je náročné na grafickou kartu. Klíčový parametr je VRAM (video paměť). Minimální rozumný vstup je 8 GB VRAM, ale pro profesionální práci doporučuji 16 GB a více.

Můj setup:

GPU: NVIDIA RTX 5090 (32 GB VRAM) – umožňuje běžet všechny současné modely v plné přesnosti
RAM: minimálně 32 GB, doporučuji 64 GB
Disk: SSD s alespoň 100 GB volného místa (modely jsou velké)
OS: Windows 10/11 (návod je pro Windows, ale ComfyUI běží i na Linuxu a macOS)

Tip pro fotografy a grafiky: Nemusíte mít RTX 5090. S kartou jako RTX 3060 (12 GB) nebo RTX 4070 Ti (12–16 GB) se dá pracovat – jen budete používat kvantizované (zmenšené) verze modelů a generování bude pomalejší. I tak mluvíme o 15–30 sekundách na obrázek, což je pro iterativní práci naprosto použitelné.

Pro lokální generování existují dvě hlavní rozhraní:

ComfyUI – node-based rozhraní (jako Nuke nebo Houdini). Každý krok je vizuální uzel, který propojujete. Máte absolutní kontrolu nad celým procesem. Moje volba.
AUTOMATIC1111 / Forge – klasické webové rozhraní s formulářem. Jednodušší na začátek, ale méně flexibilní pro pokročilé workflow.

Zvolil jsem ComfyUI, protože jako 3D grafik pracující s node-based systémy v Cinema 4D je mi tento přístup přirozený. Navíc ComfyUI je podle benchmarků o 30–60 % rychlejší než A1111 na stejném hardware.

Na trhu je několik rodin modelů. Tady je přehled těch nejzajímavějších:

Stable Diffusion XL – osvědčený open-source model s obrovskou komunitou. Licence CreativeML Open RAIL++-M umožňuje komerční použití.
FLUX.1 Schnell od Black Forest Labs – rychlý model s licencí Apache 2.0, tedy volně použitelný i komerčně. Skvělý pro začátek a každodenní práci.
FLUX.1 Dev – výkonnější varianta FLUXu s lepším fotorealismem. Pozor: má nekomerční licenci. Pro komerční použití je potřeba zakoupit licenci od Black Forest Labs.
Novější modely jako Qwen-Image, Seedream nebo komunitní finetunes na CivitAI – ekosystém se rychle vyvíjí.

V tomto návodu ukážu postup na FLUX.1 Schnell, protože je výkonný, rychlý a jeho Apache 2.0 licence umožňuje použití bez jakýchkoliv omezení. Princip je ale stejný pro všechny modely – stačí vyměnit soubory a vybrat jiný model.

Poznámka k licencím: Než začnete jakýkoliv model používat komerčně, vždy si přečtěte jeho licenční podmínky. Open-source neznamená automaticky „můžu s tím dělat cokoliv“. Modely jako SDXL a FLUX Schnell mají permisivní licence. U ostatních modelů (včetně FLUX Dev) mohou platit omezení.

2. Instalace Gitu

Git je nástroj pro správu verzí kódu. Potřebujeme ho pro instalaci rozšíření ComfyUI (např. ComfyUI Manager, který je naprosto zásadní pro správu pluginů).

Stáhněte installer z https://git-scm.com/download/win
Spusťte instalační průvodce – všechna výchozí nastavení jsou v pořádku, stačí proklikat Next
Po instalaci ověřte v příkazovém řádku (Win+R → cmd):

git --version

Měli byste vidět něco jako: git version 2.47.1.windows.1

3. Instalace ComfyUI

ComfyUI existuje jako přenosná (portable) verze pro Windows, která obsahuje vše potřebné včetně Pythonu. Žádné složité nastavování prostředí.

Stáhněte aktuální portable verzi z GitHub releases:

ComfyUI Portable – Latest Release (GitHub)

⚠️ Důležité pro RTX 40xx a 50xx: Pokud máte grafiku generace Ada Lovelace (RTX 40xx) nebo Blackwell (RTX 50xx), stahujte verzi s označením cu128 (CUDA 12.8). Starší CUDA verze nebudou fungovat správně nebo vůbec.

Soubor ke stažení (pro NVIDIA s CUDA 12.8):

new_ComfyUI_windows_portable_nvidia_cu128_or_cpu.7z

Rozbalte archiv do zvolené složky, například:

C:\ComfyUI\

Ve složce ComfyUI najdete několik .bat souborů. Použijte:

run_nvidia_gpu_fast_fp16_accumulation.bat

Tento soubor zapne optimalizaci FP16 accumulation, což je klíčové zejména pro novější GPU. Po spuštění se automaticky otevře prohlížeč na adrese http://127.0.0.1:8188.

Windows SmartScreen: Windows pravděpodobně zablokuje spuštění s varováním. Klikněte na „Další informace“ → „Pokračovat“. Případně pravým klikem na .bat soubor → Vlastnosti → zaškrtněte Odblokovat.

ComfyUI Manager je rozšíření, které umožňuje správu pluginů, modelů a aktualizací přímo z rozhraní ComfyUI. Je to naprosto nezbytný nástroj.

Otevřete příkazový řádek a přejděte do složky custom_nodes:

cd C:\ComfyUI\ComfyUI\custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

Restartujte ComfyUI (zavřete okno konzole a spusťte .bat soubor znovu). V rozhraní se objeví nové tlačítko Manager.

Migrační hlášení: Při prvním spuštění po instalaci Manageru se může zobrazit migrační upozornění. Je to normální – jedná se o jednorázovou aktualizaci datového formátu.

4. Stažení modelů

Pro tento návod použijeme FLUX.1 Schnell – rychlý model s otevřenou licencí Apache 2.0, který je volně použitelný i pro komerční projekty. Model se skládá z několika souborů, které je potřeba stáhnout a umístit do správných složek.

Všechny modely stahujte z HuggingFace.co – budete potřebovat (bezplatný) účet.

Toto je hlavní „mozek“ – model, který generuje obrázky.

Soubor: flux1-schnell.safetensors
Odkaz: black-forest-labs/FLUX.1-schnell na HuggingFace
Umístit do: ComfyUI\models\diffusion_models\

FLUX používá dva textové enkodéry pro porozumění vašim promptům:

CLIP-L (246 MB)

Soubor: clip_l.safetensors
Odkaz: comfyanonymous/flux_text_encoders
Umístit do: ComfyUI\models\text_encoders\

T5-XXL FP16 (9,8 GB)

Soubor: t5xxl_fp16.safetensors
Odkaz: comfyanonymous/flux_text_encoders
Umístit do: ComfyUI\models\text_encoders\

FP16 vs FP8: Pokud máte 16+ GB VRAM, použijte FP16 verzi T5 enkodéru – je přesnější a dává lepší výsledky. S menší kartou (8–12 GB) použijte t5xxl_fp8_e4m3fn.safetensors (4,9 GB) – je to kompromis, ale funkční.

VAE převádí vnitřní reprezentaci modelu na finální obrázek.

Soubor: ae.safetensors
Odkaz: black-forest-labs/FLUX.1-schnell (VAE)
Umístit do: ComfyUI\models\vae\

Soubor	Složka	Velikost
flux1-schnell.safetensors	models\diffusion_models\	23,8 GB
clip_l.safetensors	models\text_encoders\	246 MB
t5xxl_fp16.safetensors	models\text_encoders\	9,8 GB
ae.safetensors	models\vae\	335 MB

Celkem: cca 34 GB. Doporučuji stahovat přes noc nebo na stabilním připojení.

Chcete lepší kvalitu? Pokud vám jde primárně o kvalitu a nepotřebujete komerční licenci (např. pro osobní projekty nebo výzkum), zvažte FLUX.1 Dev – je pomalejší, ale dává fotorealističtější výsledky. Postup instalace je identický, jen stáhnete jiný soubor difuzního modelu. Pro komerční použití FLUX Dev je potřeba zakoupit licenci na blackforestlabs.ai.

5. Stavba prvního workflow

Teď přichází ta nejzábavnější část. V ComfyUI budeme stavět generovací pipeline z jednotlivých uzlů (nodes). Každý uzel dělá jednu věc a propojujeme je do řetězu.

Pokud pracujete v Cinema 4D s XPresso nebo v jakémkoliv node-based systému, bude vám to přijde přirozené.

Dvojklikem na prázdné plátno v ComfyUI přidáte nový uzel. Budeme potřebovat tyto:

4.1 Load Diffusion Model

Vyhledejte: Load Diffusion Model
Nastavte: flux1-schnell.safetensors
Výstup MODEL propojte dál do KSampleru

4.2 DualCLIPLoader

clip_name1: clip_l.safetensors
clip_name2: t5xxl_fp16.safetensors
type: flux (!!!)

⚠️ Kritické nastavení: Parametr type MUSÍ být nastaven na „flux“. Výchozí hodnota (sdxl) způsobí chybu „mat1 and mat2 shapes cannot be multiplied“. Tohle mě stálo pár desítek minut ladění.

4.3 CLIPTextEncode (2×)

Potřebujete dva uzly CLIPTextEncode:

Positive prompt – sem píšete, co chcete vygenerovat
Negative prompt – u modelů FLUX nechte prázdný (FLUX nepoužívá negativní prompt tak jako SD modely)

Oba propojte do vstupu CLIP z DualCLIPLoaderu.

4.4 EmptyLatentImage

Nastavte rozlišení: 1024 × 1024 (základní rozlišení pro FLUX modely)

Doporučená rozlišení: 1024×1024 (1:1), 1728×1152 (3:2), 1664×1216 (4:3), 1920×1088 (16:9). Nepřekračujte ~2 megapixely – nad touto hranicí kvalita klesá. Pro vyšší rozlišení generujte na 1024px a pak upscalujte.

4.5 KSampler

To je srdce generování. Nastavení pro FLUX Schnell:

steps: 4 (Schnell je optimalizovaný pro nízký počet kroků – to je jeho hlavní výhoda)
cfg: 1.0 (FLUX funguje s cfg 1 – vyšší hodnoty generují artefakty)
sampler_name: euler
scheduler: simple

4.6 VAE Decode + Save Image

Load VAE – vyberte ae.safetensors
VAE Decode – propojte latent výstup z KSampleru a VAE
Save Image – uloží výsledek do složky ComfyUI\output\

Schnell vs Dev kroky: FLUX Schnell dává dobré výsledky už při 4 krocích, což znamená generování za 1–2 sekundy na výkonné kartě. Pokud byste používali FLUX Dev, nastavte 20–30 kroků pro optimální kvalitu.

LoadDiffusionModel → MODEL → KSampler
DualCLIPLoader → CLIP → CLIPTextEncode (positive) → KSampler
DualCLIPLoader → CLIP → CLIPTextEncode (negative) → KSampler
EmptyLatentImage → LATENT → KSampler
KSampler → LATENT → VAEDecode → IMAGE → SaveImage
LoadVAE → VAE → VAEDecode

Stiskněte Queue Prompt (nebo Ctrl+Enter) a sledujte, jak se v konzoli začne generovat váš první obrázek. Se Schnellem na RTX 5090 to trvá zhruba 1–2 sekundy.

6. Praktické využití pro fotografy a 3D grafiky

Jako svatební a reklamní fotograf vidím v lokálním AI generování obrovský potenciál:

Rozšíření záběru (outpainting) – máte skvělý záběr, ale potřebujete širší formát pro tisk nebo banner? AI dokreslí okraje konzistentně se zbytkem scény.
Výměna pozadí (inpainting) – produkt vyfotíte ve studiu a AI vygeneruje realistické pozadí na základě textového popisu.
Upscaling s detaily – AI zvětšení obrázku přidá realistické detaily, které běžný upscale nedokáže.
Generování variant – klientovi můžete nabídnout 10 různých pozadí nebo atmosfér za dobu, kterou by jiný fotograf strávil jednou retuší.

Tady se to stává opravdu zajímavým. Jako 3D grafik pracující v Cinema 4D s Redshiftem mám jednu obrovskou výhodu oproti čistým AI uživatelům: dokonalé kontrolní mapy.

Z 3D rendereru můžete exportovat přesné depth mapy, normal mapy a alfa kanály – něco, co čistí AI uživatelé nikdy nebudou mít v takové kvalitě. Tyhle mapy pak slouží jako vstup pro ControlNet v ComfyUI, čímž AI přesně ví, kde jsou objekty v prostoru, jak daleko jsou od kamery a kde padají stíny.

Praktický workflow – produktová vizualizace:

Vyrenderujete produkt v Cinema 4D s průhledným pozadím (alfa kanál)
Exportujete depth mapu celé scény
V ComfyUI použijete inpainting model s maskou z alfa kanálu
Prompt popíše požadované pozadí („luxury marble kitchen, soft morning light“)
AI vygeneruje fotorealistické pozadí, které dokonale sedí na váš renderovaný produkt

Výsledek: produkt z 3D rendereru v prostředí, které by jinak vyžadovalo celodenní focení v lokaci nebo nákup stockových fotografií. A to vše za minuty.

Unikátní výhoda 3D grafika: Fotek s přesnou depth mapou na internetu neexistují. AI fotografé pracují s odhady hloubky, vy pracujete s přesnými daty z rendereru. To je vaše konkurenční výhoda a důvod, proč kombinace 3D + AI dává unikátní výsledky.

7. Tipy pro každodenní práci

Všechny výstupy se ukládají do ComfyUI\output\. V uzlu SaveImage můžete nastavit filename_prefix pro organizaci – například klient_projekt/ automaticky vytvoří podsložku.

ComfyUI se neaktualizuje automaticky:

Jádro ComfyUI: spusťte update_comfyui.bat ve složce update
Pluginy: v rozhraní přes Manager → Update All

Doporučuji aktualizovat alespoň jednou týdně – ekosystém se rychle vyvíjí a nové verze často přinášejí výrazné zlepšení výkonu.

8. Kam pokračovat

Základní setup máte. Tady je, kam se dá pokračovat:

LoRA modely – malé doplňkové soubory (50–500 MB), které přidávají specifické styly nebo vylepšují fotorealismus. Na CivitAI jich najdete tisíce.
Inpainting modely – modely pro dokreslování a výměnu částí obrázků. Základní kámen pro produkt-do-scény workflow.
ControlNet – řízení generování pomocí depth map, edge detection, normal map. Klíčové pro integraci s 3D pipeline.
Upscaling – zvětšení generovaných obrázků na tiskovou kvalitu přes Ultimate SD Upscale nebo tiled upscaling.
Vlastní LoRA trénování – natrénujte model na vlastní styl nebo produktovou řadu klienta. To je Holy Grail celého setupu.

Závěr

Rozjet lokální AI generování není tak složité, jak to na první pohled vypadá. V podstatě: nainstalujete ComfyUI, stáhnete modely, propojíte pár uzlů – a máte profesionální nástroj, který běží na vašem železe bez jakýchkoliv měsíčních poplatků.

Pro mě osobně bylo největší AHA momentem uvědomění, jaký potenciál má spojení 3D rendereru s AI generováním. Možnost vzít 3D render produktu, přidat AI-generované pozadí, a dostat výsledek, který by jinak vyžadoval celodenní produkci – to je směr, kterým se kreativní práce ubírá. A s nástrojem jako ComfyUI máte celou pipeline pod kontrolou.

Pokud vás tahle oblast zajímá, sledujte tento blog – v dalších článcích se budu věnovat pokročilým workflow, ControlNet integraci s 3D renderery a trénování vlastních modelů.

Užitečné odkazy

kvalitnivizualizace.cz – to jsme my!
ComfyUI (GitHub) – hlavní repozitář projektu
ComfyUI Manager (GitHub) – správce pluginů
FLUX.1 Schnell na HuggingFace – model použitý v tomto návodu (Apache 2.0)
FLUX text encoders – CLIP a T5 enkodéry
Git pro Windows – instalační balíček
CivitAI – komunita s LoRA modely a workflow