Stunden manuelles KI-Prompting pro Kunstwerk
Das Produkt des Studios: personalisierte KI-Gemalde, bei denen das Gesicht des Kunden in eine kunstlerische Szene eingeblendet wird — Olgemalde-Stil, 3D-Render-Stil, Fantasy-Illustration. Jedes Kunstwerk erfordert "Identity Replacement" — das Kundenphoto wird in eine vorgefertigte kunstlerische Komposition integriert, wobei Stil, Beleuchtung und Bildaufbau der Szene erhalten bleiben.
Vor dem Tool war der Workflow: Kundenfoto in ein KI-Bildtool laden, manuell einen detaillierten Prompt zur Identity Replacement formulieren, 3-5 Variationen generieren, die beste auswahlen, bei schlechter Ahnlichkeit eine weitere Prompting-Runde durchfuhren — bis das Ergebnis kundentauglich war. An einem guten Tag: 30-45 Minuten pro Kunstwerk. An einem schlechten: uber 2 Stunden.
Das Studio hatte eine wachsende Auftragswarteschlange und einen Engpass: eine Person, die wusste, wie KI-Bildtools korrekt geprompted werden. Fehlte diese Person, stapelten sich die Auftrage. Das Team konnte nicht skalieren, ohne diese Einzelpunkt-Abhangigkeit zu beseitigen.
Warum der bestehende Workflow schwer zu automatisieren war
Die technische Kernherausforderung ist "Identity Replacement mit Style Transfer" — Gesichtsgeometrie und Ahnlichkeit des Kunden erhalten, wahrend der kunstlerische Stil der Szene auf das gesamte Bild angewendet wird. Zu viel Style Transfer: Identitat geht verloren. Zu wenig: ein deplatziertes realistisches Gesicht in einem impressionistischen Gemalde.
Generische KI-Bildtools losen das durch manuelles Prompting, da sie fur kreative Exploration gebaut sind, nicht fur wiederholbare Produktion. Die Losung musste die richtige Prompting-Strategie in ein UI einbetten, damit jedes Teammitglied konsistente Ergebnisse erzielen kann — ohne Prompting-Expertise.
Von der Anforderung zur Produktion — der zeitliche Ablauf
gemini-2.0-flash-exp-image-generation in Google AI Studio getestet. Fokus auf Identity Replacement mit Style Transfer uber 3 Kunststile: Olgemalde, 3D-Render, Fantasy-Illustration. Die Prompt-Struktur, die konsistente Ergebnisse liefert, wurde gefunden — bevor eine einzige Zeile Code geschrieben wurde.Unter der Haube
Canvas API Vorverarbeitung
iPhone-Fotos sind 12-15MB. Roh an die Gemini API senden fuhrt bei langsamen Mobilverbindungen zu Timeouts. Canvas API skaliert und komprimiert clientseitig vor dem Upload: canvas.toBlob(callback, 'image/jpeg', 0.85) mit Zieldimensionen maximal 2048px. Ergebnis: 200-800KB, unter 200ms auf jedem Smartphone, kein sichtbarer Qualitatsverlust bei der Kunstwerk-Generierung.
Prompt Engineering fur Identity Replacement
Der System-Prompt ist das zentrale IP des Tools. Er instruiert Gemini: Gesichtsgeometrie und charakteristische Merkmale des Motivs erhalten, kunstlerischen Stil nur auf Hintergrund und Nicht-Gesicht-Elemente anwenden, Beleuchtungsrichtung der Szene auf das Gesicht beibehalten, "Uncanny Valley" durch kein Ubererweichen der Hauttexturen vermeiden. Der Prompt wurde uber ~30 Testgenerierungen mit verschiedenen Gesichtstypen und Kunststilen kalibriert.
Multi-Office API-Key-Injektion
Das Studio betreibt zwei Buros (Polen/Ukraine) mit getrennter Abrechnung. Jedes Buro authentifiziert sich mit seinem eigenen API-Key im localStorage. Das Backend empfangt den Key pro Anfrage und verwendet ihn fur den Gemini-Call. Einfach, ohne Audit-Aufwand, null Infrastrukturkosten fur die Kostenstellen-Zuweisung.
Mobil-First durch Sachzwang
Das Team des Studios arbeitet beim Kundentermin mit Smartphones — Stiloptionen zeigen und Kundenfotos in Echtzeit aufnehmen. Eine Desktop-first-Web-App ware nicht genutzt worden.
Mobil-First-Entscheidungen, die den Unterschied machten:
- Einspaltiges Layout mit grossen Tap-Targets — keine kleinen Buttons
- Kamera-Input via
<input type="file" accept="image/*" capture="user">— offnet direkt die Kamera auf Mobilgeraten - Ladezustand mit Animation — Generierung dauert 8-15 Sekunden; Nutzer brauchen Feedback
- Ergebnis wird automatisch heruntergeladen oder vollbild angezeigt fur einfaches Teilen in Kundenchats
- Kein Login erforderlich — jedes Teammitglied kann es ohne Account-Setup nutzen
Das "naturlichsprachliche Korrekturen"-Feature
Gemini verarbeitet Folgeanweisungen naturlich: "Hintergrund von Wald auf Stadtpanorama andern", "Stil malerischer gestalten", "Beleuchtung wie Sonnenuntergang anpassen". Nutzer konnen Anderungen uber ein Textfeld unter dem Ergebnis anfordern. Das ersetzte die Notwendigkeit eines komplexen Vorlagenmanagement-Systems.
Was nach dem Deployment passierte
Das Tool ging am Tag nach dem Build live. Ergebnisse aus dem ersten Monat:
- 85-90% des Teams nutzt es fur Standardauftrage — die restlichen 10-15% sind komplexe Anfragen, die individuelle Prompts erfordern
- Auftragsbearbeitungszeit: Stunden auf 30 Sekunden pro Kunstwerk fur Standardanfragen
- Single-Point-of-Failure beseitigt — jedes Teammitglied kann Auftrage bearbeiten
- Kundenzufriedenheit verbessert — schnellere Lieferzeiten, mehr Stiloptionen beim Kundentermin
Was ich mit mehr Zeit anders gemacht hatte
Mit einem 1-Wochen-Build-Fenster statt 1 Tag hatte ich hinzugefugt: Auftragsverlauf und Ergebnisspeicherung (aktuell werden Ergebnisse manuell heruntergeladen und verwaltet), Batch-Verarbeitung fur mehrere Stilvariation in einer Anfrage, und ein Admin-Panel fur die Verwaltung von Stilvorlagen. Die aktuelle Version deckt 90% der Anwendungsfalle ohne diese ab — aber das sind die naturlichen nachsten Verbesserungen.
Wann 1 Tag der richtige Umfang ist
Nicht jede Automatisierung muss ein vollstandiges Produkt sein. Der Engpass des Studios war spezifisch, gut verstanden und wiederholbar. Ein fokussiertes 1-Tages-Tool, das ein Problem gut lost, ist oft wertvoller als ein 2-Wochen-Projekt mit Funktionen, die niemand nutzt. Der Test: Konnen Zielnutzer es ohne Schulung bedienen? Wenn ja, shipp es.
Wo dieses Muster anwendbar ist
Das AI Image Composer-Muster — "wiederholendes KI-Prompting in ein Ein-Klick-Tool automatisieren" — ist uberall anwendbar, wo ein Unternehmen folgendes hat:
- Eine wiederkehrende visuelle Aufgabe, die aktuell manuell mit KI-Tools erledigt wird (Midjourney, DALL-E, Stable Diffusion, Gemini)
- Nicht-technische Mitarbeiter, die konsistente Ergebnisse ohne Prompting-Expertise erzielen mussen
- Ein Produktionsvolumen, das manuelles Prompting nicht skaliert
Relevante Beispiele fur deutsche Unternehmen:
- E-Commerce Produktfotografie — automatischer Hintergrundaustausch und Szenengeneration fur Produktfotos (Produktbilder automatisieren)
- Marketingagenturen — Werbemittelgeneration aus Brand-Guidelines und Kundenmaterialien nach Vorlage
- Immobilien — automatische Fotooptimierung und virtuelle Mobblierung von Immobilienfotos
- Druck- und Personalisierungsunternehmen — personalisierte Gruszkarten, Einladungen, Zertifikate in Scale
Haufige Fragen zur KI-Bild-Automatisierung
Eingesetzte Technologien
Ich baue KI-Automatisierungstools, die manuelle Workflows in Ein-Klick-Tools fur Ihr Team verwandeln. Kreative Automatisierung, Produktfotografie, visuelle Content-Pipelines. Standort Munchen, Kunden in ganz Europa.