Generative KI wirkt oft wie Magie – bis man sie in produktiven Workflows nutzt. Dann zeigt sich schnell, dass sie für kreative Aufgaben und Entertainment ausreicht, bei Präzision, Taxonomien und vor allem der Wiederholbarkeit jedoch oftmals noch scheiterte. Nicht reproduzierbare Ergebnisse, unterschiedliche Wortwahl für gleiche Begriffe, Halluzinationen oder Inkonsistenzen – all das machte klassische generative Bild-KI in der Vergangenheit oft unbrauchbar.
Genau deshalb erleben strukturierte Daten aktuell ein großes Comeback. Bemerkenswert ist, dass sogar Unternehmen wie Black Forest Labs, die für große Innovation im Bereich der Generativen KI bekannt sind, demonstrieren, wie essenziell formale Strukturen für zuverlässige Ergebnisse sind.
Das Start-up, das wie wir in Freiburg beheimatet ist, ist zu Recht ein echter Thoughtleader, wenn es um Generative KI geht, und jüngst als eines der wertvollsten Start-ups Deutschlands bewertet, obwohl unsere Freiburger “Nachbarn” drei Jahre jünger sind.
Der Trend: Strukturierte Prompts werden Standard – Beispiel Black Forest Labs
Die aktuelle Neuentwicklung von FLUX.2 durch Black Forest Labs zeigt beeindruckend, wie schnell sich generative KI im kreativen Bereich weiterentwickelt. Das Modell zielt klar auf echte Produktions- und Studio-Workflows:
- konsistente Charaktere und Stile über mehrere Referenzbilder hinweg
- präzise Umsetzung komplexer Prompts
- realistische Beleuchtung, Materialien und Layouts
- sowie verlässlich lesbare Typografie – ein traditioneller Schwachpunkt früherer Modelle
Möglich wird dadurch die Kombination einer latent-flow-Architektur mit einem Mistral VLM als Steuerung. Und diese VLM-Schicht ist entscheidend:
Ohne klare Strukturen in den Eingaben kann auch ein hochmodernes Modell wie FLUX.2 die gewünschte Präzision und Wiederholbarkeit nicht liefern.
FLUX.2 zeigt, wie wichtig strukturierte Prompts geworden sind –
Erst Struktur transformiert generative KI von einer kreativen Maschine in ein verlässliches Werkzeug.
Und auch die direkten Wettbewerber, das Open Source Modell Z‑Image aus China baut auf dieser strukturierenden Input-Architektur auf.
Auch Wettbewerber haben diesen Weg bereits geebnet:
Google & Alibaba: Die Modelle von Google, darunter Nano Banana (Gemini 2.5 Flash Image), nutzen JSON-Prompts effektiv zur Erzeugung hyperrealistischer Bilder. Darüber hinaus akzeptiert das Videogenerierungsmodell Veo 3 komplexe JSON-Anweisungen. Qwen-Image von Alibaba zeichnet sich durch seine starke Prompt-Konformität aus, wodurch sich JSON ideal für Produktbilder eignet, die eine strenge Konsistenz erfordern.
OpenAI: Seit GPT‑3 im Jahr 2020 und zunehmend auch mit GPT‑4 Turbo hat OpenAI eine bessere JSON-Parsing-Funktion direkt in seine Modelle integriert, sodass JSON-Prompting voraussichtlich zum Standard für zuverlässige Automatisierung werden wird.
Why structure remains essential – also for analytical AI
Generative Modelle werden mit riesigen Mengen strukturierter Trainingsdaten entwickelt. Doch im praktischen Einsatz erwarten viele Anwender plötzlich, dass die Modelle ohne Struktur alle Anforderungen erfüllen – als wären sie reine Orakel.
Doch je komplexer die Aufgaben werden, desto deutlicher wird: GenAI braucht strukturierte Eingaben und strukturierte Ausgaben, um zuverlässig zu funktionieren. Und die Basis dafür teilt auch DeepVA.
Visual Understanding von DeepVA: Strukturierte Metadaten für echte Workflows
Für Kunden und Partner von AICONIX wird dieses Bekenntnis zur Strukturierung durch das Visual Understanding Module (DeepVA) umgesetzt, das einen Wettbewerbsvorteil in Medien-Workflows bietet.
Aiconix bietet strukturiertes visuelles Verständnis, indem es die Flexibilität der promptbasierten Analyse mit der Zuverlässigkeit vordefinierter JSON-Schemas für die Ausgabe kombiniert. Dieser Ansatz wurde für den professionellen Medienbetrieb entwickelt:
-
Workflow Automation
Strukturierte visuelle Daten liefern das notwendige Kontextbewusstsein für Szenen, Personen und Inhalte, um intelligente Bearbeitungsentscheidungen und nachgelagerte Prozesse anzustoßen. Strukturierte Ergebnisse mit framegenauen Zeitcodes können zur automatischen Erstellung von Edit Decision Lists (EDLs) für Aufgaben wie das Herausschneiden von Höhepunkten in Sportübertragungen verwendet werden.
-
Consistency and compliance:
Die Verwendung vordefinierter JSON-Schemas garantiert eine einheitliche Tagging-Konvention für alle Medientypen. Dies unterstützt wichtige Funktionen zur Automatisierung der Erfassung wie die Klassifizierung von Inhalten, die Erkennung von Logos zur Einhaltung von Compliance-Vorgaben und die Emotionsanalyse.
-
Composite AI Foundation
Die strukturierten visuellen Daten dienen als Baustein für Composite AI-Workflows, sodass Aiconix visuelle Hinweise nahtlos mit anderen Funktionen wie Spracherkennung und großen Sprachmodellen kombinieren kann, um reichhaltigere, vollständig indizierte Medienressourcen zu erhalten.
-
Souveranität
Die Möglichkeit, VLM-Funktionen und promptbasierte Abfragen in einer sicheren Umgebung zu nutzen, stellt sicher, dass wertvolle Daten innerhalb des Unternehmens bleiben.
Structured Prompting: Wie Sie damit in Ihren Workflows gewinnen
-
Automatisiertes und einheitliches Tagging nach Ihrer Taxonomie
Supports content classification, logo recognition (compliance), and emotion analysis
-
Einheitliche, durchsuchbare Metadaten
Perfect for MAM/DAM, archives, or recommendation engines.
-
Schnellere Content-Pipelines
Reliable data speeds up analysis, packaging, and redistribution.
-
Bessere Trainingsdaten für KI-Systeme
Strukturierte visuelle Metadaten sind unverzichtbar für robuste Modelle.
-
Intelligente Bearbeitungsentscheidungen um nachgelagerte Prozesse anzustoßen
-
Automatische Erstellung Edit Decisions Lists
-
Nahtlose Kombination mit weiteren Funktionen
Struktur schafft erst die Magie – nicht umgekehrt
Die Entwicklung von Black Forest Labs – zeigt klar:
Unstrukturierte Kreativität ist beeindruckend.
Aber erst Strukturierte Intelligenz ist wertvoll. Generative KI glänzt, wenn man ihr den richtigen Rahmen gibt.
Für Medien sind dieser Rahmen strukturierte Eingaben, aus denen sich dann smarte Generative Workflows bauen lassen.
Vidispine demonstrierte das gemeinsam mit uns auf der IBC 2025:
Mittels unserer strukturierter Metadaten aus dem Automatisierten Ingest und einer smarten Workflow Engine kann ein LLM passend zum Sprechertext einen Rohschnitt generieren, ganz ohne Sichten und mühseliges zusammenstückeln.
Dank strukturierter Metadaten und smartem Reasoning kann Arbeitszeit für kreative Tasks genutzt werden und sich wiederholende Prozesse automatisiert werden.
Genau das ist der Ansatz, den wir mit Visual Understanding seit einem Jahr erfolgreich verfolgen und mit Hilfe unserer vielen Partner auch in ihre Workflows bringen können.
Wenn Sie erfahren möchten, wie strukturierte Metadaten und visuelles Verständnis Ihre eigenen Arbeitsabläufe verändern können, kontaktieren Sie uns bitte – wir freuen uns auf Ihre Nachricht.


