Kennst du das? Du gibst einem KI-Modell einen cleveren Prompt, bekommst eine halbwegs passende Antwort – aber das Ergebnis ist weder reproduzierbar noch zuverlässig strukturiert. Prompts sind großartig – sie erlauben kreative Fragen, domänenspezifische Analysen, sogar ziemlich ausgeklügelte Abfragen. Aber ohne klare Struktur? Wird’s schnell unübersichtlich.
Genau hier setzt das strukturierte visuelle Verständnis an: Es kombiniert die Flexibilität von Prompts mit der Präzision von JSON-Ausgaben. Du bekommst nicht nur nachvollziehbare Ergebnisse, sondern auch volle Kontrolle darüber, wie dein Vision Language Model (VLM) darauf reagiert. Und ja – du kannst dir aussuchen, welches Modell du einsetzt.
Was das konkret bedeutet? Schauen wir’s uns an.
Was ist neu?
-
Prompt-basierte Analyse von Bildern und Videos – ideal für verschiedenste Einsatzbereiche: Medien, Sport, Dokumentationen, Compliance, …
-
Strukturierte Ausgabe im JSON-Format, egal ob du mit festen Kategorien arbeitest oder Freitext zulässt.
-
Modellauswahl – du entscheidest, welches VLM zu deiner Aufgabe passt.
-
Zugänglich über File-Upload oder API – wie bei all unseren Modulen: API-first entwickelt, aber auch über die UI nutzbar.
-
Composite AI fähig – kombiniere visuelle Analysen mit Spracherkennung und LLMs für eine tiefere Inhaltsauswertung.
Anwendungsbeispiele
-
Highlight Clipping – jetzt automatisch und präzise
-
Ingest Automation für konsistente Metadaten (via API)
-
Archivschätze durch Daten wiederentdecken
Mal ehrlich: Highlight-Clipping manuell durchzugehen ist mühsam. Aber was, wenn dein System genau weiß, welche Szenen wichtig sind?
Mit DeepVAs strukturiertem Visual Understanding und der Integration in dein Media Asset Management (MAM) System können relevante Momente automatisch erkannt, getaggt und geschnitten werden. Zum Beispiel:
- Tore, Jubelszenen oder Fanreaktionen im Sport
- Sprecherwechsel in Diskussionsrunden (als visuelle Ergänzung zur Speaker Identification)
- Emotionale Wendepunkte oder Kameraschwenks in Trailern
- Markenrelevante Szenen in Influencer- oder Produktvideos
Diese Ergebnisse können automatisch zu Edit Decision Lists (EDLs) verarbeitet werden – ideal für eine effiziente Nachbearbeitung im Schnittprogramm oder zur direkten Veröffentlichung.
So funktioniert’s ( via MAM-Integration):
- Video wird ins MAM importiert, ein interner Job sendet es mit Prompt und JSON-Schema an DeepVA.
- DeepVA liefert strukturierte Metadaten pro Video oder Shot (z. B. Content-Klassifizierung, Objekterkennung).
- Die Workflow-Engine im MAM verarbeitet die Daten, kombiniert sie mit DeepVA’s Transkription und markiert automatisch Highlights.
- Optional: Die erkannten Inhalte können direkt für Text-to-Speech verwendet werden (Voice-Over per LLM).
- Die erzeugte EDL kann zur redaktionellen Freigabe oder zur weiteren Bearbeitung exportiert werden.
Das spart nicht nur Zeit, sondern sichert auch eine konsistente Qualität – besonders spannend für Newsrooms, Sport-Redaktionen oder Social-Media-Teams. Die eigentliche Stärke liegt nicht nur in der KI selbst, sondern darin, wie sie in deinen Workflow eingebettet ist – etwa mit Tools wie Helmut Cloud oder deiner MAM-Lösung.
Ein häufiges Problem? Unsauber getaggte oder gar nicht beschriftete Medieninhalte. Und das rächt sich spätestens im Schnitt oder bei der Archivsuche. Ingest-Automatisierung behebt das direkt an der Quelle.
Mit DeepVAs strukturierter Analyse wird jedes eingehende Bild oder Video automatisch analysiert – mit einheitlichem Prompt und definiertem Metadatenschema. Keine Überraschungen, keine Inkonsistenzen.
Dabei geht’s längst nicht nur ums Tagging. Weitere Anwendungsmöglichkeiten:
- Logo- oder Texterkennung – z. B. für öffentlich-rechtliche Sender und Compliance-Prüfungen
- Kontextanalyse von Szenen – Innen/Außen, Event-Typen etc.
- Emotionserkennung – für den richtigen Erzählton
- Hinweise auf sensible Inhalte – z. B. Minderjährige, Tiere, Produkthinweise
Auch Barrierefreiheit profitiert davon: ALT-Texte lassen sich automatisch generieren. Und wer will, kann den Prompt natürlich für spezifische Anforderungen anpassen – ob redaktionell, marketingseitig oder juristisch.
Viele Medienarchive enthalten unbeschriftetes oder inkonsistent verschlagwortetes Material. Mithilfe strukturierter VLM-Analysen können bestehende Archive automatisch und kontextuell angereichert werden – ohne manuellen Aufwand.
Mit einem einheitlichen JSON-Schema lassen sich beispielsweise extrahieren:
- Szenenzusammenfassungen für schnelle Previews
- Texteinblendungen oder Schilder auslesen (z. B. historische Hinweise)
- Metadaten extrahieren von den zu digitalisierenden Objekten (Filmrollen, Foto-Rückseiten, händische Beschriftungen)
- Kulturelle/historische Symbole – z. B. für Dokumentationen oder regionales Programm
So wird aus dem Archiv eine dynamische, durchsuchbare Ressource. Ähnliche Inhalte werden automatisch geclustert, Themen lassen sich intuitiv auffinden.
In Kombination mit unserer anpassbaren Face- und Landmark-Recognition können Sie selbst für sehr lokale Archive einen hohen Grad der Automation bei der Verschlagwortung erreichen.
Mehr Informationen und Beispiele
In unserer Wissensdatenbank finden Sie genaue Erläuterungen zur Funktionsweise von Visual Understanding in Kombination mit Structured Output sowie einige Beispiele. Gerne beraten wir Sie auch zu Ihrem Use Case, Prompts und Modellen. Hierfür steht Ihnen unser Kontaktformular zur Verfügung.
Warum das wichtig ist
-
Souveränität
Nutzen Sie VLMs und Prompt-Analyse in Ihrer eigenen Infrastruktur – ohne Datenabfluss in fremde Cloudlösungen oder für das Training großer Modelle. Alles bleibt in ihrer Infrastruktur.
-
Automatisierung
Smarte Bearbeitungsprozesse brauchen kontextuelle Informationen. Strukturiertes Bildverständnis liefert genau das.
-
Konsistenz
Nur strukturierte Metadaten sind wirklich wertvoll. Mit JSON-Schemas sichern Sie einheitliche Qualität.
-
Flexibilität
Ob ALT-Text-Generierung, Schnittautomation oder Compliance – mit konfigurierbaren Prompts und Modellen passen Sie die Analyse an Ihre Realität an.
-
Fundament
Visual Understanding wird zur Basiskomponente für Composite AI – etwa in Kombination mit Spracherkennung zur vollindizierten, kontextsensitiven Inhaltsanalyse.


