Nach einem umfassenden Update des Deep Live Hub auf unserer Composite AI Plattform DeepVA im vergangenen Jahr freuen wir uns, das neue Jahr mit zwei brandneuen Modulen für den Deep Media Analyzer zu beginnen.
Neues Modul: Visual Understanding

Das Visual Understanding Modul ist eine neue Erweiterung des Deep Media Analyzers. Es wurde entwickelt, um die Analyse von Bildern und Videos durch prompt-basiertes visuelles Sprachverständnis zu verbessern. Dieses Modul wurde für Benutzer entwickelt, die ein tieferes Verständnis ihrer Inhalte benötigen, und ergänzt unsere bereits leistungsstarke Zero-Shot-Object- and Scene Recognition durch eine noch größere Anpassbarkeit.
Führen Sie Aufgaben zum visuellen Sprachverständnis durch, z. B. Beantworten visueller Fragen, Verstehen von Szenen und fortgeschrittenes logisches Denken. Testen Sie die Funktion noch heute!
Key Features
Visuelles Sprachverständnis: Interpretiert visuelle Elemente wie Symbole, Bilder und Designmerkmale, um Metadaten zu extrahieren, ohne allerdings dabei Audioinformationen zu verwenden.
Prompt-basierte Analyse: Die Benutzer geben Fragen als Prompt ein, um die Analyse zu starten. Dies ermöglicht umfangreiche Aufgaben wie die Beschreibung von Szenen, die Zusammenfassung von Inhalten, die Analyse von Emotionen und Bildstimmung, die Extraktion von Highlights und vielen mehr.
Da es auf Prompts basiert, sind viele verschiedene Anwendungsfälle möglich, hier einige Beispiele:
-
Szenenbeschreibung
„Beschreiben Sie die Handlungen, die in dieser Szene passieren.“
-
Zusammenfassung des Inhalts:
„Fassen Sie die wichtigsten Ereignisse in diesem Video zusammen.“
-
Analyse von Emotionen und Tonfall:
„Welchen emotionalen Stimmung hat diese Szene?“
-
Extraktion von Höhepunkten:
„Finden Sie emotionale Schlüsselszenen in diesem Video“.
-
Einblicke in das Engagement des Publikums
"Welche visuellen Elemente stehen am häufigsten im Fokus?"
Die Ergebnisse werden als Text zusammen mit dem anfänglichen Prompt zurückgegeben. Dieses Modul ist für alle DeepVA-Benutzer verfügbar und wir werden in den nächsten Versionen weitere Funktionen und Parameter zu diesem Modul hinzufügen.
New feature: Threat Detection
Dieses Modul wurde in erster Linie für Sicherheitsanwendungen wie die Überwachung großer Anlagen oder Gebäude entwickelt und kann über eine API in Workflows integriert werden, um Bedrohungen automatisch zu erkennen und darauf zu reagieren. Es handelt sich um ein Modell für visuelles Sprachverständnis, das darauf trainiert ist, gefährliche Situationen wie Gewalt, medizinische Vorfälle oder Gefahren wie Feuer zu erkennen, um CCTV-Operator schneller zu alarmieren.

Die Ergebnisse werden in Form einer eindeutigen Einschätzung ob Ja- oder Nein- zurückgegeben, zusammen mit einer schriftlichen Begründung, warum das System zu dieser Einschätzung gelangt ist. Auf diese Weise kann ein menschlicher Operator die Videoressource schneller überprüfen und bei Bedarf selbst Maßnahmen ergreifen oder weitere Unterstützung anfordern. Dieses Modul steht allen DeepVA-Nutzern zur Verfügung und wird idealerweise über die API verwendet.
Kleinere Verbesserungen: Gesteigerte Benutzerfreundlichkeit
- Wir ändern das Standardmodell für unsere Object- and Scenerecognition im Visual Mining Wizard auf das Zero-Shot-Modell, das unser modernstes Modell ist und mit Wörterbüchern angepasst werden kann.
- Wir haben die Seite des Help Centers in unserer API überarbeitet, um eine schnellere und bessere Anleitung zur Hilfe zu bieten, einschließlich der Verknüpfung mit unserem neuen Knowledge Hub und dem Support-Formular.
- Verbesserte Benutzeroberfläche der Speaker Dataset Creation.
Updates for the Deep Live Hub
Im Dezember 2024 haben wir bereits wichtige Updates für den Deep Live Hub eingeführt, die die Benutzerfreundlichkeit, Flexibilität und Sicherheit verbessern.
Zu den Highlights zählt die Integration von Multi-Streaming, das gleichzeitiges Live-Streaming auf mehreren Plattformen wie YouTube Live, Facebook Live und Twitch ermöglicht, ohne dass externe Tools wie Restream IO benötigt werden. Weitere Updates umfassen wiederverwendbare Untertiteleinstellungen, verbesserte Sicherheit durch RTMPS sowie Verbesserungen der Stabilität und Fehlerbehandlung.
Diese Woche haben wir den Deep Live Hub weiter verbessert:
SRT (Secure Reliable Transport) Push & Input
Nochmalig verbesserte Sicherheit der Streams mit RTMPS und SRT (Secure Reliable Transport), siehe unser letztjährigen Changelog für weitere Details.
Lastverteilung / Loadbalacing
Wir haben auch den Lastausgleich optimiert, um gute Ergebnisse bei geringerer Latenz zu erzielen.
Roadmap
Nächsten Monat werden wir weitere neue Module veröffentlichen, darunter ein umfassenderes Textverständnis und mehr Funktionen für die Visual Understanding, alle neuen Funktionen sind Teil unseres Konzeptes als Composite AI Plattform und durch ihre Kombination lassen sich in Zukunft neue grade der Automation erreichen. Seien Sie gespannt!
Alle Updates des DeepVA Changelog gibt es hier: https://docs.deepva.com/changelog/