Wir freuen uns, Ihnen ein weiteres Update DeepVA vorstellen zu können, das Verbesserungen sowohl für den Deep Media Analyzer als auch für den Deep Live Hub enthält. Der Schwerpunkt dieser Version liegt auf intelligenterer Automatisierung, erhöhter Zuverlässigkeit und Live-Feedback zu Monitoring eines Streams.
Deep Media Analyzer: Verbesserungen bei verschiedenen Modulen
Content Moderation – jetzt mit automatisierter Segmentierung
Das im März eingeführte Modul zur Inhaltsmoderation wurde weiter verbessert. Es führt nun eine automatisierte Segmentierung von Videos durch, um eine detailliertere Analyse visueller Inhalte zu ermöglichen, auch auf Shot Ebene. Jedes Segment des Videos wird auf potenziell sensible Inhalte wie Gewalt, Nacktheit oder Drogenkonsum analysiert und gemäß den ESRB-Inhaltsbeschreibungen gekennzeichnet.
Diese Verbesserung ermöglicht es Plattformen und Prüfern, Compliance- und Altersbewertungs-Workflows effektiver zu automatisieren, indem sie die Moderation auf klar definierte Segmente konzentrieren können, welche die KI vorselektiert hat. Falls sie an anderen Klassifizierungsstandards wie ESRB interessiert sind, kommen Sie gerne auf uns zu.
Text Recognition– Verbessertes OCR-Modell
Wir haben ein neues Optical-Character-Recognition-(OCR)-Modell in unser Texterkennungsmodul integriert. Die Kernfunktionalität, das Extrahieren von sichtbarem Bildschirmtext mit genauen Zeitcodes, bleibt unverändert. Das aktualisierte Modell verbessert jedoch die Erkennungsgenauigkeit und ‑geschwindigkeit erheblich.
Benutzer können nun bei der Einrichtung zwischen den Zeichensätzen Chinesisch, Latein und Englisch wählen, wodurch das Modul einfacher an regionsspezifische Inhalte angepasst werden kann. Derzeit extrahiert das Modul vier Bildbeispiele pro Sekunde. In einer zukünftigem Update wird dem Benutzer die Möglichkeit zur Festlegung der Abtastrate zur Verfügung gestellt.
Warum wird eine separate OCR benötigt, wenn das Visual Understanding Modul genutzt werden kann?
Visual-Language-Modelle wie unser Visual Understanding können den Kontext interpretieren und je nach Parametern möglicherweise semantische Korrekturen vornehmen. Das OCR-Modell konzentriert sich ausschließlich auf das, was visuell vorhanden ist. Das bedeutet, dass es fehlenden oder vermuteten Text nicht automatisch korrigiert. Dafür gewährleistet es eine präzise und überprüfbare Extraktion des tatsächlichen Bildschirminhalts. Das ist ein großer Vorteil in Szenarien, in denen Genauigkeit und Reproduzierbarkeit entscheidend sind.
Darüber hinaus ist die OCR-basierte Verarbeitung deutlich schneller und ressourceneffizienter als GPU-intensive visuelle Verständigungsmodelle. Das macht sie zur idealen Wahl für Anwendungen mit hohem Volumen oder in Echtzeit. Ein Beispiel ist die Extraktion von Bildschirmtext als Vorschläge für Metadaten-Tags.
Bug Fixes
-
Behebung eines Problems mit dem Zeitlimit für Wörterbuchanfragen: Bei hoher Auslastung des Systems schlugen Aufträge zur Sprechererkennung gelegentlich fehl.
-
Die Unterstützung für WAV-Dateien für das Sprecher-Training wurde behoben. Das Sprecher-Identifikationstraining unterstützt nun den MIME-Typ „audio/x‑wav”, wodurch fehlgeschlagene Trainingsaufträge mit bestimmten WAV-Dateitypen behoben wurden.
Deep Live Hub: Mehr Kontrolle und Optionen in Echtzeit
Aktualisierter Dateiexport über API nach Beendigung eines Streams
Feedback zum Netzwerkstatus
Das System gibt nun bei Netzwerkverbindungsproblemen visuelle Rückmeldungen, sodass Benutzer das Problem selbst beheben können. Bei einer Verzögerung im Netzwerk erscheint eine orangefarbene Popup-Benachrichtigung in der Kopfzeile.
Feedback zum Stream-Status im Live-Editor
Um eine bessere Kontrolle und Transparenz während Live-Sessions zu gewährleisten, zeigt der Live-Editor nun Stream-Statusanzeigen in der oberen Leiste an. Folgende Statusbezeichnungen sind verfügbar:
In Kombination mit dem Netzwerkstatus-Feedback können Benutzer erkennen, ob ein Stream unbeabsichtigt unterbrochen wurde – beispielsweise aufgrund von Bandbreitenunterbrechungen – und schnell reagieren, um das Problem zu beheben.
Schaltfläche „Sitzung neu starten“ für Untertitel
Wenn eine Live-Stream-Sitzung unterbrochen und am selben Endpunkt neu gestartet wird, bietet der Live-Editor die Schaltfläche „Sitzung neu starten“.
Dadurch wird der Untertitel-Editor auf den aktuellen Live-Stream zurückgesetzt. So bleiben die Untertitel-Workflows synchron und es werden fehlausgerichtete Untertitel oder Zeitcodes vermieden.
ASR-Update – Schneller und effizienter
Präzisere Zeitmarken für die Sendung und den Editor-Videozeitstempel
Updates der Modelle für alle Sprachen
Alle Updates des DeepVA Changelog gibt es hier: https://docs.deepva.com/changelog/