Changelog Juni 2025: Verbes­se­rungen bei der Texterkennung, Content Moderation und Deep Live Hub

Wir freuen uns, Ihnen ein weiteres Update DeepVA vorstellen zu können, das Verbes­se­rungen sowohl für den Deep Media Analyzer als auch für den Deep Live Hub enthält. Der Schwer­punkt dieser Version liegt auf intel­li­gen­terer Automa­ti­sierung, erhöhter Zuver­läs­sigkeit und Live-Feedback zu Monitoring eines Streams.

Deep Media Analyzer: Verbes­se­rungen bei verschie­denen Modulen

Content Moderation – jetzt mit automa­ti­sierter Segmen­tierung

Das im März einge­führte Modul zur Inhalts­mo­de­ration wurde weiter verbessert. Es führt nun eine automa­ti­sierte Segmen­tierung von Videos durch, um eine detail­liertere Analyse visueller Inhalte zu ermög­lichen, auch auf Shot Ebene. Jedes Segment des Videos wird auf poten­ziell sensible Inhalte wie Gewalt, Nacktheit oder Drogen­konsum analy­siert und gemäß den ESRB-Inhaltsbeschreibungen gekenn­zeichnet.

Diese Verbes­serung ermög­licht es Platt­formen und Prüfern, Compliance- und Altersbewertungs-Workflows effek­tiver zu automa­ti­sieren, indem sie die Moderation auf klar definierte Segmente konzen­trieren können, welche die KI vorse­lek­tiert hat. Falls sie an anderen Klassi­fi­zie­rungs­stan­dards wie ESRB inter­es­siert sind, kommen Sie gerne auf uns zu.

Text Recognition– Verbes­sertes OCR-Modell

Wir haben ein neues Optical-Character-Recognition-(OCR)-Modell in unser Texterken­nungs­modul integriert. Die Kernfunk­tio­na­lität, das Extra­hieren von sicht­barem Bildschirmtext mit genauen Zeitcodes, bleibt unver­ändert. Das aktua­li­sierte Modell verbessert jedoch die Erken­nungs­ge­nau­igkeit und ‑geschwin­digkeit erheblich.

Benutzer können nun bei der Einrichtung zwischen den Zeichen­sätzen Chine­sisch, Latein und Englisch wählen, wodurch das Modul einfacher an regions­spe­zi­fische Inhalte angepasst werden kann. Derzeit extra­hiert das Modul vier Bildbei­spiele pro Sekunde. In einer zukünf­tigem Update wird dem Benutzer die Möglichkeit zur Festlegung der Abtastrate zur Verfügung gestellt.

Warum wird eine separate OCR benötigt, wenn das Visual Under­standing Modul genutzt werden kann?

Visual-Language-Modelle wie unser Visual Under­standing können den Kontext inter­pre­tieren und je nach Parametern mögli­cher­weise seman­tische Korrek­turen vornehmen. Das OCR-Modell konzen­triert sich ausschließlich auf das, was visuell vorhanden ist. Das bedeutet, dass es fehlenden oder vermu­teten Text nicht automa­tisch korri­giert. Dafür gewähr­leistet es eine präzise und überprüfbare Extraktion des tatsäch­lichen Bildschirm­in­halts. Das ist ein großer Vorteil in Szenarien, in denen Genau­igkeit und Repro­du­zier­barkeit entscheidend sind.

Darüber hinaus ist die OCR-basierte Verar­beitung deutlich schneller und ressour­cen­ef­fi­zi­enter als GPU-intensive visuelle Verstän­di­gungs­mo­delle. Das macht sie zur idealen Wahl für Anwen­dungen mit hohem Volumen oder in Echtzeit. Ein Beispiel ist die Extraktion von Bildschirmtext als Vorschläge für Metadaten-Tags.

Bug Fixes
  • Behebung eines Problems mit dem Zeitlimit für Wörter­buch­an­fragen: Bei hoher Auslastung des Systems schlugen Aufträge zur Sprecher­erkennung gelegentlich fehl.

  • Die Unter­stützung für WAV-Dateien für das Sprecher-Training wurde behoben. Das Sprecher-Identifikationstraining unter­stützt nun den MIME-Typ „audio/x‑wav”, wodurch fehlge­schlagene Trainings­auf­träge mit bestimmten WAV-Dateitypen behoben wurden.

Deep Live Hub: Mehr Kontrolle und Optionen in Echtzeit

Aktua­li­sierter Datei­export über API nach Beendigung eines Streams

Um eine intel­li­gentere Verar­beitung und optimierte Arbeits­ab­läufe zu ermög­lichen, können Sie die AMT-Datei nun nach Beendigung eines Livestreams erhalten. AMT ist unser eigener Entwick­lungs­standard für Livestream-Metadaten und bietet Ihnen nicht nur zeitco­dierte Transkrip­tionen und Überset­zungen, sondern in Zukunft auch zusätz­liche Metada­ten­ebenen. Weitere Infor­ma­tionen zu unserem AMT-Standard finden Sie hier.

Feedback zum Netzwerk­status

Das System gibt nun bei Netzwerk­ver­bin­dungs­pro­blemen visuelle Rückmel­dungen, sodass Benutzer das Problem selbst beheben können. Bei einer Verzö­gerung im Netzwerk erscheint eine orange­farbene Popup-Benachrichtigung in der Kopfzeile.

Feedback zum Stream-Status im Live-Editor

Um eine bessere Kontrolle und Trans­parenz während Live-Sessions zu gewähr­leisten, zeigt der Live-Editor nun Stream-Statusanzeigen in der oberen Leiste an. Folgende Status­be­zeich­nungen sind verfügbar:

In Kombi­nation mit dem Netzwerkstatus-Feedback können Benutzer erkennen, ob ein Stream unbeab­sichtigt unter­brochen wurde – beispiels­weise aufgrund von Bandbrei­ten­un­ter­bre­chungen – und schnell reagieren, um das Problem zu beheben.

Schalt­fläche „Sitzung neu starten“ für Unter­titel

Wenn eine Live-Stream-Sitzung unter­brochen und am selben Endpunkt neu gestartet wird, bietet der Live-Editor die Schalt­fläche „Sitzung neu starten“.
Dadurch wird der Untertitel-Editor auf den aktuellen Live-Stream zurück­ge­setzt. So bleiben die Untertitel-Workflows synchron und es werden fehlaus­ge­richtete Unter­titel oder Zeitcodes vermieden.

ASR-Update – Schneller und effizi­enter

Wir haben ein Update unserer automa­ti­schen Sprach­er­kennung (ASR) veröf­fent­licht, das sie schneller und ressour­cen­scho­nender macht – insbe­sondere bei der Verar­beitung mehrerer Sprachen. Dieses Update legt den Grund­stein für eine breitere Sprach­ab­de­ckung und eine reibungs­losere Echtzeit­leistung in zukünf­tigen Versionen.

Präzisere Zeitmarken für die Sendung und den Editor-Videozeitstempel

Wir haben die Zeitstempel-Anzeigen getrennt: Oben links wird nun der Zeitcode des Origi­nal­videos darge­stellt, während separat der Zeitcode des aktuell bearbei­teten Abschnitts angezeigt wird. Diese Änderung bereitet künftige Erwei­te­rungen für eine indivi­du­ellere Steuerung des Bearbeitungs-Workflows vor.

Updates der Modelle für alle Sprachen

Alle Sprach­mo­delle wurden aktua­li­siert, um eine schnellere Erkennung zu ermög­lichen und die Forma­tierung von Zahlen und verwandten Zeichen wie % und Währungs­sym­bolen deutlich zu verbessern.

Alle Updates des DeepVA Changelog gibt es hier: https://docs.deepva.com/changelog/

Teilen

Email
LinkedIn
Facebook
Twitter
Suche

Inhaltsübersicht

Tage :
Stunden :
Minuten :
Sekunden

Neueste KI-Nachrichten

Abonnieren Sie unseren Newsletter

Keine Sorge, unser Newsletter ist für wichtige Neuigkeiten reserviert, so dass wir nur hin und wieder ein paar Updates versenden. Kein Spam!