Changelog Januar 2025: Neue Funktionen – Visual Under­standing & Threat Detection

Nach einem umfas­senden Update des Deep Live Hub auf unserer Composite AI Plattform DeepVA im vergan­genen Jahr freuen wir uns, das neue Jahr mit zwei brand­neuen Modulen für den Deep Media Analyzer zu beginnen.

Neues Modul: Visual Under­standing

Das Visual Under­standing Modul ist eine neue Erwei­terung des Deep Media Analyzers. Es wurde entwi­ckelt, um die Analyse von Bildern und Videos durch prompt-basiertes visuelles Sprach­ver­ständnis zu verbessern. Dieses Modul wurde für Benutzer entwi­ckelt, die ein tieferes Verständnis ihrer Inhalte benötigen, und ergänzt unsere bereits leistungs­starke Zero-Shot-Object- and Scene Recognition durch eine noch größere Anpass­barkeit.

Führen Sie Aufgaben zum visuellen Sprach­ver­ständnis durch, z. B. Beant­worten visueller Fragen, Verstehen von Szenen und fortge­schrit­tenes logisches Denken. Jetzt testen!

Wichtigste Merkmale

Visuelles Sprach­ver­ständnis: Inter­pre­tiert visuelle Elemente wie Symbole, Bilder und Design­merkmale, um Metadaten zu extra­hieren, ohne aller­dings dabei Audio­in­for­ma­tionen zu verwenden.

Prompt-basierte Analyse: Die Benutzer geben Fragen als Prompt ein, um die Analyse zu starten. Dies ermög­licht umfang­reiche Aufgaben wie die Beschreibung von Szenen, die Zusam­men­fassung von Inhalten, die Analyse von Emotionen und Bildstimmung, die Extraktion von Highlights und vielen mehr.

Da es auf Prompts basiert, sind viele verschiedene Anwen­dungs­fälle möglich, hier einige Beispiele:

  • Szenen­be­schreibung

    „Beschreiben Sie die Handlungen, die in dieser Szene passieren.“

  • Zusam­men­fassung des Inhalts:

    „Fassen Sie die wichtigsten Ereig­nisse in diesem Video zusammen.“

  • Analyse von Emotionen und Tonfall:

    „Welchen emotio­nalen Stimmung hat diese Szene?“

  • Extraktion von Höhepunkten:

    „Finden Sie emotionale Schlüs­sel­szenen in diesem Video“.

  • Einblicke in das Engagement des Publikums

    „Welche visuellen Elemente stehen am häufigsten im Fokus?“

Die Ergeb­nisse werden als Text zusammen mit dem anfäng­lichen Prompt zurück­ge­geben. Dieses Modul ist für alle DeepVA-Benutzer verfügbar und wir werden in den nächsten Versionen weitere Funktionen und Parameter zu diesem Modul hinzu­fügen.

New feature: Threat Detection

Dieses Modul wurde in erster Linie für Sicher­heits­an­wen­dungen wie die Überwa­chung großer Anlagen oder Gebäude entwi­ckelt und kann über eine API in Workflows integriert werden, um Bedro­hungen automa­tisch zu erkennen und darauf zu reagieren. Es handelt sich um ein Modell für visuelles Sprach­ver­ständnis, das darauf trainiert ist, gefähr­liche Situa­tionen wie Gewalt, medizi­nische Vorfälle oder Gefahren wie Feuer zu erkennen, um CCTV-Operator schneller zu alarmieren.

Die Ergeb­nisse werden in Form einer eindeu­tigen Einschätzung ob Ja- oder Nein- zurück­ge­geben, zusammen mit einer schrift­lichen Begründung, warum das System zu dieser Einschätzung gelangt ist. Auf diese Weise kann ein mensch­licher Operator die Video­res­source schneller überprüfen und bei Bedarf selbst Maßnahmen ergreifen oder weitere Unter­stützung anfordern. Dieses Modul steht allen DeepVA-Nutzern zur Verfügung und wird idealer­weise über die API verwendet.

Kleinere Verbes­se­rungen: Gestei­gerte Benut­zer­freund­lichkeit

  • Wir ändern das Standard­modell für unsere Object- and Scenere­co­gnition im Visual Mining Wizard auf das Zero-Shot-Modell, das unser modernstes Modell ist und mit Wörter­bü­chern angepasst werden kann.
  • Wir haben die Seite des Help Centers in unserer API überar­beitet, um eine schnellere und bessere Anleitung zur Hilfe zu bieten, einschließlich der Verknüpfung mit unserem neuen Knowledge Hub und dem Support-Formular.
  • Verbes­serte Benut­zer­ober­fläche der Speaker Dataset Creation.

Updates for the Deep Live Hub

Im Dezember 2024 haben wir bereits wichtige Updates für den Deep Live Hub einge­führt, die die Benut­zer­freund­lichkeit, Flexi­bi­lität und Sicherheit verbessern.

Zu den Highlights zählt die Integration von Multi-Streaming, das gleich­zei­tiges Live-Streaming auf mehreren Platt­formen wie YouTube Live, Facebook Live und Twitch ermög­licht, ohne dass externe Tools wie Restream IO benötigt werden. Weitere Updates umfassen wieder­ver­wendbare Unter­ti­tel­ein­stel­lungen, verbes­serte Sicherheit durch RTMPS sowie Verbes­se­rungen der Stabi­lität und Fehler­be­handlung.

Diese Woche haben wir den Deep Live Hub weiter verbessert:

SRT (Secure Reliable Transport) Push & Input

Nochmalig verbes­serte Sicherheit der Streams mit RTMPS und SRT (Secure Reliable Transport), siehe unser letzt­jäh­rigen Changelog für weitere Details.

Lastver­teilung / Loadba­lacing

Wir haben auch den Lastaus­gleich optimiert, um gute Ergeb­nisse bei gerin­gerer Latenz zu erzielen.

Roadmap

Nächsten Monat werden wir weitere neue Module veröf­fent­lichen, darunter ein umfas­sen­deres Textver­ständnis und mehr Funktionen für die Visual Under­standing, alle neuen Funktionen sind Teil unseres Konzeptes als Composite AI Plattform und durch ihre Kombi­nation lassen sich in Zukunft neue grade der Automation erreichen. Seien Sie gespannt!

Alle Updates des DeepVA Changelog gibt es hier: https://docs.deepva.com/changelog/

Teilen

Email
LinkedIn
Facebook
Twitter
Suche

Inhaltsübersicht

Tage :
Stunden :
Minuten :
Sekunden

Neueste KI-Nachrichten

Abonnieren Sie unseren Newsletter

Keine Sorge, unser Newsletter ist für wichtige Neuigkeiten reserviert, so dass wir nur hin und wieder ein paar Updates versenden. Kein Spam!