CUSTOMER SUCCESS STORY / BAYERISCHER RUNDFUNK

Erstellung und Verwaltung von Trainingsdaten

INDUSTRIE

Öffentlich-rechtlicher Rundfunk

PRODUKT

VORTEILE

Strukturierung und Auffindbarkeit von Archivmaterial und, als Folge, Optimierung und Beschleunigung der Arbeitsprozesse.

Das Anlegen und Verwalten von Trainingsdaten für die Face Recognition mithilfe von KI erfordert einen hohen Zeit- und Kostenaufwand.

DeepVA schaffte es, diesen Prozess zu automatisieren und damit 86% der Kosten einzusparen bei einer Erkennungsleistung von 99,32%.

Seit 1949 glänzt der Bayerische Rundfunk mit verantwortungsvollem Journalismus unter qualitativen Inhalten in den Bereichen Unterhaltung, Information, Kultur und Bildung. Acht Millionen Menschen nutzen den öffentlich-rechtlichen Anbieter täglich entweder online, in der Mediathek, für Podcasts, auf den sozialen Medien oder sonstigen Apps. Der BR ist stark regional in Bayern verankert und liefert ein lokales Fernsehangebot, das die Leute bewegt. Der Bayerische Rundfunk ist der wichtigste Nachrichtenanbieter für das Bundesland und berichtet in der Rundschau, in der Abendschau oder in anderen aktuellen Sendungen über alle relevanten Ereignisse und Entwicklungen.

Die Herausforderung: Manuelles Trainingsdaten-Management ist zu teuer und dauert zu lange

Der steigende Durchsatz an Videomaterial in den letzten Jahren macht es erforderlich, Algorithmen des maschinellen Lernens und des Deep Learnings einzusetzen, um die Effizienz der Medienverwaltung und -produktion zu erhöhen. Künstliche Intelligenz wird unter anderem dazu verwendet, Bild- und Videomaterial im Bereich der Gesichtserkennung mit Metadaten anzureichern. Eine manuelle Beschriftung bzw. ein manuelles Labeln der Daten ist nicht mehr möglich. Derartige KI-Modelle können nur gut funktionieren, wenn dazugehörige Trainingsdatensätze aktuell gehalten und gepflegt werden. Das Problem typischer Anbieter von Recognition Services ist oft, dass vorgefertigte KI-Modelle bzw. extern zugeliefertes Trainingsmaterial überwiegend nicht den Anforderungen einer Fernsehanstalt wie dem BR hinsichtlich lokaler Prominenz, historischem Material oder der deutschen Sprache entsprechen. Die eigene Generierung eines solchen Bestands an Trainingsdaten erfordert allerdings kontinuierliche personelle Ressourcen und ist zeitaufwendig und kostenintensiv.

Für den Bayerischen Rundfunk stellte sich die Frage, ob der eigene Archivbestand an Nachrichtensendungen dazu genutzt werden könne, die Erstellung von Trainingsdaten für die unternehmensspezifische Gesichtserkennung zu automatisieren und damit einen sich stets weiterentwickelnden Trainingsdatensatz zu erschließen, ohne dass dafür ein exorbitant hoher Mitarbeiteraufwand anfallen würde.

Die Lösung: Face Dataset Creation von DeepVA
- automatisierte Trainingsdatenerstellung

Für diese Herausforderung trat der BR an das Freiburger KI-Startup DeepVA heran und gemeinsam war es möglich, eine automatisierte Lösung für die Erstellung von Trainingsdaten im Bereich der Gesichts- bzw. Personenerkennung zu entwickeln. Mithilfe der sogenannten Face Dataset Creation wird vom BR breits veröffentlichtes Videomaterial hinsichtlich Namenseinblendungen analysiert. Namen von Personen werden üblicherweise in Nachrichteninhalten oder sonstigen Interviewszenen eingeblendet. In der Regel wird die gezeigte Person dabei frontal abgebildet, ihr Gesicht hat eine akzeptable Größe und ist meist unverdeckt. Zudem ist die Person oftmals alleinstehend.

Die Informationen aus der Namenseinblendung wird zusammen mit dem dazugehörigen Gesicht extrahiert und in einem Datensatz abgespeichert, der dann wiederum für das Training eines KI-Modells verwendet werden kann. Auf diese Art und Weise können große Trainingsdatensätze ohne manuellen Aufwand angelegt werden und es entstehen KI-Modelle, die unternehmensspezifische Anforderungen besser bewältigen können als Out-of-the-Box Recognition Services.

Das Ergebnis: Hohe Zeitersparnis bei extremer Genauigkeit

Im Rahmen der Kooperation des BR und DeepVA wurden neben dem produktiven Betrieb zusätzlich zu Testzwecken 641 Videos von Nachrichtensendungen mithilfe der Face Dataset Creation analysiert. Beim Auslesen der Namenseinblendungen konnte eine Genauigkeit von 96,27% erreicht werden. Der zeitliche Aufwand für diese Art der Trainingsdatenerstellung wurde mit dem dafür notwendigen manuellen Aufwand verglichen. Würde man die gleiche Anzahl an Daten händisch generieren (Videosegmente finden, in denen Namen eingeblendet werden; Namen manuell abspeichern; die passenden Gesichter aus den jeweiligen Standbildern extrahieren und all diese Informationen in einer Ordnerstruktur ablegen), so würde ein Mitarbeiter auf Basis einer 40-Stunden-Woche 17 Wochen benötigen. Die Automatisierung der Trainingsdaten durch DeepVA ergab für diese 300 Stunden Videomaterial nur eine Zeit von etwa 4 Tagen. Dies entspricht einer Zeitersparnis von 86%, die sogar noch bei leistungsfähigerer Serverstruktur erhöht werden könnte. Die KI-Modelle, die auf Basis der so erstellten Datensätze trainiert wurden, erreichten in der Personenerkennung eine Genauigkeit von 99,32%. Die Zusammenarbeit des Bayerischen Rundfunks und DeepVA zeigt, dass es möglich ist, die Erstellung unternehmensspezifischer Trainingsdaten in der Gesichtserkennung zu automatisieren und liefert hinsichtlich Zeit- und Kostenersparnis erstaunliche Ergebnisse. Mithilfe dieser Technologie können Medienunternehmen umfangreiche Datensätze anlegen und mit den Ergebnissen aus den daraus entstehenden individuellen KI-Modellen ihr Medienarchiv besser strukturieren und Content recherchierbar machen.

0 %

GENAUIGKEIT

100 %

BEDARF AN KI-EXPERTEN

0 %

schnelleres Labeling

Kontaktieren Sie uns!

Mit unserem Know-How helfen wir Ihnen, eine perfekte Lösung für Ihr Projekt zu finden!

Wir werden unterstützt von