Customer Success Story: Zebra Live meets European Publi­shing Congress

Wenn Sprache keine Barrieren mehr ist: Die Power von Composite AI und wie Live Events zugäng­licher werden

Chris Guse und BosePark sind wahre Alles­könner. Gemeinsam mit Su Holder, beide Geschäfts­füh­re­rinnen der BosePark Produc­tions GmbH, hostet er einen Podcast über Podcasts und ist ein kreativer Visionär. Chris ist Gesell­schafter verschie­dener Unter­nehmen, darunter die Podcast-Produktionsfirma Bosepark Produc­tions, die KI Beratungs­firma Berlin Hills GmbH und die KI-Translation company Zebra Live GmbH in Berlin. Kein Wunder also, dass er in Sachen Techno­logie ein echter Early Adopter ist.

Audio-KI – Das unter­schätzte Potenzial neben großen Sprach­mo­dellen?

Im Textbe­reich ist Künst­liche Intel­ligenz (KI) bereits Alltag, und viele nutzen sie täglich. Auch im Audio­be­reich ist KI keine Neuheit mehr: Jedes Smart­phone kann transkri­bieren und Sprach­be­fehle entge­gen­nehmen. Doch wie sieht es in der Praxis aus? Laut Chris Guse sind viele Prozesse in der Audio Content Produktion noch sehr manuell, und die Unter­stützung durch KI ist wenig verbreitet. Dabei ist das Potenzial riesig – für nahezu jeden von uns. Wer mehr darüber erfahren möchte, sollte die passende Podcast-Folge von Chris und Su dazu anhören.

Der European Publi­shing Congress 2024 in Wien, organi­siert vom Medien­fach­verlag Oberauer, bringt Verlage und Medien­häuser aus ganz Europa zusammen und lässt sie sich über Innovation und Wandel austau­schen. Chris Guse war in diesem Jahr auch als Keynote-Speaker zum Thema Innovation und Podcasting dort einge­laden; das war aber nicht sein einziges Engagement. Mit Zebra Live GmbH zusammen mit Geschäfts­führer Nino Mello Wagner testete er als Premiere auch Live-Transkription und Dolmet­schen auf KI-Basis.

Ein Event ohne Sprach­bar­riere

Jedes Jahr finden tausende Tagungen statt, bei denen Überset­zungen benötigt werden. Oft wird Englisch als Kompromiss gewählt, und nur selten können sich Veran­stalter Simul­tan­über­setzer und die notwendige Technik leisten. Gemeinsam mit Aiconix Live hat Chris eine Lösung entwi­ckelt, um Events ohne Sprach­bar­rieren zu ermög­lichen – dank Composite AI!

Composite AI

Composite AI bezieht sich auf die kombi­nierte Anwendung verschie­dener KI-Techniken, um die Effizienz des Lernens zu verbessern und ein breiteres Spektrum an Problemen effek­tiver zu lösen. Durch die Integration verschie­dener Methoden und Diszi­plinen der KI wird Sie insgesamt leistungs­fä­higer und vielsei­tiger, genauso wie unser Gehirn verschiedene Tasks kombi­nieren kann, um effizi­enter zu sein. Die folgenden Beispiele verdeut­lichen dies:

STREAMING-PLATTFORMEN: Streaming-Dienste nutzen Composite AI, um perso­na­li­sierte Inhalte anzubieten. Durch die Kombi­nation von maschi­nellem Lernen, Sprach­ver­ständnis dank Natural Language Processing (NLP) und Knowledge Graphen kann der Dienst genau vorher­sagen, welche Serien einem Nutzer gefallen könnten. Dies verbessert die Benut­zer­er­fahrung und erhöht die Kunden­bindung

NOTRUFE CALLCENTER: Notruf­zen­tralen verwenden Composite AI, um einge­hende Anrufe effizi­enter zu bearbeiten. Durch die Kombi­nation von Sprach­er­kennung und Entschei­dungs­un­ter­stüt­zungs­sys­temen können Notrufe schneller katego­ri­siert und weiter­ge­leitet werden. Sprach­bar­rieren können in Zukunft auch live während des Notrufs überwunden werden, was zu zielge­rich­teter Hilfe und weniger Kommu­ni­ka­ti­ons­hürden führt.

Composite AI als Schlüs­sel­tech­no­logie

Um die inter­na­tionale Konferenz in Wien zugäng­licher zu machen, sollte sie in fünf Sprachen übersetzt werden, darunter auch Tsche­chisch und Nieder­län­disch. Zebra Live GmbH löste dies mittels Composite AI.

Das Audio­signal der Bühne wurde mittels Aiconix live transkri­biert, unter anderem auch für barrie­re­freie Live-Untertitel und auch in fünf verschiedene Sprachen übersetzt. Diese Überset­zungen wurden dann mittels Text-to-Speech wieder in Audio umgewandelt und als separate Kanäle ausge­geben. Somit konnte das Publikum die Vorträge mittels angenehmer Compu­ter­stimme via Headset in ihrer Sprache hören. Norma­ler­weise benötigt man für eine solche Konferenz spezielle Headsets, Dolmet­scher, Kabinen und eine Funkanlage. Heute hat jeder ein Handy mit Kopfhörern. Beides war auf der Konferenz in Wien im Einsatz, sodass die Besuche­rinnen und Besucher live sowohl in die KI-Übersetzung, als auch in die mensch­liche Übersetzung hinein­hören konnten.

Ist die KI also eine kosten­güns­tigere Alter­native zur Simul­tan­dol­met­schung?

Aktuell hat dieser Prozess, der mehrere KI-Lösungen benötigt, eine gewisse Bearbei­tungs­dauer von 15 bis 30 Sekunden und auch die Computer generierten Stimmen sind derzeit noch mit einer rasanten Entwicklung behaftet. Das mensch­liche Gehirn ist in dieser Königs­dis­ziplin der Übersetzung schneller und die echten Stimmen in ihrer Modulation und Betonung angenehmer.

Aller­dings ist Simul­tan­dol­met­schen sehr teuer und die Tätigkeit ist auch sehr anstrengend, besonders für ganztägige Konfe­renzen, die pro Sprache mindestens zwei Dolmet­scher benötigen. Der erste Test beim European Publi­shing Congress zeigte jedoch, dass nicht nur die Barrie­re­freiheit und neue Audio­spuren profi­tieren, es werden schlicht mehr Sprachen möglich, sondern auch die Content-Erstellung und das in Kombi­nation ist der Game Changer.

Zweit­ver­wertung: KI-basierte Podcasts

Als Podcast-Enthusiast weiß Chris Guse, dass eine inhalts­starke Konferenz samt Aufzeichnung pures Gold an Content ist. Warum also verschwenden? Mit dem Transkript von Aiconix Live wurde nicht nur die generative Audio-KI gefüttert, sondern auch ein Sprach­modell, das Zusam­men­fas­sungen der Vorträge generierte. Diese Zusam­men­fas­sungen wurden mit einer eigens dazu entwi­ckelten Engine namens Audio­matika erstellt, die bei BosePark Produc­tions zu diesem Zweck entwi­ckelt worden ist, sodass jeder Vortragsslot eine automa­tisch erstellte Zusam­men­fassung als Audio­datei erhielt. Die gesamte Konferenz gibt es als Podcast-Sonderfolge auf Spotify zu hören, und die Textzu­sam­men­fas­sungen eignen sich auch für Proto­kolle oder die Event-Nachbereitung.

„Ziel muss es immer sein, unser Leben zu verbessern und nicht nur technische Spiele­reien zu veran­stalten. Wenn man einen 10-Stunden-Tag auf eine halbe Stunde reduzieren kann, hilft uns der Einsatz von Künst­licher Intel­ligenz ganz klar. Und auch im Sinne der Barrie­re­freiheit ist enormes Potential.

Chris Guse

Co-Founder CEO von Zebra Live

Was ist mit Fehlern?

Trotz der hohen Standards und des umfang­reichen Trainings ist eine Audio­tran­skription natürlich nicht unfehlbar, Fachbe­griffe und Dialekte sind in den letzten Jahren handhabbar geworden, z.B. durch den Einsatz unserer Diction­airies, mit denen man der KI Fachbe­griffe als Wörter­bücher übergeben kann. Bei Vorträgen, bei denen kein Platz für Fehler ist, kann man mit dem Live-Editor eine Redak­teurin oder Redakteur noch einmal über die Transkripte schauen lassen. Dank sogenannten Partials, also der sofor­tigen Übersetzung von Teilwörtern, können Begriffe in Sekun­den­schnelle korri­giert werden, bevor sie direkt ausge­geben werden. Dies wird vor allem bei Reden und Livestreams von Amtsträgern mit Aiconix Live genutzt. Beim European Publi­shing Congress war dies nicht der Fall, hier stand vor allem die Effizienz im Vorder­grund.

Der erste Test war ein Erfolg – weitere Kongresse und Eventstreams folgen

Es geht nicht nur darum, Geld zu sparen, sondern vor Allem es kleineren Events zu ermög­lichen, ihre Reich­weite zu erweitern und barrie­re­freier zu werden. Chris Guse und Nino Mello Wagner sehen das klar: „Ziel muss es immer sein, unser Leben zu verbessern und nicht nur technische Spiele­reien zu veran­stalten. Wenn man einen 10-Stunden-Tag auf eine halbe Stunde reduzieren kann, hilft uns der Einsatz von Künst­licher Intel­ligenz ganz klar. Und auch im Sinne der Barrie­re­freiheit ist enormes Potential.“

Schließlich kann man mit Aiconix nicht nur Transkri­bieren, sondern erhält auch geschriebene Unter­titel, als Output für das Smart­phone oder für Displays vor Ort. Für Veran­stalter von Events, Kongressen und Townhall Meetings besonders inter­essant, da der European Acces­si­bility Act im kommenden Jahr auch dort eine Rolle spielen wird. Gerade in dieser Anwendung wird die KI in Zukunft eine echte Erleich­terung sein – vor Allem wenn es um Sprachen geht, bei denen das notwendige Personal mit Sprach­kenntnis nur schwer zu finden ist.

Wenn ihr euch für das Thema inter­es­siert, sprecht uns gerne an oder wendet euch an Chris Guse und Zebra Live.

Teilen

Email
LinkedIn
Facebook
Twitter
Suche

Inhaltsübersicht

Tage :
Stunden :
Minuten :
Sekunden

Neueste KI-Nachrichten

Abonnieren Sie unseren Newsletter

Keine Sorge, unser Newsletter ist für wichtige Neuigkeiten reserviert, so dass wir nur hin und wieder ein paar Updates versenden. Kein Spam!