Wenn Sprache keine Barrieren mehr ist: Die Power von Composite AI und wie Live Events zugänglicher werden
Chris Guse und BosePark sind wahre Alleskönner. Gemeinsam mit Su Holder, beide Geschäftsführerinnen der BosePark Productions GmbH, hostet er einen Podcast über Podcasts und ist ein kreativer Visionär. Chris ist Gesellschafter verschiedener Unternehmen, darunter die Podcast-Produktionsfirma Bosepark Productions, die KI Beratungsfirma Berlin Hills GmbH und die KI-Translation company Zebra Live GmbH in Berlin. Kein Wunder also, dass er in Sachen Technologie ein echter Early Adopter ist.
Audio-KI - Das unterschätzte Potenzial neben großen Sprachmodellen?
Im Textbereich ist Künstliche Intelligenz (KI) bereits Alltag, und viele nutzen sie täglich. Auch im Audiobereich ist KI keine Neuheit mehr: Jedes Smartphone kann transkribieren und Sprachbefehle entgegennehmen. Doch wie sieht es in der Praxis aus? Laut Chris Guse sind viele Prozesse in der Audio Content Produktion noch sehr manuell, und die Unterstützung durch KI ist wenig verbreitet. Dabei ist das Potenzial riesig – für nahezu jeden von uns. Wer mehr darüber erfahren möchte, sollte die passende Podcast-Folge von Chris und Su dazu anhören.
Der European Publishing Congress 2024 in Wien, organisiert vom Medienfachverlag Oberauer, bringt Verlage und Medienhäuser aus ganz Europa zusammen und lässt sie sich über Innovation und Wandel austauschen. Chris Guse war in diesem Jahr auch als Keynote-Speaker zum Thema Innovation und Podcasting dort eingeladen; das war aber nicht sein einziges Engagement. Mit Zebra Live GmbH zusammen mit Geschäftsführer Nino Mello Wagner testete er als Premiere auch Live-Transkription und Dolmetschen auf KI-Basis.
Ein Event ohne Sprachbarriere
Jedes Jahr finden tausende Tagungen statt, bei denen Übersetzungen benötigt werden. Oft wird Englisch als Kompromiss gewählt, und nur selten können sich Veranstalter Simultanübersetzer und die notwendige Technik leisten. Gemeinsam mit Aiconix Live hat Chris eine Lösung entwickelt, um Events ohne Sprachbarrieren zu ermöglichen – dank Composite AI!
Composite AI
Composite AI bezieht sich auf die kombinierte Anwendung verschiedener KI-Techniken, um die Effizienz des Lernens zu verbessern und ein breiteres Spektrum an Problemen effektiver zu lösen. Durch die Integration verschiedener Methoden und Disziplinen der KI wird Sie insgesamt leistungsfähiger und vielseitiger, genauso wie unser Gehirn verschiedene Tasks kombinieren kann, um effizienter zu sein. Die folgenden Beispiele verdeutlichen dies:
STREAMING-PLATTFORMEN: Streaming-Dienste nutzen Composite AI, um personalisierte Inhalte anzubieten. Durch die Kombination von maschinellem Lernen, Sprachverständnis dank Natural Language Processing (NLP) und Knowledge Graphen kann der Dienst genau vorhersagen, welche Serien einem Nutzer gefallen könnten. Dies verbessert die Benutzererfahrung und erhöht die Kundenbindung
NOTRUFE CALLCENTER: Notrufzentralen verwenden Composite AI, um eingehende Anrufe effizienter zu bearbeiten. Durch die Kombination von Spracherkennung und Entscheidungsunterstützungssystemen können Notrufe schneller kategorisiert und weitergeleitet werden. Sprachbarrieren können in Zukunft auch live während des Notrufs überwunden werden, was zu zielgerichteter Hilfe und weniger Kommunikationshürden führt.
Composite AI als Schlüsseltechnologie
Um die internationale Konferenz in Wien zugänglicher zu machen, sollte sie in fünf Sprachen übersetzt werden, darunter auch Tschechisch und Niederländisch. Zebra Live GmbH löste dies mittels Composite AI.
Das Audiosignal der Bühne wurde mittels Aiconix live transkribiert, unter anderem auch für barrierefreie Live-Untertitel und auch in fünf verschiedene Sprachen übersetzt. Diese Übersetzungen wurden dann mittels Text-to-Speech wieder in Audio umgewandelt und als separate Kanäle ausgegeben. Somit konnte das Publikum die Vorträge mittels angenehmer Computerstimme via Headset in ihrer Sprache hören. Normalerweise benötigt man für eine solche Konferenz spezielle Headsets, Dolmetscher, Kabinen und eine Funkanlage. Heute hat jeder ein Handy mit Kopfhörern. Beides war auf der Konferenz in Wien im Einsatz, sodass die Besucherinnen und Besucher live sowohl in die KI-Übersetzung, als auch in die menschliche Übersetzung hineinhören konnten.
Ist die KI also eine kostengünstigere Alternative zur Simultandolmetschung?
Aktuell hat dieser Prozess, der mehrere KI-Lösungen benötigt, eine gewisse Bearbeitungsdauer von 15 bis 30 Sekunden und auch die Computer generierten Stimmen sind derzeit noch mit einer rasanten Entwicklung behaftet. Das menschliche Gehirn ist in dieser Königsdisziplin der Übersetzung schneller und die echten Stimmen in ihrer Modulation und Betonung angenehmer.
Allerdings ist Simultandolmetschen sehr teuer und die Tätigkeit ist auch sehr anstrengend, besonders für ganztägige Konferenzen, die pro Sprache mindestens zwei Dolmetscher benötigen. Der erste Test beim European Publishing Congress zeigte jedoch, dass nicht nur die Barrierefreiheit und neue Audiospuren profitieren, es werden schlicht mehr Sprachen möglich, sondern auch die Content-Erstellung und das in Kombination ist der Game Changer.
Zweitverwertung: KI-basierte Podcasts
Als Podcast-Enthusiast weiß Chris Guse, dass eine inhaltsstarke Konferenz samt Aufzeichnung pures Gold an Content ist. Warum also verschwenden? Mit dem Transkript von Aiconix Live wurde nicht nur die generative Audio-KI gefüttert, sondern auch ein Sprachmodell, das Zusammenfassungen der Vorträge generierte. Diese Zusammenfassungen wurden mit einer eigens dazu entwickelten Engine namens Audiomatika erstellt, die bei BosePark Productions zu diesem Zweck entwickelt worden ist, sodass jeder Vortragsslot eine automatisch erstellte Zusammenfassung als Audiodatei erhielt. Die gesamte Konferenz gibt es als Podcast-Sonderfolge auf Spotify zu hören, und die Textzusammenfassungen eignen sich auch für Protokolle oder die Event-Nachbereitung.
"Ziel muss es immer sein, unser Leben zu verbessern und nicht nur technische Spielereien zu veranstalten. Wenn man einen 10-Stunden-Tag auf eine halbe Stunde reduzieren kann, hilft uns der Einsatz von Künstlicher Intelligenz ganz klar. Und auch im Sinne der Barrierefreiheit ist enormes Potential.
Chris Guse
Co-Founder CEO von Zebra Live
Was ist mit Fehlern?
Trotz der hohen Standards und des umfangreichen Trainings ist eine Audiotranskription natürlich nicht unfehlbar, Fachbegriffe und Dialekte sind in den letzten Jahren handhabbar geworden, z.B. durch den Einsatz unserer Dictionairies, mit denen man der KI Fachbegriffe als Wörterbücher übergeben kann. Bei Vorträgen, bei denen kein Platz für Fehler ist, kann man mit dem Live-Editor eine Redakteurin oder Redakteur noch einmal über die Transkripte schauen lassen. Dank sogenannten Partials, also der sofortigen Übersetzung von Teilwörtern, können Begriffe in Sekundenschnelle korrigiert werden, bevor sie direkt ausgegeben werden. Dies wird vor allem bei Reden und Livestreams von Amtsträgern mit Aiconix Live genutzt. Beim European Publishing Congress war dies nicht der Fall, hier stand vor allem die Effizienz im Vordergrund.
Der erste Test war ein Erfolg – weitere Kongresse und Eventstreams folgen
Es geht nicht nur darum, Geld zu sparen, sondern vor Allem es kleineren Events zu ermöglichen, ihre Reichweite zu erweitern und barrierefreier zu werden. Chris Guse und Nino Mello Wagner sehen das klar: „Ziel muss es immer sein, unser Leben zu verbessern und nicht nur technische Spielereien zu veranstalten. Wenn man einen 10-Stunden-Tag auf eine halbe Stunde reduzieren kann, hilft uns der Einsatz von Künstlicher Intelligenz ganz klar. Und auch im Sinne der Barrierefreiheit ist enormes Potential.“
Schließlich kann man mit Aiconix nicht nur Transkribieren, sondern erhält auch geschriebene Untertitel, als Output für das Smartphone oder für Displays vor Ort. Für Veranstalter von Events, Kongressen und Townhall Meetings besonders interessant, da der European Accessibility Act im kommenden Jahr auch dort eine Rolle spielen wird. Gerade in dieser Anwendung wird die KI in Zukunft eine echte Erleichterung sein – vor Allem wenn es um Sprachen geht, bei denen das notwendige Personal mit Sprachkenntnis nur schwer zu finden ist.
Wenn ihr euch für das Thema interessiert, sprecht uns gerne an oder wendet euch an Chris Guse und Zebra Live.