In einer Welt, in der Informationen im Sekundentakt entstehen und zirkulieren, wird es immer wichtiger, gesprochenes Wissen zuverlässig zu archivieren. Nur so lassen sich Verantwortlichkeiten nachvollziehen, Entscheidungsprozesse dokumentieren und Fakten von Fiktion trennen.
Täglich entstehen weltweit riesige Mengen an audiovisuellen Inhalten – von Interviews und Berichten über Plenarsitzungen bis hin zu Bürgerversammlungen oder Bildungsformaten.
Ein Beispiel: In einem Regionalparlament kann eine ganztägige Plenarsitzung mit mehreren Sprecher*innen zu stundenlangem Videomaterial führen. Eine manuelle Transkription mit Sprecher-Zuordnung, vor allem bei komplexen Begriffen, Namen oder Dialekten, benötigt bislang rund 6 bis 8 Stunden. Ein wichtiger Schritt in Richtung Transparenz – aber zeit- und kostenintensiv.
Genau hier setzt DeepVA an.
Mit der Kombination aus unserem Deep Live Hub für Live-Transkription und Untertitelung sowie dem neuen Advanced Speech Recognition Module wird dieser Prozess radikal vereinfacht. Neu: Auch die arabische Sprache wird jetzt erkannt – inklusive vieler Dialekte, dank unserer Partnerschaft mit dem saudi-arabischen Unternehmen Lisan.
Das Ergebnis:
Hochwertige Transkripte, die Sprecher korrekt zuordnen, auf Wunsch mit individuellen Fachwörterbüchern versehen sind und sich durch Large Language Models (LLMs) automatisiert weiterverarbeiten lassen. Was früher einen Arbeitstag beanspruchte, gelingt heute in weniger als einer Stunde – mit minimalem Korrekturaufwand und deutlich höherer Konsistenz.
Diese Lösung richtet sich an Redaktionen, Pressestellen und öffentliche Institutionen, die manuelle Aufwände reduzieren, Reaktionszeiten beschleunigen und dabei stets sprachliche Präzision auf Fachebene gewährleisten wollen – und so einen wichtigen Beitrag zur demokratischen Transparenz leisten.
Was ist neu?
Dank der neuen Kooperation mit Lisan kann DeepVA nun auch arabische Sprache transkribieren – inklusive zahlreicher regionaler Dialekte. Diese unterscheiden sich teils erheblich vom Standard-Arabisch in Aussprache, Wortschatz und Grammatik. Unser System erkennt nun einen Großteil dieser Varianten in der automatisierten Sprachanalyse.
Lisan ist eine KI-basierte Schreibplattform, die Nutzer*innen beim Verfassen arabischer Texte unterstützt – mit modernster Grammatikprüfung, generativer KI zur Content-Erstellung und smarten Automatisierungen.
Mehr als nur Transkription: Was das Advanced Speech Recognition Modul kann
-
Sprechererkennung
Wer spricht wann? Ob Podiumsdiskussion oder Interview – Sprecher*innen werden namentlich (über Speaker ID) oder eindeutig (via Speaker Index) zugeordnet.
-
Individ. Wörterbücher
Eigene Begriffe, Akronyme, Eigennamen oder branchenspezifische Begriffe werden korrekt erkannt und transkribiert.
-
Datei-Upload oder API-Zugriff
Einfache Nutzung über die Benutzeroberfläche oder vollautomatisierte Einbindung über unsere API – sicher, schnell und direkt in bestehende Systeme integrierbar.
-
Post-Processing mit Composite AI
Durch die Kombination von Spracherkennung, Sprecheridentifikation und LLMs entstehen ganz neue Möglichkeiten – von Zusammenfassungen über Zitat-Extraktion bis hin zu barrierefreien Versionen.
Diese Funktionen sind besonders dann von Bedeutung, wenn es auf Schnelligkeit, Genauigkeit und Nachvollziehbarkeit ankommt.
Anwendungsbeispiele
-
Redaktionelle Workflows & Journalismus (UI oder API)
-
Parlamentarische & Verwaltungsdokumentation (API)
Mit dem Advanced Speech Recognition Modul können Redaktionen Interviews, Pressekonferenzen oder Live-Mitschnitte schnell in durchsuchbaren Text umwandeln – mit korrekten Sprecherzuordnungen und direkter Exportfunktion. So entfallen manuelle Transkriptionen, und Zitate lassen sich ohne Fehler übernehmen.
So funktioniert’s (UI):
- Interview oder Mitschnitt hochladen
- Eigene Begriffe per Custom Dictionary hinzufügen
- Transkript mit Zeitstempeln direkt exportieren (z. B. als Word-Dokument)
So funktioniert’s (API):
- Transkription direkt ins Redaktionssystem integrieren
- Audiodateien per API senden
- Die Datei wird mit unserer fortschrittlichen Spracherkennung und Ihrem benutzerdefinierten Wörterbuch transkribiert.
- Rufen Sie die fertigen Ergebnisse ab, ohne dass die Benutzer Ihre Benutzeroberfläche verlassen müssen, und lassen Sie sie direkt mit dem Text arbeiten.
Öffentliche Institutionen müssen regelmäßig Sitzungen, Anhörungen oder Plenardebatten dokumentieren. Fehlt die zuverlässige Transkription, sinkt das Vertrauen in die Nachvollziehbarkeit politischer Prozesse.
Das Advanced Speech Recognition Module schließt hier die Lücke – zwischen gesprochenem Wort und digitalem Protokoll. Bald können auch Live-Untertitelungen aus dem Deep Live Hub automatisch in unseren Transcript Editor weitergeleitet werden. Das spart nicht nur Zeit, sondern sorgt für einheitliche Dokumentation und barrierefreien Zugang.
Bei der Verwendung des Deep Live Hubs für die Untertitelung können Sie das Transkript in Zukunft an unseren Transkript-Editor weiterleiten. Durch diese Integration können Institutionen nicht nur ihre Untertitelung für Barrierefreiheit automatisieren, sondern auch ihren gesamten Dokumentations-Workflow. Dadurch wird eine konsistente Ausgabe und Rückverfolgbarkeit gewährleistet.
So funktioniert’s (API):
- Nach Abschluss der Aufnahme wird automatisch ein Analyseprozess gestartet
- Individuelle Wörterbücher (z. B. Parteibezeichnungen, Sprecherlisten, Rechtsbegriffe) und Metadaten werden angewendet
- Rückgabe der Transkripte als strukturierte Dateien (z. B. JSON, XML, DOCX) – automatisch angehängt oder veröffentlicht
Composite AI – Vom Rohmaterial zum fertigen Protokoll
Mit DeepVA erhalten Sie Wort-für-Wort-Transkripte inkl. Sprecher-Zuweisung und Zeitstempeln – perfekt für den Einsatz mit LLMs.
- Zusammenfassungen in Stichpunkten: Jeder Agendapunkt kann automatisch für die Pressestelle aufbereitet werden – in Sekundenschnelle und direkt einsatzbereit für die Abendnachrichten.
- Zitat-Extraktion: Wichtige Aussagen wie „Minister X sagte um 14:37 Uhr …“ lassen sich automatisiert identifizieren – für Social Media oder Fact-Checking.
- Erkennung von Aufgaben: Offene Fragen, Zusagen oder Aufträge werden erkannt und automatisch an die zuständigen Stellen übermittelt.
- Barrierefreiheit: Das Transkript kann in einfache Sprache umgewandelt werden – für inklusivere Kommunikation.
Das Ergebnis ist ein Composite AI-Workflow. DeepVA wandelt Audio in Text um, der anschließend vom LLM in Erkenntnisse oder Zusammenfassungen umgewandelt wird. Dadurch ist eine nahezu in Echtzeit stattfindende Öffentlichkeitsarbeit möglich, die gleichzeitig die beiden Säulen Transparenz und Verantwortlichkeit stärkt. Sämtliche Daten werden in der sicheren DeepVA-Infrastruktur gespeichert, sogar lokale Geräte.
Warum das wichtig ist
-
Barrierefreiheit
Inhalte für alle zugänglich machen – live und im Nachgang.
-
Transparenz
Vertrauen entsteht, wenn Entscheidungen nachvollziehbar dokumentiert sind.
-
Effizienz
Automatisierung spart Zeit, Ressourcen und Nerven.
-
Compliance
Transkripte helfen bei rechtlicher und regulatorischer Absicherung.


