KI und Medien

Last updated on 01.02.2023

“KI in den Medien”- auch auf der diesjährigen Hamburg Open ein wichtiges Thema.

Einen Vortrag zu dem Thema gab es von Professor Dr. Sebastian Stober. Im Bereich Deep Learning hat er bereits weltweit Erfahrungen gesammelt und wurde vor einiger Zeit auf den Lehrstuhl für Künstliche Intelligenz der Otto-von-Guericke-Universität Magdeburg berufen, wo er sich mit der Schnittstelle zwischen künstlicher Intelligenz und menschlicher Intelligenz auseinandersetzt.

Nachdem er bereits am Erich Pommer Institut in Potsdam und für die FKT eine Präsentation zu diesem Thema gehalten hat, wurde er nun von der Hamburg Open eingeladen und hielt die erste “Post-GPT3” KI-Vorlesung in der Hamburger Messe. Kein Wunder also, dass das heiße Thema GPT3 auch das Opening machte – er wollte Infos zum Impact von KI im Medienbereich:

Welche Auswirkungen hat KI derzeit auf die Rundfunk- und Medienbranche?

Die KI verändert die Arbeitsweise der Rundfunk- und Medienbranche bereits auf vielfältige Weise, unter anderem:
In der Erstellung von Inhalten: KI kann zur Erstellung von Nachrichtenartikeln, Beiträgen in
sozialen Medien und sogar Videoinhalte
In der Kuratierung von Inhalten: KI kann dazu verwendet werden, große Datenmengen zu analysieren und Inhalte zu empfehlen, die für bestimmte Zielgruppen relevant und interessant sind
Verteilung von Inhalten: Mithilfe von KI lässt sich die Verteilung von Inhalten über verschiedene Plattformen und Kanäle organisieren
Analyse von Inhalten: Mithilfe von KI lassen sich Publikumsinteresse und Feedback analysieren, um Entscheidungen über zukünftige Inhalte zu treffen.
Automatisierung: KI kann verwendet werden, um sich wiederholende Aufgaben zu automatisieren, z. B. das Transkribieren von Audio, Untertitelung von Videos oder Moderation von Kommentaren.

Nicht jede Antwort von Chat GPT spiegelt die Wahrheit wider, aber in diesem Fall ist das ein veritables Ergebnis, das attestiert auch Prof. Dr. Stober: “Ich hätte das vielleicht nicht exakt so formuliert, aber damit kann man als Grundlage arbeiten.” Er sieht die Zukunft der Suchanfragen nicht mehr als reine Liste von Links, sondern eher als Fließtext mit Quellenreferenzen, wie bei einer wissenschaftlichen Arbeit. Soweit zur allgemeinen ChatGPT–Erwartungshaltung, jetzt geht es erstmal um die Bestimmung von Schwertlilien Gattungen. Der Vortrag ist gespickt mit vielen Grafiken und spannenden Links, an dieser Stelle empfehle ich es, seinen Foliensatz zu öffnen: original Foliensatz

Die Schwertlilien Differenzierung

Um die allgemeine Funktionsweise von Deep Learning dem Publikum näherzubringen, wählte er das Beispiel der Blumen Identifizierung mittels KI, welche es so als App für ambitionierte Gärtner:innen zum Download gibt. Nun aber zum Beispiel:

“Bei den Schwertlinien ist es so, dass man die ganz gut unterscheiden kann, wenn man sich zwei verschiedene Eigenschaften anschaut: Die Länge des Kelchblattes und die Breite des Blütenblattes.

Wenn man diese beiden Eigenschaften misst und das für jede Gattung, dann ergeben sich klare empirische Abhängigkeiten. Nun kann man den Prozess der Bestimmung anhand dieser Regeln automatisieren. Wenn nun aber neue Sorten hinzukommen, müssen wir uns überlegen, ob diese Regeln noch ausreichen oder ob man sie anpassen muss oder gar neue Parameter dazu kommen.”

An dieser Stelle kommt nun maschinelles Lernen ins Spiel, das sind Verfahren, die aus den Daten automatisiert Regelsysteme ableiten. Dabei werden die Parameter zum Unterscheiden der Blätter aber nicht vorgegeben, das System erarbeitet sich diese Merkmale zur Unterscheidung selbst.
Das waren die maßgeblichen Entwicklungen der vergangenen zehn Jahre und ist mit die am weitesten verbreitete KI-Technologie.

Der Aufwand, diese Klassifizierungstechnologie zu haben, ist aber sehr unterschiedlich. Trainiere ich die KI manuell, habe ich einen großen, sich wiederholenden Aufwand, brauche allerdings keinen großen Programmieraufwand. Wenn ich das Programm maximal autonom haben möchte, brauche ich einen großen Programmieraufwand und muss besser ausgebildet sein. Dafür brauche ich aber auch mehr Daten und mehr Rechenleistung, was in den letzten Jahren zum Glück immer günstiger wurde.

„Das ist der Punkt, wo KI attraktiv wird und wenn wir in die Medienbranche schauen, dann haben wir in diesem Bereich, dem Labeln von Daten schon viele Dienste.“ Egal, ob im Audiobereich mit der Transkribierung, dem Entdecken von Soundevents, der Annotierung, der Identifizierung oder im Bildbereich mit dem Tracken von Objekten, Erkennen von Dingen und Personen oder technische Daten, die meisten großen Mediensammlungen greifen schon auf KI zurück, um die Daten zugänglicher zu machen.“ Sein Schwerpunkt ist allerdings die kreative KI – die generative KI.

Mozarts Würfel

Auch hier bemüht er ein Beispiel, um das Prinzip der generative KI näherzubringen:
„Mozart hat ein Würfelspiel entwickelt, mit dem es ihm möglich war, viele, viele Walzer zu generieren für alle möglichen Anlässe. Das war Gebrauchsmusik, nicht große Kunst. Er hatte Würfel und je nach Würfelergebnis wählte er aus einer Tabelle mit verschiedenen vorkomponierten Takten, welche er dann aneinanderreihte. Alles im Dreiviertel Takt, in der gleichen Tonart und so gab es eine aberwitzige Zahl von Kombinationen, die klingen alle irgendwie ähnlich und klingen alle irgendwie vernünftig – Gebrauchtmusik eben.“

Und genau das ist in etwa das, was die generative KI im Bild- und Audiobereich nun auch macht. Nicht die große Kunst, aber Gebrauchskunst, die KI bringt den Mozartwürfel allerdings auf ein ganz neues Niveau: „Mozarts Würfel sind dumm, sie würfeln immer das gleiche, also die haben die gleichen Wahrscheinlichkeiten. Die KI kann aber die Würfelwahrscheinlichkeiten anpassen, sodass das, was als nächstes gewürfelt wird, immer noch zufällig ist, aber es im Kontext besser passt.

Die einfachste Variante davon sind sogenannte autoregressive Modelle – man generiert eine Sequenz, zum Beispiel Wort für Wort und die Wahrscheinlichkeit für das nächste Wort, also der Würfelwurf für das nächste Wort, wird beeinflusst durch alles, was vorher kam. So wie bei ChatGPT.“

Das funktioniert, weil die KI eine irrsinnige Menge Texte gesehen hat und in etwas weiß, was als Nächstes kommen könnte – der Grund, warum das Training eines solchen Sprachmodells großen Rechenkapazitäten braucht und einen hohen Entwicklungsaufwand. Die Nutzung eines solchen Modells ist dann einfach – siehe ChatGPT. Damit kann zum Beispiel die Medienproduktion im Bereich der Nachrichten automatisiert werden – bei der Berichterstattung über Spieltage oder das Wetter. Hier kann die KI wunderbar als Automatisierung eingesetzt werden.

Dr. Stober ist allerdings in der Musik zu Hause, weshalb nun viele spannende Beispiele folgten: „Jetzt kann ich anfangen und sagen, ich gebe mal ein paar Töne vor, zum Beispiel in Stück von Mozart und lass das von der KI mal weiterspielen, als wäre das Chopin – auch ein Autoregressives Modellierung.“

Encode – Decode – Repeat

Es geht aber noch komplexer – die Steigerung sind sogenannte Autoencoder:

„Das Prinzip ist folgendermaßen, man hat zwei KI’s, die zusammenarbeiten. Die eine KI ist ein Encoder, die nimmt Daten und wandelt sie in einen internen Code um, in diesem Fall ist dieser interne Code die Einstellung des Würfels. Dann wird er gewürfelt, es kommt also ein Würfelwurf raus und mit diesem Sample muss dann ein Decoder die Daten wieder herstellen.

So wird der Autoencoder trainiert. Ich kann nur Daten reinschmeißen, versuche diese wieder zu rekonstruieren und lerne dabei, wie man den Würfel einstellen muss, damit man genau diese Daten bekommt. Wenn ich das einmal trainiert habe, kann ich den Encoder weglassen und mit dem Würfel genau das generieren, was ich benötige.“

Das Beispiel hierzu ist ein Blatt mit handgeschriebenen Ziffern – insgesamt 60.000 verschiedene, welche auf zwei Parameter von der KI heruntergebrochen wurde.

„Man sieht sehr schön, wie er die verschiedenen Ziffern, zum Beispiel die Nullen, alle in einer ähnlichen Ecke abgebildet hat, weil sie ähnliche Einstellungen für den Würfel benötigen, um das gleiche Bild zu erzeugen. Das großartige ist jetzt, ich kann in diesem Raum beliebige Punkte wählen und sagen, erzeug mir ein Bild, was zu diesen Punkten gehört. Ich kann auch weiße Flächen nehmen, wo es eigentlich keine Trainingsdaten gab, und er interpoliert mir diese.

Eine andere generative Anwendung ist das Mergen von Schriftarten. Angenommen zwei Schriftarten gefallen mir, die KI macht mir daraus zwei Parameter und ich kann im Raum zwischen diesen Parametern mich frei bewegen und er errechnet die entsprechende Mischung der beiden. „Das sind sehr komplexe Operationen, die man nicht so einfach durch einfach eine Veränderung von Pixel machen kann, sondern das ist äußerst komplex. Es geht aber noch komplexer:

Das sind Generative Adversarial Networks (GANS) – wir haben wieder zwei KIs, die zusammenarbeiten. Einmal wieder so ein Generator und den Gegenspieler, den Diskriminator.

Der Generator versucht halt, Daten zu generieren, die der Diskriminator für echt hält.

Dieser versucht Fälschungen zu entdecken – und so spielen sie gegeneinander und wachsen mit ihren Fähigkeiten. Der Generator wird immer besser im Fälschen, der Diskriminator immer besser im Erkennen. Am Ende hat man dann einen Generator, der täuschend echte Bilder generiert.“

Es folgt das berühmte Deepfake Beispiel mit Obama, welches mittlerweile fünf Jahre alt ist, damals eine Welle an medienpolitischen Diskussionen über Wahrheit und Täuschung losgetreten hat. Wie im Kleinen, werden auch die Deepfakes immer besser werden und für dieses Problem hat er einen Ausweg parat: „Ich erwarte ja eigentlich, dass irgendwann mal jemand auf die Idee kommt und sagt, wir signieren kryptografisch die Videos in dem Moment, in dem sie aufgenommen werden.

Und derjenige, zum Beispiel Obama, signiert das und sagt: „Ja, ich stehe dafür ein, ich habe das tatsächlich so gesagt.“

Play Video about Deepfake mit Ex-US-Präsident Barack Obama: Jordan Peele übertrug mit Hilfe der Deepfake-Technologie seine eigene Mimik auf die Gesichtszüge von Obama.

Die Diffusion der Dinge

Der vierte und letzte Ansatz sind Diffusionsmodelle, wie sie Midjourney, DALL E2 und Stable Fusion zu Grunde liegen, den großen KI-Bildgeneratoren, welche sich auch wachsender Beliebtheit erfreuen.

„Die Idee ist supersimpel, aber mathematisch recht anspruchsvoll: Ich nehme Daten und verrausche sie in ganz vielen, kleinen Schritten. Und für jeden Schritt versuche ich jetzt eine KI zu trainieren, die das rückgängig macht. Wenn ich dann die KI trainiert habe, das Rauschen wieder zu entfernen, dann kann ich auch nur mit Rauschen anfangen, ganz ohne Information. Das wäre wie der ultimative Würfelwurf.“

Dieses Vorgehen erklärt auch die großen Rechenkapazitäten, die den generativen Modellen zugrunde liegen, lässt sich aber selbst auch noch weiter beeinflussen: „Diesen Prozess kann man tatsächlich trotzdem noch beeinflussen, durch die textliche Beschreibung dessen, was man generiert haben möchte – die Prompts.“ Die KI generiert das Bild in Sekunden, die Prompts werden aber minutiös aufgebaut, getestet und nochmal justiert – das kostet nun die Zeit.

Wo geht die Reise hin? Und wenn ja, wie weit?

Auf die Frage nach einem kleinen Ausblick antwortete er: „Mit der Geschwindigkeit, wie sich die Sachen in den letzten Jahren entwickelt haben, kann man sich vorstellen, was wir da in den nächsten Jahren erwarten können. Ich wage es persönlich gar nichts mehr zu prognostizieren und ich forsche in dem Bereich mehr als 20 Jahre. Die Entwicklung ist so krass momentan, dass es wirklich schwer ist, das abzuschätzen.“ Optimierungsmöglichkeiten sieht er noch in der Art, wie wir die Suchanfrage stellen: „Die geschriebenen Prompts sind schon besser, als wenn man sich in einem Menü etwas zusammen klicken muss, aber ich sehe noch größeres Potential in Brain-Computer-Interfaces. Also ich denke an etwas, bekomme es errechnet und das Feedback des Gehirns fließt automatisch in die nächste Version ein, ohne die Encodierung als Text.“

Der Vortrag enthielt einen großen Blumenstrauß Fallbeispiele, welche wir hier gar nicht alle wieder geben können – am besten klickt ihr in den originalen Foliensatz und schaut sie euch in Ruhe an. Es wird visuell, wie musikalisch großes Entertainment geboten und viel zum selbst testen. Der Vortrag war informativ, Augen öffnend und auch ein bisschen erschreckend – uns hat er aber auf jeden Fall auch sehr unterhalten.

„Das ist der Punkt, wo KI attraktiv wird und wenn wir in die Medienbranche schauen, dann haben wir in diesem Bereich, dem Labeln von Daten schon viele Dienste.“

Abonnieren Sie unseren Newsletter!

Deepfake, Event, hamburg open 2023, KI in Medien, Künstliche Intelligenz

Diesen Artikel teilen:

Das könnte Sie auch interessieren

aiconix.ai und LOGIC media solutions vereinbaren strategische Partnerschaft, um KI- und Transkriptionslösungen weiter voranzubringen.

März 18, 2024

ThinkOwl Group treibt KI-Innovation voran: The Chainless und aiconix schließen sich zusammen, um ihre führende Position auf dem Markt zu stärken.

Februar 1, 2024

Smarte Recherche: So nutzt der Knowledge Graph Ihr Wissen

Januar 22, 2024

Unsere Produkte

Deep Media Analyzer

Deep Model Customizer

Deep Collector

Deep Indexer

Deep Explorer

Erfahren Sie
mehr über Diversität

DeepVA Funktionen

Nach Anwendungsfall

Nach customer story

Unternehmen

Ressourcen

NACHRICHTEN

Über uns

Karriere

Blog

Events

Newsletter

ThinkOwl Group treibt KI-Innovation voran: The Chainless und aiconix schließen sich zusammen, um ihre führende Position auf dem Markt zu stärken.