DeepVA Hamburg Open 2023 KI und Medien

KI und Medien

 “KI in den Medien”- auch auf der diesjäh­rigen Hamburg Open ein wichtiges Thema.  

Einen Vortrag zu dem Thema gab es von Professor Dr. Sebastian Stober. Im Bereich Deep Learning hat er bereits weltweit Erfah­rungen gesammelt und wurde vor einiger Zeit auf den Lehrstuhl für Künst­liche Intel­ligenz der Otto-von-Guericke-Universität Magdeburg berufen, wo er sich mit der Schnitt­stelle zwischen künst­licher Intel­ligenz und mensch­licher Intel­ligenz ausein­an­der­setzt.  

Nachdem er bereits am Erich Pommer Institut in Potsdam und für die FKT eine Präsen­tation zu diesem Thema gehalten hat, wurde er nun von der Hamburg Open einge­laden und hielt die erste “Post-GPT3” KI-Vorlesung in der Hamburger Messe. Kein Wunder also, dass das heiße Thema GPT3  auch das Opening machte – er wollte Infos zum Impact von KI im Medien­be­reich:

Welche Auswir­kungen hat KI derzeit auf die Rundfunk- und Medien­branche?  

  • Die KI verändert die Arbeits­weise der Rundfunk- und Medien­branche bereits auf vielfältige Weise, unter anderem:  
  • In der Erstellung von Inhalten: KI kann zur Erstellung von Nachrich­ten­ar­tikeln, Beiträgen in 
  • sozialen Medien und sogar Video­in­halte  
  • In der Kuratierung von Inhalten: KI kann dazu verwendet werden, große Daten­mengen zu analy­sieren und Inhalte zu empfehlen, die für bestimmte Zielgruppen relevant und inter­essant sind 
  • Verteilung von Inhalten: Mithilfe von KI lässt sich die Verteilung von Inhalten über verschiedene Platt­formen und Kanäle organi­sieren  
  • Analyse von Inhalten: Mithilfe von KI lassen sich Publi­kums­in­teresse und Feedback analy­sieren, um Entschei­dungen über zukünftige Inhalte zu treffen.  
  • Automa­ti­sierung: KI kann verwendet werden, um sich wieder­ho­lende Aufgaben zu automa­ti­sieren, z. B. das Transkri­bieren von Audio, Unter­ti­telung von Videos oder Moderation von Kommen­taren. 

Nicht jede Antwort von Chat GPT spiegelt die Wahrheit wider, aber in diesem Fall ist das ein veritables Ergebnis, das attes­tiert auch Prof. Dr. Stober: “Ich hätte das vielleicht nicht exakt so formu­liert, aber damit kann man als Grundlage arbeiten. Er sieht die Zukunft der Suchan­fragen nicht mehr als reine Liste von Links, sondern eher als Fließtext mit Quellen­re­fe­renzen, wie bei einer wissen­schaft­lichen Arbeit. Soweit zur allge­meinen ChatGPT-Erwar­tungs­haltung, jetzt geht es erstmal um die Bestimmung von Schwert­lilien Gattungen. Der Vortrag ist gespickt mit vielen Grafiken und spannenden Links, an dieser Stelle empfehle ich es, seinen Foliensatz zu öffnen: original Foliensatz 

DeepVA Hamburg Open 2023 KI und Medien Vortrag

Die Schwert­lilien Diffe­ren­zierung

Um die allge­meine Funkti­ons­weise von Deep Learning dem Publikum näher­zu­bringen, wählte er das Beispiel der Blumen Identi­fi­zierung mittels KI, welche es so als App für ambitio­nierte Gärtner:innen zum Download gibt. Nun aber zum Beispiel: 

“Bei den Schwert­linien ist es so, dass man die ganz gut unter­scheiden kann, wenn man sich zwei verschiedene Eigen­schaften anschaut: Die Länge des Kelch­blattes und die Breite des Blüten­blattes. 

Wenn man diese beiden Eigen­schaften misst und das für jede Gattung, dann ergeben sich klare empirische Abhän­gig­keiten. Nun kann man den Prozess der Bestimmung anhand dieser Regeln automa­ti­sieren. Wenn nun aber neue Sorten hinzu­kommen, müssen wir uns überlegen, ob diese Regeln noch ausreichen oder ob man sie anpassen muss oder gar neue Parameter dazu kommen.”   

An dieser Stelle kommt nun maschi­nelles Lernen ins Spiel, das sind Verfahren, die aus den Daten automa­ti­siert Regel­systeme ableiten. Dabei werden die Parameter zum Unter­scheiden der Blätter aber nicht vorge­geben, das System erarbeitet sich diese Merkmale zur Unter­scheidung selbst. 
Das waren die maßgeb­lichen Entwick­lungen der vergan­genen zehn Jahre und ist mit die am weitesten verbreitete KI-Technologie. 

Der Aufwand, diese Klassi­fi­zie­rungs­tech­no­logie zu haben, ist aber sehr unter­schiedlich. Trainiere ich die KI manuell, habe ich einen großen, sich wieder­ho­lenden Aufwand, brauche aller­dings keinen großen Program­mier­aufwand. Wenn ich das Programm maximal autonom haben möchte, brauche ich einen großen Program­mier­aufwand und muss besser ausge­bildet sein. Dafür brauche ich aber auch mehr Daten und mehr Rechen­leistung, was in den letzten Jahren zum Glück immer günstiger wurde. 

„Das ist der Punkt, wo KI attraktiv wird und wenn wir in die Medien­branche schauen, dann haben wir in diesem Bereich, dem Labeln von Daten schon viele Dienste.“ Egal, ob im Audio­be­reich mit der Transkri­bierung, dem Entdecken von Sound­e­vents, der Annotierung, der Identi­fi­zierung oder im Bildbe­reich mit dem Tracken von Objekten, Erkennen von Dingen und Personen oder technische Daten, die meisten großen Medien­samm­lungen greifen schon auf KI zurück, um die Daten zugäng­licher zu machen.“ Sein Schwer­punkt ist aller­dings die kreative KI – die generative KI. 

Mozarts Würfel

Auch hier bemüht er ein Beispiel, um das Prinzip der generative KI näher­zu­bringen: 
„Mozart hat ein Würfel­spiel entwi­ckelt, mit dem es ihm möglich war, viele, viele Walzer zu generieren für alle möglichen Anlässe. Das war Gebrauchs­musik, nicht große Kunst. Er hatte Würfel und je nach Würfel­er­gebnis wählte er aus einer Tabelle mit verschie­denen vorkom­po­nierten Takten, welche er dann anein­an­der­reihte. Alles im Dreiviertel Takt, in der gleichen Tonart und so gab es eine aberwitzige Zahl von Kombi­na­tionen, die klingen alle irgendwie ähnlich und klingen alle irgendwie vernünftig – Gebraucht­musik eben.“ 

Und genau das ist in etwa das, was die generative KI im Bild- und Audio­be­reich nun auch macht. Nicht die große Kunst, aber Gebrauchs­kunst, die KI bringt den Mozart­würfel aller­dings auf ein ganz neues Niveau:  „Mozarts Würfel sind dumm, sie würfeln immer das gleiche, also die haben die gleichen Wahrschein­lich­keiten. Die KI kann aber die Würfel­wahr­schein­lich­keiten anpassen, sodass das, was als nächstes gewürfelt wird, immer noch zufällig ist, aber es im Kontext besser passt. 

Die einfachste Variante davon sind sogenannte autore­gressive Modelle – man generiert eine Sequenz, zum Beispiel Wort für Wort und die Wahrschein­lichkeit für das nächste Wort, also der Würfelwurf für das nächste Wort, wird beein­flusst durch alles, was vorher kam. So wie bei ChatGPT.“ 

Das funktio­niert, weil die KI eine irrsinnige Menge Texte gesehen hat und in etwas weiß, was als Nächstes kommen könnte – der Grund, warum das Training eines solchen Sprach­mo­dells großen Rechen­ka­pa­zi­täten braucht und einen hohen Entwick­lungs­aufwand. Die Nutzung eines solchen Modells ist dann einfach – siehe ChatGPT. Damit kann zum Beispiel die Medien­pro­duktion im Bereich der Nachrichten automa­ti­siert werden – bei der Bericht­erstattung über Spieltage oder das Wetter. Hier kann die KI wunderbar als Automa­ti­sierung einge­setzt werden. 

Dr. Stober ist aller­dings in der Musik zu Hause, weshalb nun viele spannende Beispiele folgten: „Jetzt kann ich anfangen und sagen, ich gebe mal ein paar Töne vor, zum Beispiel in Stück von Mozart und lass das von der KI mal weiter­spielen, als wäre das Chopin – auch ein Autore­gres­sives Model­lierung.“

Encode – Decode – Repeat

Es geht aber noch komplexer – die Steigerung sind sogenannte Autoen­coder: 

„Das Prinzip ist folgen­der­maßen, man hat zwei KI’s, die zusam­men­ar­beiten. Die eine KI ist ein Encoder, die nimmt Daten und wandelt sie in einen internen Code um, in diesem Fall ist dieser interne Code die Einstellung des Würfels. Dann wird er gewürfelt, es kommt also ein Würfelwurf raus und mit diesem Sample muss dann ein Decoder die Daten wieder herstellen. 

So wird der Autoen­coder trainiert.  Ich kann nur Daten reinschmeißen, versuche diese wieder zu rekon­stru­ieren und lerne dabei, wie man den Würfel einstellen muss, damit man genau diese Daten bekommt. Wenn ich das einmal trainiert habe, kann ich den Encoder weglassen und mit dem Würfel genau das generieren, was ich benötige.“ 

Das Beispiel hierzu ist ein Blatt mit handge­schrie­benen Ziffern – insgesamt 60.000 verschiedene, welche auf zwei Parameter von der KI herun­ter­ge­brochen wurde. 

„Man sieht sehr schön, wie er die verschie­denen Ziffern, zum Beispiel die Nullen, alle in einer ähnlichen Ecke abgebildet hat, weil sie ähnliche Einstel­lungen für den Würfel benötigen, um das gleiche Bild zu erzeugen. Das großartige ist jetzt, ich kann in diesem Raum beliebige Punkte wählen und sagen, erzeug mir ein Bild, was zu diesen Punkten gehört. Ich kann auch weiße Flächen nehmen, wo es eigentlich keine Trainings­daten gab, und er inter­po­liert mir diese. 

Eine andere generative Anwendung ist das Mergen von Schrift­arten. Angenommen zwei Schrift­arten gefallen mir, die KI macht mir daraus zwei Parameter und ich kann im Raum zwischen diesen Parametern mich frei bewegen und er errechnet die entspre­chende Mischung der beiden. „Das sind sehr komplexe Opera­tionen, die man nicht so einfach durch einfach eine Verän­derung von Pixel machen kann, sondern das ist äußerst komplex. Es geht aber noch komplexer:  

Das sind Generative Adver­sarial Networks (GANS) – wir haben wieder zwei KIs, die zusam­men­ar­beiten. Einmal wieder so ein Generator und den Gegen­spieler, den Diskri­mi­nator.  

Der Generator versucht halt, Daten zu generieren, die der Diskri­mi­nator für echt hält. 

Dieser versucht Fälschungen zu entdecken – und so spielen sie gegen­ein­ander und wachsen mit ihren Fähig­keiten. Der Generator wird immer besser im Fälschen, der Diskri­mi­nator immer besser im Erkennen. Am Ende hat man dann einen Generator, der täuschend echte Bilder generiert.“  

Es folgt das berühmte Deepfake Beispiel mit Obama, welches mittler­weile fünf Jahre alt ist, damals eine Welle an medien­po­li­ti­schen Diskus­sionen über Wahrheit und Täuschung losge­treten hat. Wie im Kleinen, werden auch die Deepfakes immer besser werden und für dieses Problem hat er einen Ausweg parat: „Ich erwarte ja eigentlich, dass irgendwann mal jemand auf die Idee kommt und sagt, wir signieren krypto­gra­fisch die Videos in dem Moment, in dem sie aufge­nommen werden. 

Und derjenige, zum Beispiel Obama, signiert das und sagt: „Ja, ich stehe dafür ein, ich habe das tatsächlich so gesagt.“

Die Diffusion der Dinge

Der vierte und letzte Ansatz sind Diffu­si­ons­mo­delle, wie sie Midjourney, DALL E2 und Stable Fusion zu Grunde liegen, den großen KI-Bildgeneratoren, welche sich auch wachsender Beliebtheit erfreuen. 

„Die Idee ist super­simpel, aber mathe­ma­tisch recht anspruchsvoll: Ich nehme Daten und verrausche sie in ganz vielen, kleinen Schritten. Und für jeden Schritt versuche ich jetzt eine KI zu trainieren, die das rückgängig macht. Wenn ich dann die KI trainiert habe, das Rauschen wieder zu entfernen, dann kann ich auch nur mit Rauschen anfangen, ganz ohne Infor­mation. Das wäre wie der ultimative Würfelwurf.“  
 
Dieses Vorgehen erklärt auch die großen Rechen­ka­pa­zi­täten, die den genera­tiven Modellen zugrunde liegen, lässt sich aber selbst auch noch weiter beein­flussen: „Diesen Prozess kann man tatsächlich trotzdem noch beein­flussen, durch die textliche Beschreibung dessen, was man generiert haben möchte – die Prompts.“ Die KI generiert das Bild in Sekunden, die Prompts werden aber minutiös aufgebaut, getestet und nochmal justiert – das kostet nun die Zeit. 

Wo geht die Reise hin? Und wenn ja, wie weit?

Auf die Frage nach einem kleinen Ausblick antwortete er: „Mit der Geschwin­digkeit, wie sich die Sachen in den letzten Jahren entwi­ckelt haben, kann man sich vorstellen, was wir da in den nächsten Jahren erwarten können. Ich wage es persönlich gar nichts mehr zu prognos­ti­zieren und ich forsche in dem Bereich mehr als 20 Jahre. Die Entwicklung ist so krass momentan, dass es wirklich schwer ist, das abzuschätzen.“ Optimie­rungs­mög­lich­keiten sieht er noch in der Art, wie wir die Suchan­frage stellen: „Die geschrie­benen Prompts sind schon besser, als wenn man sich in einem Menü etwas zusammen klicken muss, aber ich sehe noch größeres Potential in Brain-Computer-Interfaces. Also ich denke an etwas, bekomme es errechnet und das Feedback des Gehirns fließt automa­tisch in die nächste Version ein, ohne die Encodierung als Text.“ 

  

Der Vortrag enthielt einen großen Blumen­strauß Fallbei­spiele, welche wir hier gar nicht alle wieder geben können – am besten klickt ihr in den origi­nalen Foliensatz und schaut sie euch in Ruhe an. Es wird visuell, wie musika­lisch großes Enter­tainment geboten und viel zum selbst testen. Der Vortrag war infor­mativ, Augen öffnend und auch ein bisschen erschre­ckend – uns hat er aber auf jeden Fall auch sehr unter­halten. 

„Das ist der Punkt, wo KI attraktiv wird und wenn wir in die Medien­branche schauen, dann haben wir in diesem Bereich, dem Labeln von Daten schon viele Dienste.“ 

Teilen

Email
LinkedIn
Facebook
Twitter
Suche

Inhaltsübersicht

Tage :
Stunden :
Minuten :
Sekunden

Neueste KI-Nachrichten

Abonnieren Sie unseren Newsletter

Keine Sorge, unser Newsletter ist für wichtige Neuigkeiten reserviert, so dass wir nur hin und wieder ein paar Updates versenden. Kein Spam!