Generative KI und das Ende der Trainingsdaten?
Künstliche Intelligenz hat Einzug in viele Arbeitsbereiche genommen, das ist mittlerweile fast jedem bewusst. Auch wenn vielleicht noch nicht jeder direkte Erfahrungen damit gemacht hat, so ist es zumindest in den Nachrichten und den Medien omnipräsent.
Gerade die viel erwähnten generativen KI-Modelle, wie ChatGPT, Stable Diffusion oder Midjourney ermöglichen es, kreative Leistungen, die bisher nur von hochqualifizierten Fachkräften erbracht werden konnten, als Massenware herzustellen. Dies reicht von Stories, Berichten und anderen Textausgaben bis hin zu multimodalen Inhalten wie Bildern, Videos und Audio. Immer mehr KI-Systeme verändern die Art und Weise, wie Inhalte produziert, verbreitet, erlebt und auch vermarktet werden.
Doch woher stammen die Trainingsdaten, um diese Modelle intelligent zu machen?
Was als leise Stimmen zum Jahreswechsel begann, äußert sich nun in handfesten Forderungen: Das Verwenden von Texten, Bildern und Musikstücken als Trainingsmaterial soll in Zukunft vergütet werden. Jedes KI-System muss mit Daten trainiert werden. Oftmals sind dies jedoch Daten, deren Ursprung nicht geklärt ist oder deren Nutzung rechtlich gar nicht abgedeckt war – die KI als sogenannte Blackbox.
Nun fordern verschiedene Verbände von Kreativschaffenden, unter anderem die DJU, Verdi oder Fotografenverbände in einer gemeinsamen Stellungnahme mehr Transparenz und eine Vergütung für die Nutzung ihrer Werke als Trainingsdaten.
Auch im EU AI Act wird ebenfalls mehr Transparenz gefordert werden, was die Trainingsdaten betrifft und potenziell auch eine, wie auch immer geartete Vergütung. Ob es eher eine an die GEMA angelegte Pauschale ist, oder eine klassische pay-per-use steht bisher in keinem der Konzepte. Die Forderung ist jedoch klar: Kreative Arbeit muss auch als Basis für KI-Modelle in Zukunft vergütet werden.
Datensicherheit und Qualität der Trainingsdatensätze
Die Nutzung bestehender Inhalte für das Training von KI-Systemen wird grundsätzlich von den Regelungen zum Text- und Data Mining im europäischen Urheberrecht erfasst und sind bislang noch zulässig, sofern die Rechtsinhaber*innen sich diese nicht vorenthalten hat (§ 44 b und § 60 d UrhG). Doch wie werden sich die Forderungen und die Lobbyarbeit auf die Gesetzesnovelle auswirken?
Unsere Partner von Adobe meistern diese rechtliche Hürde, in dem sie die Trainingsdaten aus ihrem eigenen Stockfoto Marktplatz beschaffen und lizenzieren.
Der KI-Markt wird breiter und zunehmend diverser
Zusätzlich zur rasanten Entwicklung von generativer KI erobern immer mehr hochentwickelte, leistungsstarke Open-Source KI-Modelle den Markt.
Wachstumsorientierte Unternehmen setzen verstärkt auf Open Source Technologien, frei einsehbar und transparent. Es kommt regelrecht zu einer Renaissance der Open Source Entwicklungen.
In einem Talk an der TU München hat OpenAI CEO Sam Altman dies auch bekräftigt. Viele einfache und risikofreie Anwendungsszenarien von KI werden in Zukunft von Open Source Modellen erledigt werden. Spätestens seit Bekanntwerden eines internen Google Dokuments ist klar, dass proprietäre Technologien wie Google, Meta und Microsoft diese Bedrohung erkannt haben. Zwar sind ihre Modelle qualitativ noch besser, aber sie sind nicht mehr alleine im Markt und Open Source entwickelt sich rasant weiter und hat viele Vorteile.
So haben Forscher*innen und Hobbyisten große Sprachmodelle entwickelt, die mit den Angeboten von Open AI und Google konkurrieren können. Diese sind teilweise besser skalierbar und ermöglichen diese Sprachmodellen auf weniger leistungsfähigen Systemen wie Laptops oder Smartphones zu nutzen.
Dies ermöglicht eine Demokratisierung von KI für ein breites Feld an Nutzer*innen.
Sprachmodelle können so zum Beispiel innerhalb weniger Stunden auf Consumer-Hardware personalisiert werden. Neues Wissen kann so in Echtzeit eingebunden und erprobt werden – Entwickler*innen können nun agil KI in ihre Software implementieren und erproben, ganz ohne Big-Tech. Teilen und Zusammenarbeiten – so wird die Zukunft aussehen.
Dennoch birgt Open Source auch Herausforderungen. Sie müssen für den spezifischen, eigenen Anwendungsfall angepasst werden und sind mitunter schwieriger implementierbar als proprietäre Software. Wartung und Service sind über die rege Open Source Community nicht gegeben, sind aber gerade in der Medienproduktion elementar
Das Ziel ist eigentlich einfach: Zuverlässige, gewartete und verwaltete KI-Systeme, die nach eigenen Spezifikationen in unternehmensinternen Umgebungen und mit bestehender Software funktionieren. Dabei sollte es egal sein, ob man das KI-System im eigenen Rechenzentrum, in einer Private Cloud oder in einer öffentlichen Cloudlösung betreibt.
Auch in Puncto Datenschutz wandelt sich der rechtliche Rahmen andauernd, weshalb viele Anwender auch immer noch auf On-Premise oder hybride Systeme setzen, gerade im Umgang mit personenbezogenen Daten. Die Daten bei sich zu wissen, im Zweifel komplett ohne Zugang zum Internet ist nicht nur für Behörden das Extraplus an Sicherheit und Datenschutz.
Zukunftssichere KI-Plattform
Wie kann Unternehmen geholfen werden, ihr volles Potential durch KI auszuschöpfen?
Mit DeepVA haben wir den einfachsten, sichersten und vertrauenswürdigsten Zugang zu KI geschaffen. Wir haben nicht nur einfache KI-Modelle entwickelt, sondern bieten ein ganzes KI-Betriebssystem, welches KI-Funktionen über die gesamten Workflows Ihres Unternehmens anbietet und verbindet. Die Plattform kann in Zukunft auch als verwaltete Umgebung für einen Plug & Play-Einsatz von Open Source Lösungen verstanden werden. Auf der sowohl eigene KI-Modelle trainiert, Trainingsdaten aufgebaut werden können aber auch die Vorteile gemanagter Open Source Modelle genutzt werden können – ohne Verantwortung für Implementierung, Wartung und Sicherheit.
Im Gegensatz zu rein Cloud-basierten Modellen wird DeepVA auch für die On-Premise Nutzung angeboten und bietet somit einen hohen Schutz Ihrer unternehmensinternen Daten, da diese auf eigenen internen Servern gehostet werden und im Unternehmen bleiben können.
Die Trainingsdaten stammen dabei nicht von irgendwo, sondern entstehen entlang Ihrer Medienworkflows. Egal ob aus dem Archivmaterial oder beim Ingestieren, unsere Tools helfen Ihnen einen Pool an Trainingsmaterialien aufzubauen und zu verwalten, automatisch und betreut durch ihre Mitarbeiterinnen. Durch die Rest-API können wir die gewonnen Datensätze dann an verschiedenen Stellen entlang der Wertschöpfung einsetzen: Bei der Werbeplatzierung, der Nachrichtenproduktion oder dem Erheben der Diversität Ihrer Inhalte.
Wir möchten, dass der produktive Zugang zu KI für Sie so einfach, sicher und transparent wie möglich erfolgt.