Werkzeug, Mit- und Gegenspielerin oder Kollaborationsinstanz?
Potenziale und Herausforderungen in der Ko-Kreation mit generativer KI für die Kulturelle Bildung
Potenziale und Herausforderungen in der Ko-Kreation mit generativer KI für die Kulturelle Bildung
Carolin Jakob ist forschende Kunstpädagogin und wissenschaftliche Mitarbeiterin am Department für Kunst und Musik an der Universität zu Köln. Im Rahmen des interdisziplinären Forschungsprojekts Artificial Intelligence for Arts Education ist sie an der Entwicklung einer KI-Technologie für die Kulturelle Bildung beteiligt. In ihrer Promotion untersucht sie Ko-Kreative Praktiken mit und über generativer KI an der Schnittstelle von Kunst, KI und Bildung.
Surreale Porträts mit makelloser Haut, Traumlandschaften in bonbonfarbenen Pastelltönen, hyperrealistische Szenen, wie aus einem Werbespot – unter dem Schlagwort „KI-Kunst“ kursieren in den sozialen Medien zahllose KI-generierte Bilder, die oft generisch kitschig bis normativ erscheinen (Meyer 20025a). Das imaginative Potenzial erschöpft sich in der Reproduktion gewinnmaximierender Ästhetiken, wobei Überraschungsmomente und konzeptuelle Tiefe häufig ausbleiben (Meyer 2025b). Wie aber können in der Arbeit mit genKI solche normativen, generischen Ästhetiken unterwandert und ko-kreative Prozesse initiiert werden, die „Unbestimmtheit“ (Jörissen und Marotzki 2009:21) ermöglichen?
In dem Beitrag untersuche ich künstlerische Strategien in der Ko-Kreation mit genKI in der zeitgenössischen Kunst. Wie verhandeln Künstler*innen Handlungsmacht in der Ko-Kreation mit genKI und welche unterschiedlichen Rollen schreiben sie genKI zu? Das Spektrum reicht von der Inszenierung von KI als autonomem Künstler – wie im Fall von Botto (2021) – bis zur Subsumierung als Werkzeug menschlicher Kontrolle – wie bei Boris Eldagsen (Reinhard 2023). Einerseits wird KI mit menschlichen Eigenschaften versehen (Anthropomorphismus), andererseits bleibt das Paradigma menschlicher Kontrolle unangetastet (Anthropozentrismus), was sich im Verständnis von KI als Werkzeug zeigt. In beiden Fällen bleibt die Handlungsmacht genKI verkannt, wobei sie im ersteren Fall überzeichnet, in letzterem negiert wird.
Bei der Google-Bildersuche genKI, werden vermeintlich „denkende“, menschenähnliche Roboter gezeigt. Mit den tatsächlichen bildgenerativen KI-Modellen, wie DALL E hat das wenig zu tun. Nach dem Medientheoretiker Peter Weibel, gibt es keine KI, sondern lediglich „ein Ensemble von Maschinen, Medien, Programmen, Algorithmen, Hardware und Software, welches zu einem außerordentlich großen, vielteiligen und produktiven Forschungsfeld geführt hat, das Künstliche Intelligenz genannt wird“ (Weibel 2021). Wenn Peter Weibel die Existenz von Künstlicher Intelligenz verneint, negiert er die Vorstellung von KI als denkender Maschine.
Anstatt KI zu vermenschlichen oder auf ein passives Werkzeug zu reduzieren, begreife ich ko-kreative Praxen mit genKI nach der Akteur-Netzwerk-Theorie (2005) von Bruno Latour als Netzwerkpraxis aus menschlichen und nicht-menschlichen Elementen. Handlungsmacht wird nicht exklusiv dem Menschen zugeschrieben, sondern als verteilt innerhalb eines relationalen Netzwerkes gedacht. Dies ermöglicht es, Infrastrukturen als „Mitakteure“ zu erfassen. Letztlich kann kein Generierungsprozess ohne Trainingsdaten, Interface, Code, Prompts oder Server stattfinden.
Anhand vier künstlerischer Positionen möchte ich aufzeigen, wie Künstler*innen genKI in der Ko-Kreation offen be- oder mit Widerständen entgegnen: beanspruchte Kontrolle, affirmative Kontrollabgabe, ungewollter Kontrollverlust und geteilte Kontrolle. Ziel ist es, das verbreitete Verständnis von KI als Werkzeug zu dekonstruieren und weitere Möglichkeitsräume mit genKI als konnektivistische Mit- und Gegenspielerin oder Kollaborationsinstanz zu eröffnen. Während sich ein Werkzeug kontrollieren lässt, entfalten konnektivistische Mit- und Gegenspielerinnen, oder Kollaborationsinstanzen eigene Effekte. Bei ersterem ist die Handlungsmacht ungleich verteilt, bei letzterem ausgeglichen. Konnektivistisch verweist auf die statistische Funktionsweise genKI.
Der Künstler und Fotograf Boris Eldagsen gewann 2023 mit seiner KI-generierten Arbeit „Pseudomnesia: The Electrician“ (2022) den Sony World Photography Wettbewerb. Den Preis lehnte er jedoch ab, um eine Debatte über KI-generierte Bilder anzustoßen (Foster 2023).
Die Arbeit erstellt Boris Eldagsen mithilfe DALL E 2 von OpenAI, indem er die beiden Frauen mit einem Textprompt generiert und das Bild in zwanzig iterativen Schleifen nachbearbeitet. Dabei nutzt er Outpainting, um das Porträt über die Bildfläche zu erweitern, und Inpainting, um Elemente zu ergänzen.
„Die Arbeit am Bild hört ja mit dem ersten generierten Ergebnis nicht auf. Da fängt sie erst an. Ich betrachte die KI als mein Werkzeug, ich aber bin derjenige, der bestimmt, wohin die Reise geht.“
Reinhard 2023
Boris Eldagsen inszeniert sich als souveräner Autor, der die Kontrolle für sich beansprucht, obwohl er DALL E anwenden und nicht mitgestalten kann. Ungesehen neuer Abhängigkeiten von Tech-Unternehmen sieht Boris Eldagsen das Potenzial genKI in der Befreiung von materiellen Zwängen, wie Modellen, Orten und Kameras (Foster 2023).
Es wird deutlich, dass ko-kreative Praktiken mit genKI weniger auf einem motorisch-handwerklichen Können als auf einem handelnden Umgang mit Netzwerken und Bildern basieren. Diese Dynamik verstärkt postdigitale Entwicklungen, in denen kuratierende Verfahren, wie das Sammeln, Auswählen und Verknüpfen von Bildern an Bedeutung gewonnen haben (Meyer 2015).
Beth Frey arbeitet wie Boris Eldagsen mit DALL E 2, gibt jedoch gezielt Kontrolle ab. Der Literaturwissenschaftler Hannes Bajohr bezeichnet diese Strategie als „affirmative Kontrollabgabe“ (Bajohr 2021a:178).
Beth Frey inszeniert Fotografien, welche sie in DALL E 2 hochlädt, um sie mittels genKI zu transformieren:
„Es geht darum, der KI einen Vorschlag zu machen und zu sehen, was sie damit anstellt, anstatt genau definierte Bilder zu verlangen.“
Baumgärtel 2024
So übt sie Einfluss auf die Ästhetik von DALL E 2 aus und fühlt sich zugleich stärker emotional in den Prozess involviert (Baumgärtel 2024). Die Strategie korrespondiert nach Eldagsen mit aktuellen Entwicklungen von Textprompts hin zu multimodalen Prompts mit Bildern und Text (Universität zu Köln 2024). Indem Beth Frey Kontrolle abgibt, erfüllt genKI vielmehr die Funktionen einer konnektivistischen Mit- und Gegenspielerin, welche sie überrascht, fördert und herausfordert.
Eigene Fotografien als Prompts zu verwenden, erachte ich für die Kulturelle Bildung mit genKI anschlussfähig, um mit den statistischen Grenzen genKI zu experimentieren. Der Verfremdungsprozess ließe sich mittels Medienwechsel intensivieren. So könnten KI-generierte Bilder in Text rückübersetzt und als Prompt erneut in eine bildgenerative KI eingegeben werden. Die Bildbeschreibung gibt ein Stück weit Aufschluss darüber, welche visuellen Muster erkannt oder unsichtbar, fehlgedeutet und verkannt werden.
Bei Paul Trillo entsteht hingegen der Eindruck, dass er in der Arbeit „Washed out the hardest part“ (2024) mit der Text-zu-Video KI- Sora ungewollt Kontrolle verliert (Ars Electronica 2024c).
Den ko-kreativen Prozess beschreibt er als exploratives Suchen, Verwerfen und Neuformulieren. Er generiert über 700 Clips im Umfang von 230 Minuten an Bildmaterial, die er auf 4 Minuten kürzt. Die Abbildung zeigt, wie Paul Trillo seitenlange Promptanweisungen entwickelt (Ars Electronica 2024c). Zugleich äußert er seine Sorge vor einer Instrumentalisierung durch gewinnorientierte Plattformästhetiken:
„I think it is really important to not lose your voice within AI. I think there is a tendency to let the first image you get just be happy with it […] I worry that there is a homogeneous or monoculture that we are barreling towards, where we let the machines or the datasets sort of drive our artistic voice, and I think it is really important to […] retain that level of control […]“
Ars Electronica 2024b:01:26:10
Die Ambivalenz genKI als Mit- und Gegenspielerin offenbart sich machtkritisch durch die ungleiche Zugänglichkeit zu und Abhängigkeit von KI-Infrastrukturen. Das Potenzial sieht Paul Trillo in der Arbeit mit den hypermenschlichen Daten – den enormen Mengen an menschlichen Bildern, mit denen KI-Modelle trainiert werden.
„I pursue larger, bigger concepts that I would have never pursued before or just think about stranger ideas […] I would not have dared to travel down without these kinds of enablers.“
Ars Electronica 2024b:01:21:49
Trainingsdaten werden nicht gleichförmig eingespeist, oder statistisch gemittelt, sondern entlang ökonomischer Nachfrage komprimiert (Buschek und Thorp 2024). Die zunehmende Abhängigkeit von kommerziellen KI-Modellen zeigt den Bedarf gestaltbarer Open-Source KI-Technologien für die Kulturelle Bildung.
Die Künstlerin und Poetin Sasha Stiles exploriert mit ihrem KI-basierten collaborateur, Technelegy, in der seit 2022 fortlaufenden Serie „REPETAE“ Wiederholung als Mittel zur Bedeutungsproduktion (Stiles 2022).
Sie arbeitet mit dem Sprachmodell GPT-2 der Firma OpenAI und dessen Nachfolgemodellen. Im Gegensatz zu den anderen Positionen interveniert Sasha Stiles in die Netzwerkarchitektur, indem sie es mit eigens kuratierten Datensätzen nachtrainiert.
Das sogenannte Finetuning stellt für sie ein unabgeschlossener Prozess dar, bei dem Technolegie mit ihren adaptiven Trainingsdaten ko-evolviert (arltcollector 2023). Im ko-kreativen Prozess experimentiert Sasha Stiles mit unterschiedlichen Modi der Kontrolle. Mal entwickelt sie komplexe Promptaufforderungen, um den künstlerischen Prozess möglichst präzise zu steuern, mal gibt sie Beispiele als Prompt rein, die statistisch verschränkt werden sollen:
„Really playing with that back and forth and sometimes I’m steering the ship more and sometimes the language model is steering me a little bit more, and then sometimes It’s right in the middle, and where everything is clicking and there’s that kind of perfect balance.“
arltcollector 2023
Das Potenzial genKI sieht sie weniger im Output, als im kollaborativen Prozess. Während genKI die Arbeit bei Beth Frey beschleunigt, wird er bei Sasha Stiles durch das Kuratieren der Datensätze verlangsamt (Ars Electronica 2024b). Wie Paul Trillo nutzt Sasha Stiles genKI, um unbekannte Muster in Datenmassen zu erschließen. Durch das Finetuning sind die Texte stärker auf ihre Bedarfe angepasst, wodurch sie generische Ästhetiken ein Stück weit unterläuft.
Das Kuratieren eigener Datensätze und Finetuning genKI stellt ein Potenzial an der Schnittstelle ästhetischer Praxen, Wissen über genKI und ethischer Reflexion über Ein- und Ausschlüsse dar. So ermöglicht die kollaborative Praxis von Sasha Stiles, dass beim Dialogisieren und Kollaborieren mit genKI ein Bewusstsein für verschiedene Rollen und verteilte Handlungsmacht entsteht, die nach Torsten Meyer konstitutiv für transformative „Netzwerk-Bildungs-Prozess[e]“ (Meyer 2024) sind.
Bei der Ko-Kreation mit genKI lässt sich ein Spannungsverhältnis zwischen den Interaktionsmöglichkeiten der proprietären KI-Modelle und der Bewertung der eigenen Handlungsmacht durch die Künstler*innen beobachten. Hat Boris Eldagsen abgesehen von den Promptaufforderungen kaum Möglichkeiten, auf den Prozess mit genKI einzuwirken, beansprucht er die Kontrolle für sich und konstruiert genKI als Werkzeug. Sasha Stiles übt durch Finetuning bedingt Kontrolle aus, schreibt genKI jedoch ein gleichberechtigtes Maß an Gestaltungsmacht als Kollaborationsinstanz zu. Bei Beth Frey und Paul Trillo erscheint Handlungsmacht in der Ko-Kreation mit genKI als verteilt. Während Beth Frey affirmativ Kontrolle abgibt, äußert Paul Trillo seine Sorgen vor einem Kontrollverlust durch Plattformästhetiken. Nichtsdestotrotz bezeichnen sowohl Beth Frey als auch Paul Trillo genKI als Werkzeug. Hieran werden die erkenntnistheoretischen Leerstellen im Hinblick auf das Chiffre Künstliche Intelligenz sichtbar und verdeutlichen die Notwendigkeit der sprachlichen Revision hin zu genKI als konnektivistischer Mit- und Gegenspielerin.
Anhand der unterschiedlichen Positionen werden folgende Tendenzen deutlich: Je stärker Künstler*innen Einfluss auf genKI ausüben können, desto eher wird es als gestaltbares Medium begriffen (Sasha Stiles). Umgekehrt zeigt sich: Je stärker Interaktionsmöglichkeiten eingeschränkt sind, desto eher erscheinen KI-Modelle als Werkzeuge (Boris Eldagsen), die angewendet, aber nur bedingt gesteuert und nicht kontrolliert werden können.
Hito Steyerl erachtet nicht genKI als kontrollierbares Werkzeug, sondern ihre User*innen, welche bei der Nutzung gewinnorientierter KI-Modelle unfreiwillig Kontrolle über ihre Daten verlieren (Ars Electronica 2024a). So werden sie selbst zu Mitwirkenden in Trainingsprozessen und zur Ressource (Crawford und Joler 2018).
Ko-kreative Praxen mit genKI entfalten sich innerhalb verschiedener Phasen, die iterativ miteinander verschränkt sind: Pre-Training, Prompting und Postproduktion.
Beim Pre-Training und bei der Postproduktion bedingt genKI die ko-kreative Praxis, indem Interaktionsmöglichkeiten vorgegeben werden. Der oder die Künstler*in übernimmt kuratorische Entscheidungen über die Auswahl der Trainingsdaten (Pre-Training) oder die Kontextualisierung der Bilder (Postproduktion). Beim Prompting lenkt der Mensch mittels Prompts, während genKI statistisch mehrere Bilder generiert, aus denen der Mensch wiederum auswählt. Bedingt genKI vor allem die Durchführung ko-kreativer Praxen, verbleiben die Initiierung, Konzeptualisierung und Validierung der Bilder beim Menschen (Bajohr 2021:175).
Ko-kreative Praxen sind durch dialogische, kollaborative Aushandlungsprozesse zwischen menschlichen und nicht-menschlichen Akteuren, wie Trainingsdaten, Interfaces, Code, Prompts und Servern, gekennzeichnet. Nach Hannes Bajohr führen die veränderten Produktionsbedingungen mit genKI zur zunehmenden Verteilung von Handlungsmacht und „Zerstäubung von Autorschaft“ (Bajohr 2021:178).
Die künstlerischen Positionen zeigen, dass sich in der ko-kreativen Arbeit mit genKI Momente der „Unbestimmtheit“ (Jörissen und Marotzki 2009:21) entfalten können. So beschreiben alle vier Künstler*innen von genKI überrascht worden zu sein. Damit genKI nicht die eigene Ästhetik durch marktförmige Logiken instrumentalisiert (Paul Trillo), sondern „Netzwerk-Bildungs-Prozesse“ (Meyer, 2024) eröffnet, bedarf es künstlerischer Strategien im Spannungsfeld partizipativer Einflussnahme und affirmativer Kontrollabgabe (zum Beispiel Finetuning, Medienwechsel).
Darüber hinaus ist das transformative Potenzial der konnektiven Erweiterung durch die Kollaboration mit enormen Mengen menschlicher Daten zu finden. Kollaboration begreife ich nach der Kunstpädagogin Gesa Krebber als transformativen Prozess, bei dem „sich die Subjekte verändern dürfen, sollen und müssen“ (Krebber 2024:3). Dazu müssen sie sich der verschiedenen Netzwerkelemente, wie bei dem Kuratieren des Datensatz bei Sasha Stiles, reflexiv bewusstwerden.