Heute, 30.3.24, ist ein Top-Thema der Nachrichten, dass es einen neuen „voice generator“ gibt, „…ein KI Modell, zum Klonen von Stimmen, das u.a. von HeyGen, aber auch für die Sprachfunktion von ChatGPT genutzt wird.“.

15 Sekunden braucht die Open AI nur, um einen Stimm-Klon zu erstellen.

Geklonte Gesichter die Sprechen und fake Fotos gibt es ja schon und machen unseren Alltag in Sachen Wahrheitsfindung zum Spiesroutenlauf. Was braucht es, um solche technischen Neuerungen zu erkennen, zu durchschauen. damit man nicht an der Nase rum geführt wird? Medienkompetenz, natürlich. Aber wie sieht Medienkompetenz in diesem fall aus? Reicht das reine Wissen um die möglichen Deepfakes? Was braucht es für erlernbare Tools um in einer Welt zurecht zu kommen, in der das, was scheinbar dokumentativ ist, zu 50/50 ein Fake sein kann. Ob Krieg oder auch Wahlen, wir werden damit konfrontiert werden, werden es bereits, es wird keine Ausnahme mehr sein und nicht nur Journalist:innen sollten hier Durchblick oder zumindest Skepsis lernen, bzw Fähigkeiten lernen, wie Fälschungen zu erkennen sind.

Ich bin Stimmbildnerin und keine Medienwissenschaftlerin und behaupte daher nicht hier wissenschaftlich fundierte Informationen zu liefern. Was ich jedoch liefern kann, ist meine ganz persönliche Einsicht und meine Gedanken zu dem Thema.

In meinem Studium, damals Lehramt Musik mit Nebenfach Kunst, waren einst meine liebsten Vorlesungen, die der Kunstgeschichte mit Bildbetrachtung. Seit es das Internet gibt, stelle ich immer wieder fest, dass das Studium der Renaissance, der Gothik oder des Blauen Reiters in Malerei, Bildhauerei oder Architektur mir eine solide Grundlage gelegt haben, dass Bildbetrachtung ob Figürlich oder Abstrakt meinen Blick geschult haben. Dass die Frage nach dem Goldenen Schnitt mir Grundlage ist, wie ich die Welt und eben auch Medien betrachte.

Julia mit einer Band zu Studienzeiten im Litfass

Meine frühen Schritte in Bild-Ausschnitt und Komposition durfte ich beim Lernen der Basics der Fotografie lernen, mit einem Vater, der als Filmemacher und Kameramann es als sein Aufgabe sah, sicher zu stellen, dass ich das konnte. In diversen Minivorträgen musste ich die Technik und die Grundlagen der Fototechnik lernen und verstehen und Tiefenschärfe und Belichtung begreifen. Er war streng und ich wollte ihm gefallen. So fotografierte ich zu Zeiten, als man Filme noch zum Entwickeln gab oder seine Schwarz Weiss Filmrollen selbst entwickelte und dann in der Dunkelkammer Abzüge machte. Selbst in meiner Zeit als Helferin in Kinderferienlagern, wer hat den Kurs Fotografie gegeben? Ja klar, ich. Damals wusste ich noch nicht, wie besonders es war, dass ich als Frau der reinen Jungengruppe von Teenagern die Grundlagen der Fotografie und des Entwicklens beibrachte. Jahrzehnte später erzählte mir eine Mutter, dass ein Junge von damals, später Architektur studiert hatte, „wegen dir“ wie sie sagte. Er hatte Blut geleckt, am Gestalten, an Formen, an „Fenster“Ausblicken, an Ausschnitten, an Komposition. Und er mochte mich sehr. Der Bub war damals 12 und ich wahrscheinlich 18/19.

Die analoge Fotografie lehrte mich hinzugucken. Mein Vater, der weder je über Liebe sprach noch dieses Wort in den Mund nahm, sagte einst zu mir „Schau dir die Leute genau an, die du fotografierst. Warte ab, lerne sie kennen. Jeder Mensch ist schön. Man muss sein Objekt nur lieben. Und warten. Und wenn der Moment passiert, dan musst du abdrücken“.

Bei den täglichen Familienabendessen, unterhielten sich meine Eltern (Hannelore Kober & Jonnie Döbele) über ihre Arbeit, beide Filmemacher:innen. Und jeder Hollywoodfilm, jeder Film den wir auf europäischen kleinen Kunst-Film-Festivals* sahen, wurde besprochen. Filmsprache war etwas, mit dem ich aufwuchs. Nie wurde etwas nicht auseinander genommen. Nie blieb ein gutes Haar an einem Werk, zumindest wurde es seziert, wie ich mir vorstelle, Leichen seziert werden, die nach einem Bombenanschlag untersucht werden um Beweise zu finden die zum Täter führen.

Weil ich von klein an Teil von den Filmprojekten meiner Eltern war, ab 3 als Schauspielerin und später auch als Helferin, Maskenbildnerin, Gaffer oder einfach Assistenz, nahm ich an diesen Diskussionen genauso Teil, als wäre ich erwachsen.

eine 13 jährige Julia in den 80s bei den Dreharbeiten zu einem Film

Vor dem Film, wuchs ich mit Malerei auf, war das Modell meiner Mutter, als sie im Kunststudium den menschlichen Körper übte. Pose halten konnte ich schon früh.

Wenn wir auf  Roadtrips waren, spielten wir in späteren Jahren ua „ich sehe was, was du nicht siehst“ mit RAL Nummern. Die Genauigkeit der Beschreibung einer Farbe war zentral.

Kompositionsdiskussionen begrenzten sich nicht allein auf Film oder Malerei, in Einrichtungsfragen (der Brotjob meiner Mutter, als Bühnenbildnerin beim SWR lieferte hier viel Material) und Gestaltung von zB Weihnachtskarten (ja, wir machten immer alle Weihnachtskarten selbst!) wurden die Techniken aus der Kunstgeschickte genutzt. Als 3 Klassenkameradinnen gegen den Willen des Lehrers am Gymnasium, Kunst als mündliche Prüfung wählten, brachte uns meine Mutter in einem Nachmittag, das fehlende Wissen bei. Es gab Snacks, Tee und alle Bücher, die meine Mutter aus ihrem Studium hatte. Genauso genoss ich im Studium das Auseinandernehmen eines Kunstwerks mit meiner Mutter in der Staatsgalerie. Das war sowas wie unsere Mother-Daughter-Time.

So lernte ich nicht erst im Studium Gestaltung und das Aufschlüsseln von Bildern, es war etwas, was zu meinem allgemeinen Schauen, Betrachten wurde. Natürlich blieb all dies nicht reine Theorie. Ich malte bereits als kleiner Steppkes an der Staffelei

…meine Mama und ich in den 70ger Jahren am Malen…

meiner Mutter und sammelte so früh Erfahrung mit diversen Materialien. Und natürlich wurden meine „Werke“ auch ernsthaft besprochen und kritisiert. Im Studium durfte alles dann Festigkeit und Sicherheit bekommen. Ich nahm regelmässig am Aktzeichenkurs statt. Das Zeichnen von Menschen, machte es intuitiv, ich spürte, dass ich davon profitieren würde. Heute weiss ich, es hat mein Auge geschult, zu sehen, sehr schnell, wann ist etwas so gewachsen, organisch und wann nicht. Wie sieht gestresstes Gewebe aus, wie entspanntes, wie Gewebe was Wasseransammlungen hat etc.

Als wir dann in den 80s bei Oberstufentagen an meiner Walddorfschule die Idee hatten, einen Medienkompetenzkurs anzubieten und Leute zu holen, die uns das beibringen, da kannte ich nicht mal den Begriff Medienkompetenz. Das war womöglich so 1988/89. Meine Eltern übernahmen Filmsprache, der Vater eines Freundes und damaliger Chef des Feuilleton der Stuttgarter Nachrichten, Klaus B. Harms, erklärte uns wie eine Tageszeitung funktioniert und Rüdiger Gay** (seineszeichens Illustrator und Videomacher), übernahm Video. Die Lehre:inen versuchten den Kurs zu verhindern, weil scheinbar problematisch, die Schüler:innen aus den höheren Klassen halfen uns, das zu verhindern. Der Kurs war völlig überfüllt, so gross war das Interesse. Aus heutiger Sicht, eine absurde Situation. In Zeiten wo Lehrer:innen, Dozent:innen und Profs damit umgehen müssen, dass Kids AIs nutzen um Hausarbeiten zu schreiben…

Meine Passion war ja das Singen und weil ich schon früh mit fehlendem Stimmbandschluss zu tun hatte, führte mich mein Weg in die angewandte Stimmphysiologie. Das Lichtenberger®Modell lehrte mich genauestes Hinhören und Analyse von Sound. Schon vor dem Studium arbeitete ich als Kamera-Ton-Assistnetin und so war das analytische Hören von akustischen Phänomenen nichts Neues für mich. Es half, dass ich Geige spielte seit ich 8 war und schon vor dem Studium viel a capella Musik machte. Gutes Hinhören war also eine geübte Sache und ein Tool, was ich auf tiefer Ebenen geübt hatte und regelmässig und vielfältig nutzte.

Julia in den 90s mit Susanne Holst beim Dreh zu Carrera TV bei Porsche als Tonfrau

Heute unterrichte ich seit ü25 Jahren Stimme und seit 20 Jahren mache ich angewandte Stimmphysiologie und nutze regelmässig die Regeln der Akustik, analysiere Klang, beschreibe Klang und finde mich in und um Klang zurecht. Wo entsteht er, wie entsteht er, welche Faszien schwingen, welche Schleimhäute reagieren wie.

Wenn jetzt noch irgendwer behauptet, dass Fächer wie Kunst und Musik unwichtig sind, während sie uns Basic Skills beibringen die uns ua echte Bilder von Deepfake-Videos oder Deepfake-Sprachaufnahme unterscheiden lassen. Das ist kein Glück, dass ich das ganz ok kann. Das ich die Tools dazu habe, ist kein Glück, ken Zufall. Es ist die jahrelange Beschäftigung, das jahrelange Üben in Kunsttechniken, Kunstbetrachtung, Bildbetrachtung und Musikpraxis und stimmphysiologischen Übungen und Praxen und akustischer Erfahrung.

Ich maße es mir nicht an, immer und zu jeder Zeit, besonders wenn es schnell gehen muss oder schnell geht, zu erkennen, ob etwas fake ist. Zu denken, dass man das ohne Recherche ohne Kontext und ohne sich Zeit zu lassen, zu können, das ist womöglich vorbei. Flüchtig wird wohl niemand den Unterschied erkennen. ABER die Parameter, die den Check ermöglichen, sie lassen sich üben und sie sind uns nicht einfach so gegeben. Diese Tools und Fähigkeiten muss man lernen und genau das passiert ua in der Betrachtung von Kunst und im Üben von Musik. Speziell eben in der stark physiologisch orientierten Herangehensweise des Lichtenberger®Modells. Speziell wen es um geklonte Stimmen geht.

Neben gesetzlicher Regulierung liegt (Dank geht hier in grossem Stil an Nina George und Matthias Hornschuh, die beide extrem viel machen, für die Kunst & Kulturszee, aber eben auch für unser aller Demokratie) es  in unsere persönlichen Verantwortung wie wir damit umgehen.

Ob wir ungeprüft Bilder, Videos und auch reine Stimmdateien verbreiten. Auf Social media besonders, aber natürlich auch privat und in Messenger wie zB WhatsApp.
Hier packe ich mich gerne auch an die eigene Nase. So gut ich kann.

Weiterhin brauchen wir, neben geübter Bildbetrachtung und guten akustischen Einordnungs-Fähigkeiten  das Üben von Dialektischem Denken. Zusammenhangsdenken, Überblicksdenken. Connecting the dotts. Um all diese Kontexte, Regeln, Erfahrungswerte etc zu analysieren. Um in einer Welt von Deepfakes und schlechter Recherche, von Propaganda und von einseiter Berichterstattung, von Mythen und Erzählungen, um hier hören zu können, wenn eine Stimme echt ist, oder wenn sie ein Deepfake ist.

Es wird Wahlen bestimmen und damit bestimmen was aus ganzen Demokratien wird. Ganze Systeme, Staatssysteme könnten sich ändern, weil Menschen auf Deepfakes reinfallen. Kriege könnten geführt. Weil jemand ein Sound Deepfake hergestellt hat. bzw es eine AI hat herstellen lassen. Oder auch nicht…

Wie wichtig ist also hier plötzlich die sonst so soften Schulfächer wie Kunst und Musik, oder das sogenannte Orchideenfach Philosophie…? Tja.

Ich glaube es ist recht eindeutig, wie wichtig all das ist, wie wichtig es jetz vor allem ist, wird. ist. wird. ist. ist!

Wir sind an einem Punkt, wo wir Denken üben müssen, und es so geübt sein muss, dass wir blitzschnell entscheiden können, blitzschnell Urteile fällen können. UND gleichzeitig wissen, dass wir es nicht immer blitzschnell verantwortungsvoll beurteilen können, ob etwas fake ist oder nicht! Dazu brauchen wir Erfahrung und Wissen über Farben, organisch, körperlich. Den goldenen Schnitt und Klang. Wir brauchen Übung darin Sprache und Sound, Klang zu beschreiben.

In jeder Stunde die ich gebe, sehe ich, wie wichtig es ist, und wie schwierig es ist, Worte zu finden, für etwas, wofür wir nie gelernt haben, Worte zu finden. Das was wir hören, wir beschreiben es meist mit Begriffen die wir aus der Optik haben. Selbst wenn ich einlade „Lass uns Begriffe aus der Akustik nehmen“ und weil das schon zu kompliziert scheint und das Nervensystem stresst, sage ich:

„Lass uns Begriffe nutzen, die wir von der Stereoanlage kennen, Tiefen, Mitten Höhen. Vielleicht noch Rauschen und Geräusch.

Stereoanlagen haben immer weniger Menschen die meisten nutzen Bluetooth Lautsprecher, an denen kann man nix einstellen. Sie kommen schon voreingestellt. Das ist musikalisch echt ungeschickt, weil man immer eigentlich nur eine Art Musik darauf abspielen kann. Und das obwohl wir mit Spotify oder Apple so eine Riesen Auswahl haben. Die günstigen bis ca 70€ sind alle auf Pop Musik „geeicht“, sprich der Bass ist krass angehoben und Klassik klingt darauf etwas befremdlich. Aber davon ab, weil die Schalter fehlen, an denen wir Höhen, Mitten und Tiefen regulieren können, hören es die Leute auch nicht mehr. Kein Witz. Ich bringe das regelmässig neu oder wieder bei. Und das Rauschen zum Stimm-Klang gehört, es wird oft als sehr befremdlich wahrgenommen. Dabei ist menschliche Stimme immer irgendwie mit Rauschen, mit Geräuschen. Nie ohne. Die Frage ist hier nicht, wie kann man das Geräusch vermeiden (oder sollte es stimmphysiologisch sein) sondern, wie kann das Geräusch integriert werden.

Organischer Klang lebt vom Integrieren. Er wird dadurch beweglich und stabil. Ganz wie die Architektur, die Statik eines Fernsehturms. Der muss auch beweglich bleiben, um dem Wind stand zu halten und bleibt so intakt (stabil).

Meine Arbeit ist also ganz direkt ein Beitrag zur Medienkompetenz. Zur Demokratie Erhaltung. Ganz direkt. Da muss ich mich gar nicht wichtig nehmen, ich muss nur genau sein. Klang analysieren zu können. Ein scharfes S von einem weichen S zu unterscheiden dient dem Gehör. Obertöne zu hören, Klang im Körper wahrnehmen können, Verschiedenen Geräusche zu unterscheiden und ihre Unabhängigkeit vom Klang oder ihre Integration zu hören, hat demnach direkte Auswirkungen auf Medienkompetenz.

Das kam mir heute, als ich die Nachrichten hörte und vernahm, jetzt gibt es einen Stimm generator der mit KI Stimmen imitieren und Klang-Klone herstellen kann kostenlos und für alle zugänglich bei Open AI.

Wenn wir uns also weiter bilden, in den Künsten, als Mensch, dann ist das nicht nur eine nette Sache, nice to have, es ist in der heutigen Welt mE lebensnotwendig um in dieser technisierten Welt sich verantwortungsvoll bewegen zu können. Also sollte dich mal jemand fragen, wozu du denn zB Stimmbildungsunterricht nimmst: weil Menschsein mit Verantwortung kommt und dazu braucht es Fähigkeiten, die gehen über Lesen, Schreiben und Mathematik hinaus. Demokratie leben von Veratwortung und Verantwortung braucht Fähigkeiten und die wollen geübt werden. Beste Grüße. 

 

_________

*ja liebe Lehrer:innen, falls ihr das lest: ich war nie krank, ich war in Italien oder Holland und sass in einem dunklen Raum und sah viele Flickerfilme. 

**beim Schreiben dieses Artikels erfuhr ich, dass Rüdiger im Mai 2023 verstarb. Er war ein wichtiger Teil meiner Teenagerinnen- und Jugendzeit in Stuttgart. Rest in Peace, lieber Rüdiger.