Super-Wahljahr: Wie gefährlich sind Audio-Deepfakes?

Interview

Bedrohung im Super-Wahljahr:Wie gefährlich sind Audio-Deepfakes?

09.03.2024 | 21:28

Fake-Aufnahmen von Politikern auf Knopfdruck mit generativer Künstlicher Intelligenz - ein Werkzeug für politische Desinformation. Gibt es einen Ausweg?

Wie groß ist die Bedrohung durch Audio-Deepfakes?

Quelle: DALLE-E / David Metzmacher

Welchem Bild, welchem Video, welcher Tonaufnahme kann man heute noch trauen? Generative Künstliche Intelligenz macht Fälschungen kinderleicht - gerade im Super-Wahl-Jahr mit Europawahl und US-Wahl stellt das eine Bedrohung dar.

Wie funktionieren solche Deepfakes im Audio-Bereich? Und was kann man dagegen tun? Nicolas Müller, wissenschaftlicher Mitarbeiter am Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC), klärt auf.

ZDFheute: Herr Müller, wie funktionieren Audio-Deepfakes?

Nicolas Müller: Damit eine KI wie Donald Trump oder Joe Biden klingen kann, braucht es zunächst einen Sprachgenerator, der bereits sprechen kann - also mit zahlreichen Paaren von Audio-Dateien und Transkripten trainiert ist. Mithilfe einer Technik namens 'Few-shot learning' kann diese KI nun auch schon aus sehr kurzen Aufnahmen - etwa einer 20-sekündigen Ansprache von Donald Trump - seine typischen Stimmmerkmale extrahieren und neue Sätze mit dieser Stimme erzeugen.

Dr. Nicolas Müller, wissenschaftlicher Mitarbeiter am Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC

Quelle: Fraunhofer AISEC / Oliver Rüther

Dr. Nicolas Müller hat an der Universität Freiburg Mathematik, Informatik und Theologie auf Staatsexamen studiert und 2017 mit Auszeichnung abgeschlossen. Er ist seit 2017 wissenschaftlicher Mitarbeiter am Fraunhofer AISEC in der Abteilung "Cognitive Security Technologies". Seine Forschung konzentriert sich auf die Verlässlichkeit von KI-Modellen, ML-Shortcuts und Audio-Deepfakes.

Quelle: Fraunhofer AISEC

ZDFheute: Wo liegt die Gefahr bei Audio-Deepfakes?

Müller: Man ist damit in der Lage, allen möglichen Personen Worte in den Mund zu legen, die sie nie gesagt haben.

Das verschärft die ohnehin bestehende Vertrauenskrise in die Medien.

Vor 20 Jahren galt eine Audioaufnahme, in der eine bestimmte Person zu hören war, als authentisch - eine Fälschung war praktisch unmöglich. Das ist heute nicht mehr so.

ZDFheute: Wie wird Audio-KI für missbräuchliche Zwecke eingesetzt?

Müller: Es gibt Fälle, bei denen Eltern Geld überwiesen haben, weil sie glaubten, ihre Tochter am Telefon gehört zu haben, die angeblich einen Unfall hatte. Es gibt auch Fälle, bei denen Beträge überwiesen wurden, weil Angestellte dachten, sie würden mit ihrem Chef sprechen.

Es gibt also eine neue Betrugsmasche.

Die Hände einer älteren Person sind zu sehen, in der rechten Hand wird ein weißer Telefonhörer gehalten.

KI kann Betrügern helfen, Schockanrufe noch realistischer umzusetzen. Mit Audio-Deepfakes werden Stimmen von Familie und Freunden imitiert.25.01.2024 | 6:34 min

ZDFheute: Vor uns liegt ein Super-Wahl-Jahr. Welche Bedrohungen gibt es in diesem Zusammenhang?

Müller: Es gibt schon Fakes, die ganz klar politische Ziele haben. Russland hat offenkundig das Interesse, unsere Demokratie zu schwächen.

Mit Audio-KI ist es sehr gut möglich, Vertrauen der Menschen in Politik zu erschüttern.

Ein Beispiel ist eine gefälschte Audioaufnahme von der Mutter von Alexey Nawalny, in der sie sich angeblich negativ über Julija Nawalnaja, die Witwe ihres Sohnes, äußert. Im konkreten Fall soll Nawalny posthum diskreditiert werden. Zudem wurde ein Deepfake von Wolodymyr Selenskyj, dem Präsidenten der Ukraine, verbreitet, in dem er angeblich zum Niederlegen der Waffen aufforderte.

Das ist eine Strategie der Desinformation: Man schickt eine große Flut an teilweise auch widersprüchlichen Nachrichten raus, sodass Empfänger sich dadurch schwieriger eine Meinung bilden können - oder um zur generellen Verwirrung beizutragen.

Audio-KI ist ein neues Werkzeug im Koffer politischer Desinformationskampagnen.

ZDFheute: Was kann man dagegen machen?

Müller: Die Technik ist jetzt da, daher sind Verbote schwierig umzusetzen. Gegensteuern sollte man zunächst mit Medienkompetenz, weil sie das Bewusstsein für Fakes schärft - egal ob bei Text, Bild, Audio und Video. Dabei sensibilisiert man Menschen dafür, dass es Fakes gibt und klärt sie über die dahinterliegende Technologie auf.

Auf der technischen Seite gibt es zwei Möglichkeiten: Man erkennt Falsches und verifiziert Echtes. Echtes zu verifizieren kann man sich vorstellen wie ein Wasserzeichen beim Geldschein - das gibt es auch für Medieninhalte.

Dabei wird versucht, beispielsweise Fotos oder Audios digital mit Informationen zu signieren, die eindeutig mit den Inhalten verknüpft sind: Mit welchem Gerät wurde eine Aufnahme gemacht? An welchem Ort und zu welcher Zeit? Obwohl diese Zertifikate als fälschungssicher gelten, besteht das Problem, dass sie relativ einfach entfernt werden können.

Prof. Judith Simon, Professorin für Ethik in der Informationstechnologie, stellt klar: KI sind "Menschen, die mit Technologie, mit Software Dinge tun" - man müsse "schauen, wie wir das unterbinden".01.11.2023 | 4:51 min

ZDFheute: Und wie kann man Falsches erkennen?

Müller: Da kann Künstliche Intelligenz helfen. Indem man eine KI mit einer Vielzahl echter und gefälschter Audiodateien trainiert, lernt sie, selbstständig die Unterschiede zu erkennen.

Bei korrekter Anwendung entsteht ein KI-Modell, das in der Lage sein sollte, auch bisher unbekannte Fakes zu identifizieren.

Wir bieten auf der Webseite deepfake-total.com die Möglichkeit, eigene Dateien hochzuladen und auf Fälschungen prüfen zu lassen, um so eine Einschätzung zu erhalten. Die Hoffnung ist, auch Nicht-Wissenschaftlern ein einfaches Tool an die Hand zu geben, mit dem Fakes erkannt werden können. In der Zukunft könnten solche Systeme direkt in soziale Medien integriert werden, um Fakes automatisch zu markieren.

Das Interview führte David Metzmacher.

Thema

Künstliche Intelligenz