Warum Künstliche Intelligenz Sprecher (noch) nicht ersetzt
Sprachgeneratoren:Warum KI (noch) nicht Sprecher ersetzen kann
von David Metzmacher
|
Sprachgeneratoren mit Künstlicher Intelligenz können Stimmen erzeugen, die fast echt klingen. Sprecher von Werbung und Hörbüchern sehen sich durch die Technologie bedroht. Zurecht?
Wird Audio-KI in Zukunft Sprecher ersetzen?
Quelle: DALLE-E / David Metzmacher
"Ich habe das Gefühl, wir reden seit meinem Amtsantritt im März 2023 über nichts anderes als Künstliche Intelligenz", sagt Anna-Sophia Lumpe, erste Vorsitzende des Verbands Deutscher Sprecher:innen. Viele Mitglieder seien geradezu "angsterfüllt" gewesen: "Als ich angetreten bin, war die Stimmung absolut im Keller."
In ihrem Verband will Lumpe dafür sorgen, dass sich ein realistischerer Blick auf generative KI durchsetzt. Denn: "Vieles ist gar nicht so gut, einfach oder günstig, wie es auf den ersten Blick scheint."
Das deutsche Bildungssystem ist enorm unter Druck. Inwieweit kann der Einsatz von KI im Unterricht helfen?21.02.2024 | 1:49 min
Wie Künstliche Intelligenz sprechen lernt
Videos, in denen Menschen plötzlich andere Sprachen sprechen oder Politiker, die in Aufnahmen täuschend echt Dinge sagen, die sie so nie gesagt haben. Wie funktioniert das?
"KI ist Mustererkennung", erklärt Nicolas Müller. Er beschäftigt sich am Fraunhofer AISEC mit Audio-KI und Deepfakes. "Das heißt, die KI lernt den statistischen Zusammenhang zwischen Text und Sprache." Sprachgeneratoren werden mit einer großen Zahl an Daten aus Paaren von Audio-Dateien und Transkripten trainiert.
Obwohl dabei beeindruckende Ergebnisse entstehen können, sind diese mit von Menschen gesprochenen Texten noch nicht vergleichbar, denn: "Es ist wirklich schwer, der KI beizubringen, Sätze so zu betonen, dass es exakt zum Inhalt passt. KI-Stimmen haben noch große Probleme mit Ironie oder subtilen Bedeutungen."
Die Entwickler von ChatGPT haben einen Filmgenerator veröffentlicht. Er heißt Sora und kann aus kurzen Text-Vorgaben realistische Videos erzeugen.16.02.2024 | 1:31 min
Noch eindeutige Grenzen von Audio-KI
"Was Sprachgeneratoren noch nicht so gut können, ist es Zuhörer mitzureißen", sagt Müller. Denn anders als echte Sprecher versteht die Sprach-KI nicht wirklich, was sie sagt. Sie weiß nur, wie Worte und Satzzusammenhänge im Durchschnitt ihrer Trainingsdaten ausgesprochen wurden - und dies repliziert sie.
... bedeutet, wie gut und verständliche ein KI-Stimme Wörter und Sätze aussprechen kann. Natürliche Stimmen können für Menschen etwa in der Interaktion mit Maschinen hilfreich sein, beispielsweise beim Navigationssystem oder dem Smart-TV.
... meint, wie genau eine Text-zu-Sprache-KI es schafft, echte Stimmen von realen Personen nachzuahmen. Dies wird bei Deepfakes zum Problem, wenn es nämlich eine KI schafft, Stimme so nachzubilden, dass Menschen keinen Unterschied mehr zwischen dem Original und dem Fake erkennen können.
Wo heute bereits Audio-KI drinsteckt
"Dass das Navigationssystem oder die Straßenbahn mit uns redet, das kennen wir schon länger", sagt Müller. Das Anwendungsfeld von Audio-KI erweitere sich gerade enorm. So gibt es Hörbücher mit KI, einige Nachrichtenportale vertonen so kostengünstig ihre Text-Inhalte.
Bei Synchronaufnahmen oder Podcasts können mit Audio-KI Versprecher korrigiert werden, etwa bei falsch genannten Jahreszahlen oder Namen - genau wie das bei Text-Dokumenten möglich ist. Die Interessengruppe Hörbuch des Börsenvereins des Deutschen Buchhandels sieht weitere Vorteile:
So könnten etwa Inhalte für sehr kleine, spitze Zielgruppen, die sich bisher einfach nicht gelohnt haben, in Zukunft umgesetzt werden.
Bedroht KI den Sprecher-Beruf?
"Bei der Produktion von Filmen oder Videospielen sind Synchronaufnahmen ein erheblicher Kostenfaktor", sagt Müller. "Audio-KI kann diesen Prozess demokratisieren." Denn was früher nur große Studios umsetzen konnten, ist nun auch kleinen Studios oder sogar Privatpersonen möglich. Doch was für die einen ein Vorteil ist, wirkt für andere als Bedrohung:
Wie sich der KI-Boom in Zahlen auf die Sprecher-Branche auswirkt hat, ist laut Lumpe vom Verband der Sprecher:innen schwer zu sagen: "Letztes Jahr hatten wir bei der Werbung einen extremen Einbruch - aber nicht wegen KI, sondern wegen der wirtschaftlichen Unsicherheit und den beiden Kriegen." Hinzu sei der Streik in Hollywood gekommen, der für weniger Aufträge im Synchron-Bereich gesorgt habe.
"Es wird weiterhin hochkünstlerische Interpretationen von unverwechselbaren Schauspielerinnen und Schauspielern im Hörbuch geben", ist sich Völker-Sieber von der IG Hörbuch sicher. Das glaubt auch Lumpe:
Künstliche Intelligenz: Forderung nach Regulierung
"Wünschenswert und erstrebenswert wäre die Entwicklung von Standards, zum Beispiel in der Kennzeichnung von KI-generierten Produktionen Richtung Endkunden. Bislang besteht hierzu noch keine rechtliche Verpflichtung", heißt es von der IG Hörbuch.
"Wir kämpfen hart für Regulierung", sagt auch Lumpe in Bezug auf Urheberrecht und Datenschutz. "Viele KI-Unternehmen benutzen urheberrechtlich geschütztes Material, wollen damit Milliarden generieren - und werden dabei noch nicht aufgehalten."