In einer erschütternden Enthüllung wurde die Stimme einer BBC-Moderatorin ohne ihr Einverst?ndnis zu Werbezwecken für ein Produkt geklont.
Dies zeigt die M?glichkeiten und Risiken der KI-Technologie beim Klonen von Stimmen deutlich auf.
Das Ereignis demonstriert nicht nur das Potenzial der künstlichen Intelligenz (KI), sondern wirft auch erhebliche ethische Bedenken und das Risiko des Missbrauchs auf.?
Angesichts der Folgen von Deepfake-Technologien, die von der Wiedererweckung der Stimmen von Toten bis hin zur Nachahmung von Pers?nlichkeiten des ?ffentlichen Lebens reichen, besteht ein dringender Bedarf an strengen rechtlichen Ma?nahmen zum verantwortungsvollen Umgang mit diesen Fortschritten.
Im Folgenden wird untersucht, wie das Klonen von Stimmen mit KI funktioniert, welche Auswirkungen es in verschiedenen Bereichen hat und welche rechtlichen Schritte zum Schutz individueller und ?ffentlicher Interessen unternommen werden.
Wichtigste Erkenntnisse
- KI-Technologien, insbesondere das sogenannte Voice Cloning, werden zunehmend missbraucht und werfen erhebliche ethische und rechtliche Probleme auf.
- Ein bemerkenswerter Fall betraf die BBC-Moderatorin Liz Bonnin, deren Stimme ohne ihr Einverst?ndnis für irreführende Werbung geklont wurde.
- Die Notwendigkeit zur Regulierung von KI-Depefakes hat zu Gesetzesvorschl?gen wie dem NO FAKES Act in den USA geführt, der sowohl die ?ffentlichkeit als auch die Künstler schützen soll.
- Trotz der Risiken birgt das Klonen von Stimmen ein gro?es Potenzial für Barrierefreiheit, Unterhaltung und personalisierte Kommunikation.
- Die Weiterentwicklung der KI-Technologie erfordert einen ausgewogenen Ansatz zur optimalen Nutzung ihrer Vorteile bei gleichzeitigem Schutz vor ihren ethischen Risiken.
Der Missbrauch der AI-Voice-Technologie
Geklonte Stimme der BBC-Moderatorin Liz Bonnin
Kürzlich wurde die KI-Stimmtechnologie in einem viel beachteten Fall missbraucht, der die BBC-Moderatorin Liz Bonnin betraf. Ihre Stimme wurde ohne ihr Wissen kopiert und in einer Werbekampagne für Insektenschutzmittel verwendet.
Anders als bei einigen der billigen Werbespots, die man im Internet sieht, in denen die Gesichter von Stars benutzt werden, um für zweifelhafte Produkte zu werben (oft Anlagebetrug), wurde in diesem Fall auch das Unternehmen hinter der Werbung, Incognito, in dem Glauben gelassen, die prominente Person geh?re zum Team.
Bonnin, bekannt durch ihre Moderatorenrollen bei Bang Goes the Theory und Our Changing Planet, sagte gegenüber The Guardian:
?Es fühlt sich wie eine Verletzung an, und das ist keine angenehme Sache. Zum Glück war es nur ein Insektenschutzspray und ich habe nicht für etwas wirklich Schreckliches geworben!“
Die Betrüger benutzten eine gef?lschte Sprachnachricht, in der sie sich als Bonnin ausgaben und ihr Einverst?ndnis gaben, in Werbespots für Insektenschutzmittel zu erscheinen.
Die Nachricht ahmte zun?chst Bonnins Stimme nach, ?nderte aber nach und nach ihren Akzent, was den Verdacht auf ihre Echtheit weckte.
Howard Carter, CEO von Incognito – dem Unternehmen hinter der Werbung – glaubte zun?chst, in direkter Verbindung mit Bonnin zu stehen. Diese Annahme basierte auf mehreren Sprachnachrichten, die ihn von ihrer Unterstützung überzeugten.
Die Person, die sich als Bonnin ausgab, übermittelte Carter eine Telefonnummer und eine E-Mail-Adresse sowie Kontaktdaten, die angeblich vom Wildlife Trust stammten, wo Bonnin als Pr?sidentin t?tig ist.
Die Verhandlungen fanden über WhatsApp und E-Mail statt, wobei Experten davon ausgehen, dass KI zur Erstellung eines digitalen Stimmabbilds von Bonnin verwendet wurde.
Am 13. M?rz erhielt Carter eine E-Mail mit einem Vertrag, der seiner Meinung nach von Bonnin unterzeichnet war.
Wie aus Bankauszügen hervorgeht, überwies das Unternehmen am 15. M?rz 20.000 £ auf ein Konto, das mit einer digitalen Bank verbunden war.
Bilder von Bonnin für die Kampagne wurden fünf Tage sp?ter verschickt – die darauf folgenden E-Mails von Incognito blieben jedoch unbeantwortet.
Die Kampagne wurde unter Verwendung von durch die Betrüger zur Verfügung gestellten Zitaten und Bildern gestartet. Erst als Bonnin ?ffentlich erkl?rte, sie habe nicht in die Teilnahme eingewilligt, wurde die Masche aufgedeckt.
Bonnin sagte:
?Es tut mir sehr leid, was das Unternehmen durchgemacht hat. Für sie ist das alles andere als lustig, aber für alle Beteiligten ist es ein Versto?. Wenn etwas zu gut aussieht, um wahr zu sein, und zu einfach oder ein wenig seltsam ist, sollte man es dreifach oder vierfach überprüfen.“
Das Aufkommen von Deepfake-Klonen
Dies ist kein Einzelfall. ?hnliche Missbr?uche von KI haben auch andere Pers?nlichkeiten des ?ffentlichen Lebens betroffen. Es handelt sich also um ein weit verbreitetes Problem der digitalen Identit?t.
Die Deepfake-Technologie hat ein gef?lschtes Audiomaterial des Londoner Bürgermeisters Sadiq Khan erstellt, der kurz vor dem Waffenstillstandstag umstrittene Kommentare abgab.
Au?erdem ist ein Deepfake-Clip des philippinischen Pr?sidenten Ferdinand Marcos Jnr. aufgetaucht, in dem er sein Milit?r anweist, gegen China vorzugehen, was bei Regierungsvertretern in Manila gro?e Besorgnis hervorrief.
READ: The Presidential Communications Office (PCO) warns the public against an audio deepfake of President Marcos supposedly ordering the military to act against another country, saying no such directive "exists nor has been made."
"We ask everyone to be proactive exposing and… pic.twitter.com/rmge3skHAk
— Inquirer (@inquirerdotnet) April 23, 2024
Darüber hinaus werden Audio-Deefakes auch aktiv für Betrug zum Eindringen in Konten eingesetzt.
So gelang es beispielsweise einem Vice-Journalisten, mit einer KI-Kopie seiner Stimme in sein eigenes Bankkonto einzubrechen.
Anhand dieser Beispiele wird deutlich, wie KI-Tools wie VASA-1 von Microsoft und die Voice Engine von OpenAI überzeugende gef?lschte Inhalte produzieren k?nnen.
Obwohl diese Instrumente noch nicht ?ffentlich zug?nglich sind, zeigt die dahinterstehende Forschung, dass VASA-1 sehr realistische gef?lschte Videos und Stimmen aus nur einem einzigen Foto und einem kurzen Audioclip erstellen kann.
In ?hnlicher Weise kann Voice Engine eine Stimme aus nur einer 15-sekündigen Tonaufnahme nachbilden.
Legale Anwendungen und Vorteile des Stimmenklonens
Obwohl die Technologie des Stimmenklonens Risiken birgt, sollte man erkennen, dass ihre verantwortungsvollen Anwendungen von gro?em Nutzen sein k?nnen.
Diese F?higkeiten k?nnen Herausforderungen in Chancen verwandeln:
- Zug?nglichkeit
Das Stimmenklonen unterstützt Menschen, die aufgrund von Krankheiten oder Unf?llen ihre F?higkeit zu sprechen verloren haben, indem es ihre Stimme für Kommunikationsger?te nachbildet, wobei ihre stimmliche Identit?t intakt bleibt.
So haben beispielsweise bahnbrechende Entwicklungen im Bereich der Gehirn-Computer-Schnittstellen (engl. brain-computer interface, BCI), auch bekannt als ?Neuroprothetik“, es Personen mit schweren L?hmungen erm?glicht, wieder zu sprechen.
Diese Ger?te lesen die mit der Sprache zusammenh?ngende Gehirnaktivit?t und übersetzen sie durch KI in h?rbare Sprache.
Ein bedeutender Fall betraf eine Frau namens Ann, die nach einem schweren Schlaganfall ein BCI zur Umwandlung ihrer Gehirnsignale in eine computergenerierte Stimme nutzte, die so trainiert wurde, dass sie wie vor dem Vorfall klingt.
- Unterhaltung und Medien
Mit der Technologie des Stimmenklonens lassen sich Dialoge in Videospielen und Filmen erheblich verbessern, so dass weniger Aufnahmen von Synchronsprechern erforderlich sind.
Ein Beispiel dafür ist das Videogame Cyberpunk 2077, insbesondere sein DLC Phantom Liberty.
Nach dem Tod von Mi?ogost ?Mi?ek“ Reczek, dem polnischen Synchronsprecher der Figur Viktor Vektor, entschieden sich die Entwickler des Spiels für den Einsatz der KI-Technologie zum Klonen der Stimme, um Reczeks Darstellung zu erhalten, anstatt ihn durch einen neuen Schauspieler zu ersetzen.
Diese Entscheidung wurde getroffen, um die Kontinuit?t des Charakters zu wahren und das Verm?chtnis des verstorbenen Schauspielers zu ehren. Dies geschah mit der Zustimmung und Unterstützung von Reczeks Familie.
Auch in Star Wars kam die Technologie zum Einsatz, um den Schauspieler Peter Cushing Jahrzehnte nach seinem Tod zurückzuholen und Carrie Fisher und Mark Hamill zu verjüngen.
Einen jüngeren Harrison Ford sah man zuletzt in Indiana Jones und das Rad des Schicksals.
- Personalisiertes Marketing
Mit Voice Cloning schaffen Unternehmen einen einzigartigen Kundenservice, indem sie die Stimmen bekannter Pers?nlichkeiten oder die unverwechselbare Stimme einer Marke imitieren.
Ein Beispiel ist das Projekt von KFC Canada, bei dem AWS AI zur Nachahmung der Stimme des Gründers, Colonel Sanders, für einen Alexa-Skill verwendet wurde.
Dadurch k?nnen die Kunden mit dem Colonel sprechen, um Essen zu bestellen, was den Prozess ansprechend macht und seinen ikonischen Charakter für Kundeninteraktionen beibeh?lt.
- Bildungstools
Voice Cloning verleiht Bildungsmaterialien mehr Interaktivit?t, indem es sie mit den Stimmen historischer Pers?nlichkeiten versieht.
Eine herausragende Anwendung ist die ?Ask Dalí“-Ausstellung im Dalí-Museum in Florida, wo eine KI, die auf Salvador Dalís Interviews trainiert wurde, den Besuchern in seinem Stil antwortet und so das Bildungserlebnis bereichert.
Wenn man die Risiken neben den Vorteilen kennt und beherrscht, kann man die Technologie des Klonens von Stimmen ethisch einwandfrei und effektiv einsetzen und damit sowohl die digitale als auch die reale Interaktion verbessern.
Wie AI Voice Cloning funktioniert
Beim Klonen von KI-Stimmen kommen komplexe Algorithmen des maschinellen Lernens und des Deep Learning zum Einsatz, um aus Audio-Samples eine synthetische Version der Stimme einer Person zu erstellen.
Die dazu notwendigen Schritte sind wie folgt:
1. Datenerhebung
In diesem ersten Schritt werden zahlreiche H?rproben der Zielstimme gesammelt. Diese Aufnahmen sollten eine Vielzahl von Sprachlauten enthalten.
So wird sichergestellt, dass die KI lernen kann, alle verschiedenen Kl?nge der Stimme in unterschiedlichen Emotionen und Tonlagen zu reproduzieren.
In der Regel wird die Person beim Sprechen verschiedener S?tze aufgenommen, um diverse Sprechstile und emotionale Zust?nde zu erfassen.
2. Vorverarbeitung und Merkmalsanalyse
Nachdem die Audiodaten erfasst wurden, werden sie verarbeitet, um Hintergrundger?usche zu entfernen und die Lautst?rke zu normalisieren.
Die Merkmalsanalyse konzentriert sich dann auf die Identifizierung wichtiger Stimmeigenschaften wie Tonh?he (wie hoch oder tief die Stimme ist), Klangfarbe (die Qualit?t des Klangs), Kadenz (der Rhythmus und die Geschwindigkeit des Sprechens) sowie Timbre (die einzigartige ?Textur“ der Stimme).
Diese Merkmale sind entscheidend für das Verst?ndnis und die Reproduktion der Nuancen der Stimme.
3. Training des neuronalen Netzes
- Modelle des Deep Learning: Das Herzstück des Klonens von Stimmen sind Deep-Learning-Modelle wie Convolutional Neural Networks (CNNs) oder Recurrent Neural Networks (RNNs), die anhand der extrahierten Stimmmerkmale trainiert werden. Diese Modelle lernen, nachfolgende Kl?nge vorherzusagen und k?nnen so eine Sprache erzeugen, die die Eigenschaften der Originalstimme nachahmt.
- Text-to-Speech-Synthese (TTS): Dieser Prozess wandelt Text in gesprochene Worte um. Fortgeschrittene TTS-Systeme verwenden diese trainierten neuronalen Netze zur Erzeugung von Sprache, die nicht nur natürlich klingt, sondern auch die richtigen Emotionen und die entsprechende Intonation auf der Grundlage der Texteingabe vermittelt.
- Generative Adversarial Networks (GANs): GANs dienen zur Verbesserung der Realit?tsn?he der geklonten Stimme.
Sie bestehen aus zwei Teilen:
– Generator: Diese Komponente erstellt die Stimmproben auf der Grundlage ihres Trainings.
– Diskriminator: Diese Komponente beurteilt, wie authentisch die generierten Stimmproben im Vergleich zu den Originalstimmen klingen. Sie gibt dem Generator Feedback und unterstützt ihn bei der Optimierung der Qualit?t und Authentizit?t der synthetischen Stimme.
4. Nachbearbeitung
Die erzeugte Stimme wird bei Bedarf weiter verfeinert, um die Klarheit zu verbessern, die Geschwindigkeit anzupassen und die Stimme so natürlich wie m?glich klingen zu lassen.
Dazu k?nnen auch Audioeffekte wie Entzerrung und Komprimierung zur Steigerung der Gesamtklangqualit?t geh?ren.
5. Prüfung und Abstimmung
In der letzten Phase werden umfangreiche Tests mit verschiedenen Texten durchgeführt, um sicherzustellen, dass die KI mit jeder Spracheingabe gut zurechtkommt.
Diese Tests dienen der Feststellung und Korrektur etwaiger Probleme mit der Phonetik oder unnatürlichen Sprachmustern durch weitere Anpassung der Modelle.
Dadurch lassen sich mit der KI-Technologie ?u?erst realistische und dynamische synthetische Stimmen erzeugen, die dem Original sehr nahe kommen.
Die Technologien werden dabei st?ndig verbessert und beinhalten die neuesten KI-Entwicklungen für mehr Genauigkeit und Vielseitigkeit.
Ethische und rechtliche Folgen
Jüngste Statistiken zeigen einen dramatischen Anstieg von Deepfakes und verdeutlichen die Risiken von KI-gestütztem Betrug.
Zwischen 2022 und 2023 hat sich die Zahl der entdeckten Deepfakes in verschiedenen Branchen weltweit verzehnfacht, basierend auf über 2 Millionen F?llen von Identit?tsbetrug.
So nahm beispielsweise die Zahl der F?lle von Identit?tsdiebstahl im Zusammenhang mit Deepfakes auf den Philippinen um 4.500 % zu, gefolgt von Vietnam mit 3.050 %, den USA mit 3.000 % und Belgien mit 2.950 %.
In den USA war die Dringlichkeit, gegen KI-generierte Deepfakes vorzugehen, ein wichtiges Diskussionsthema im Senat.
Der vorgeschlagene NO FAKES Act soll Einzelpersonen und Plattformen für die Erstellung oder Verbreitung unerlaubter digitaler Repliken zur Rechenschaft ziehen.
Ziel dieses Bundesgesetzes ist es, nicht nur Prominente, sondern auch die breite ?ffentlichkeit vor dem Missbrauch ihres digitalen Abbilds zu schützen.
Bei einer Anh?rung des Justizausschusses des Senats sprachen sich Branchenvertreter, darunter die S?ngerin FKA Twigs, für das Gesetz aus und betonten die Notwendigkeit, Künstler und die ?ffentlichkeit vor Ausbeutung bei gleichzeitiger Wahrung der künstlerischen Kreativit?t und der legitimen Nutzung von KI-Technologien zu schützen.
Der Gesetzentwurf strebt ein Gleichgewicht zwischen der Unterstützung der künstlerischen Kreativit?t und dem Schutz der individuellen Rechte an.
Pers?nlichkeiten wie Robert Kyncl, CEO der Warner Music Group, haben die Gesetzesvorlage befürwortet und auf die Bedeutung der Sicherung der Rechte von Künstlern neben der F?rderung der Kreativit?t hingewiesen.?
In den Diskussionen wurde zudem die Notwendigkeit einer klaren Definition des Begriffs ?digitale Replik“ hervorgehoben, um zu gew?hrleisten, dass das Gesetz die freie Meinungs?u?erung nicht einschr?nkt.
Fazit
Die fortschreitende KI-Technologie zum Klonen von Stimmen bietet in verschiedenen Bereichen erhebliche Vorteile, birgt aber auch gro?e ethische Risiken.
Um ein Gleichgewicht zwischen der Aussch?pfung der Vorzüge der Technologie und der Minimierung ihrer Gefahren zu finden, ist eine sorgf?ltige Regulierungsaufsicht erforderlich.
Angesichts der starken Zunahme von Deepfake-Vorf?llen und deren potenziellem Schaden sind übergreifende Rechtsvorschriften wie das vorgeschlagene NO FAKES-Gesetz von entscheidender Bedeutung.
Damit sollen die Rechte des Einzelnen geschützt werden, ohne den technischen Fortschritt und die Kreativit?t zu behindern.
Bei der Ann?herung an diese neue Grenze der KI gilt es, sowohl vorsichtig als auch vorausschauend vorzugehen.
Dabei muss sichergestellt werden, dass die Technologie der Menschheit zugutekommt und keine Kompromisse bei unseren ethischen Standards oder unserem Rechtsschutz eingegangen werden.