Microsofts KI VALL-E kann schon aus einer Aufnahme von nur 3 Sekunden die Stimme einer beliebigen Person imitieren. Die Entwickler haben jedoch das große Missbrauchspotenzial erkannt.
Zukünftig ergeben sich jedoch für Content-Produzenten großartige Möglichkeiten.
Lass Dir den Artikel vorlesen
Was kann Microsofts KI VALL-E?
Microsofts KI VALL-E ist eine revolutionäre Technologie, die das Potenzial hat, die Produktion von Inhalten zu revolutionieren. Sie kann menschliche Sprache mit bemerkenswerter Genauigkeit imitieren, selbst bei einer Aufnahme von nur drei Sekunden. Diese unglaubliche Fähigkeit eröffnet den Produzenten von Inhalten eine Welt voller Möglichkeiten, da sie mit Leichtigkeit realistische Audioclips und Videos erstellen können. Allerdings birgt diese Fähigkeit auch die Gefahr des Missbrauchs, dessen ist sich Microsoft bewusst und arbeitet daran, dies zu ändern.
Beispiele für die KI VALL-E
Auf der Demo-Seite von Microsoft finden sich einige Beispiele, die die Leistungsfähigkeit dieser erstaunlichen KI-Technologie zeigen. Es reichen lediglich drei Sekunden einer Tonaufnahme einer Stimme aus, um daraus eine hochqualitative, personalisierte Sprache zu erzeugen. Die Demo-Dateien enthalten den sogenannten „Speaker Prompt“, das ist der zu sprechende Text. Hinter „Ground Truth“ hört man den Text, den eine Person tatsächlich gelesen hat. Also das Original. „Baseline“ ist dann das Ergebnis, welches bisherige Technologien erzielt haben.
In der rechten Spalte zeigt dann VALL-E, was es kann. Der Vergleich mit der Originalaufnahme in der Spalte „Ground Truth“ ist bemerkenswert.
60.000 Stunden Audiomaterial von 7.000 Sprecher:innen hat Microsoft benutzt, um VALL-E zu trainieren. In erster Linie waren dies frei verfügbare englischsprachige Hörbücher. Darum funktioniert die automatische Vertonung von Hörbüchern auch besonders gut. Nimmt man dagegen beliebige Stimmen, ist das Ergebnis noch wenig glaubwürdig. Ich bin mir allerdings sicher, dass Microsoft bereits deutlich mehr Audiomaterial trainiert hat und mit der Veröffentlichung nur wartet, bis es Möglichkeiten gibt, den Missbrauch dieser Technologie zu erschweren. Wir dürfen gespannt sein, wie das funktionieren soll.
Missbrauchspotenzial dieser Technologie
Der allseits bekannte Enkeltrick wird nun telefonisch authentisch funktionieren. Das sicher auch voll automatisiert.
Es wird sicher bald möglich sein, eine Stimme in Echtzeit zu simulieren. Wir erinnern uns sicher alle an diese Szene aus dem „Terminator“ 🙂
Aber auch jegliche Art der Fälschung von Tonaufnahmen sollte damit kein ernsthaftes Problem mehr darstellen. Welche Auswirkungen dies auf die Rechtsprechung hat, ist nicht absehbar.
Die eigene Stimme als Ausweis oder Erkennungsmerkmal zu benutzen, können wir damit ebenfalls abhaken.
Anwendungsgebiete von VALL-E und anderen ähnlichen KI´s
Das Potenzial dieser Technologie ist aber durchaus interessant. Neben dem automatischen Vorlesen von Texten auf menschlichem Niveau sind Chat-Systeme mit einer realistischen Stimme durchaus in Reichweite. Hierbei wird der Anrufer höchstwahrscheinlich nicht ohne weiteres bemerken, dass er mit einer Künstlichen Intelligenz spricht.
Die nachträgliche Überarbeitung von gesprochenen Aufnahmen ist ebenfalls ein interessanter Anwendungsfall. Nehmen wir einen Podcast, den ich vielleicht aufgezeichnet habe. Im Nachgang fällt mir dann das Argument schlechthin ein. Ich kann es mit der Technologie einfach hinzufügen.
Webinare und Trainings ließen sich mit der Technologie produzieren. Immer, wenn die Lerninhalte angepasst werden müssen, reicht eine Überarbeitung durch einen Dritten. Der Originalsprecher wird im Zweifel nicht gebraucht.
Dies birgt enorme Risiken, auch hinsichtlich des Copyrights.
Ich bin jedenfalls sehr gespannt, auf die weitere Entwicklung der Technologie und parallelen Diskussion zu den Vor- und Nachteilen.
Fazit
Vorerst müssen wir uns vor deutschsprachigen Fakes (noch) nicht fürchten. Bis dato funktioniert dies nur gut auf Englisch. Wenn es nicht die eigene Stimme sein soll, dann gibt es schon jetzt spannende und günstige Alternativen, mit denen man schon jetzt gute Ergebnisse erzielen kann.
Ein sehr gutes Werkzeug ist beispielsweise Murf.AI.
Meine beiden virtuellen Sprecher Ben und Natalie lesen euch einmal einen Absatz aus diesem Artikel vor. Ich finde, dass kann sich durchaus hören lassen. Viel Spaß beim Ausprobieren!