Face-Swapping wird bereits auf vielen Webseiten und Apps angeboten. Gemeint ist der Gesichtstausch in einer Bild- oder Videodatei. Neuronale Netze lernen dabei aus einem Gesichtsbild die wichtigsten Mimik- und Beleuchtungsinformationen kodiert auszulesen und daraus ein entsprechendes Gesichtsbild zu erzeugen. Einige Modelle können fast in Echtzeit Gesichter tauschen. Als Trainingsmaterial werden dabei wenige, aber qualitativ hochwertige Videominuten einer Person benötigt, die möglichst viele verschiedene Gesichtsmimiken und Perspektiven enthalten. Beim Face-Swapping wird das Gesicht der Person 2 in das der Person 1 eingefügt, wobei der Gesichtsausdruck von Person 1 beibehalten wird.

Beim Face-Swapping wird das Gesicht der Person 2 in das der Person 1 eingefügt, wobei der Gesichtsausdruck von Person 1 beibehalten wird. Quelle: in Anlehnung an das Bundesamt für Sicherheit in der Informationstechnik

Für die Fälschung von Stimmen werden die Verfahren „Text-to-Speech (TTS)“ und „Voice Conversion (VC)“ angewandt. In einem Text-to-Speech-Verfahren wird zu einem vorgegebenen Text ein Audiosignal erzeugt, welches sich sowohl für Menschen als auch für eine automatische Spracherkennung wie die Stimme einer vorher definierten Person anhört.

Beim Voice-Conversion-Verfahren hat ein Anwender die Möglichkeit, dem KI-System ein Audiosignal vorzugeben, welches zu einem manipulierten Audiosignal konvertiert wird. Dieses neu erzeugte Signal hat den gleichen semantischen Inhalt wie das Ursprungssignal, unterscheidet sich jedoch in der Charakteristik des Sprechenden. Im Idealfall gleicht es der Person, die als Zielperson ausgewählt wurde. Bei einem Voice Conversion-Verfahren wird ein Audiosignal von Person 1 in ein Audiosignal konvertiert, das wie die Stimme von Person 2 klingt – sowohl für Menschen als auch für eine automatische Sprecherkennung.

Beide Verfahren werden durch komplexe neuronale Netze umgesetzt. Sie benötigen Trainingsdaten in Form von mehrere Stunden langen Audioaufnahmen der Zielperson in möglichst hoher Qualität. Liegen weitere Datenbanken mit Audiomaterial anderer Personen als Hilfsdaten vor, verringert sich die benötigte Menge an Audiomaterial der Zielperson auf wenige Minuten.

Mit KI erzeugte synthetische Bilder sind an sich kein Deepfake, sondern rein künstlich erzeugte Bilder. Sie können aber in ähnlicher Weise eingesetzt werden wie Deepfakes. Trainiert wurden die KI-Systeme mit großen Mengen an Fotos echter Personen. Für die Generierung von synthetischen Bildern, z.B. Gesichtern, kommen folgende Modelle zum Einsatz:

Diffusionsmodelle basieren auf Zufallsprozessen. Im Training wird ein Bild zufällig minimal verändert, es entsteht ein kleines Rauschen – eine Störung bei Farbkontrast oder Helligkeit, zunächst nicht wahrnehmbar. Dieser Schritt wird immer weiter wiederholt, bis aus dem Bild ein ungeordnetes Rauschen entstanden ist. Diesen Prozess lernt das Modell dann umzukehren: Es generiert ein neues – synthetisches – Bild, indem es das Rauschen Schritt für Schritt wieder entfernt.

Trainingsprozess eines Diffusionsmodells. Quelle: In Anlehnung an „golem.de IT-News für Profis“

Weitere KI-Modelle zur synthetischen Bildgenerierung sind Generative Adversarial Networks (GAN) und Autoencoder.

Beim Face-Reenactment lassen sich in Videodateien Mimik, Kopf- und Lippenbewegungen einer Person verändern. Das Gesicht selbst bleibt erhalten. Zu einem vorgegebenen Text werden passende, synthetisch erzeugte Lippenbewegungen und Gesichtsausdrücke erstellt. Dafür wird von einer ausgewählten Person aus einem Videostream ein 3D-Modell erstellt. Dieses Gesichtsmodell kann dann mithilfe eines zweiten Videostreams einer anderen Person kontrolliert werden. So können einer Person durch Unterlegung einer passenden Audiospur täuschend echte Aussagen in den Mund gelegt werden, die sie in der Realität nie getätigt hat.