IBM-Sicherheitsforscher entdeckten kürzlich eine "überraschend und erschreckend einfache" Technik, um Live-Gespräche mithilfe von KI zu kapern und zu manipulieren.
Diese Art von Angriff wird als "Audio Jacking" bezeichnet und nutzt generative KI. ChatGPT von OpenAI und Llama-2 von Meta sind Beispiele für solche KI-Formen. Zusätzlich kommt eine Deepfake-Audio-Technologie zum Einsatz.
Audio Jacking
In dem Experiment wiesen die Forscher die KI an, Audiosignale aus zwei Quellen in einer Live-Kommunikation zu verarbeiten, beispielsweise ein Telefongespräch. Wenn die KI ein bestimmtes Schlüsselwort oder eine bestimmte Phrase hört, wird sie angewiesen, den entsprechenden Ton abzufangen und zu manipulieren, bevor sie ihn an den Empfänger weiterleitet.
Wie aus einem Blogbeitrag von IBM Security hervorgeht, gelang es bei dem Experiment, einen der Sprecher durch die KI abzufangen, als dieser vom anderen menschlichen Sprecher aufgefordert wurde, seine Kontodaten anzugeben. Die KI ersetzte dann die echte Stimme mit gefälschten Audiodaten und gab eine andere Kontonummer an. Der Angriff wurde von den "Opfern" des Experiments nicht bemerkt.

Generative KI
Der Blog weist darauf hin, dass die Ausführung des Angriffs zwar ein gewisses Maß an Social Engineering oder Phishing erfordert, die Entwicklung des KI-Systems selbst jedoch kaum eine Herausforderung darstellt:
"Die Entwicklung dieses Konzeptnachweises war überraschend und erschreckend einfach. Wir haben die meiste Zeit damit verbracht, herauszufinden, wie man Audio vom Mikrofon aufnimmt und die generative KI damit füttert."
Früher hätte der Aufbau eines Systems, das autonom bestimmte Audioketten abfängt und sie durch spontan generierte Audiodateien ersetzt, eine fächerübergreifende Informatikarbeit erfordert.
Aber die moderne generative KI erledigt die schwere Arbeit selbst. "Wir brauchen nur drei Sekunden der Stimme einer Person, um sie zu klonen", so der Blog. Weiter heißt es, dass diese Art von Deepfakes heutzutage über eine API erfolgt.
Audio Jacking ist nicht nur eine Gefahr für ahnungslose Opfer, damit sie Geld an falsche Konten überweisen. Die Forscher weisen auch darauf hin, dass das als unsichtbare Form der Zensur verwendet werden könnte. Der Inhalt von Live-Nachrichtensendungen oder politischen Reden könnten so in Echtzeit verändert werden.
Melde dich bei unseren Sozialen Medien an, um nichts zu verpassen: X, YouTube, Instagram und Telegram – aktuelle Nachrichten, Analysen, Expertenmeinungen und Interviews mit Fokus auf die DACH-Region.