Warum audiovisuelle Deepfakes zur größten neuen Gefahr in virtuellen Meetings werden

In unserem aktuellen Beitrag „Phishing and Identity Manipulation through Audiovisual Channels“, den ich gemeinsam mit Lara Eberl, Lisa-Marie Engländer, Caroline Löhle, Dennis Jahnecke, Aylin Baris, Donjeta Seljaci und Schabnam Shamsi veröffentlicht habe, zeigen wir, wie künstliche Intelligenz die Manipulation von Identitäten auf ein neues Level hebt – und warum besonders Videokonferenzen zu einem hochriskanten Angriffsvektor geworden sind. Der Artikel ist erschienen in den OID 2025 Proceedings der Gesellschaft für Informatik.

Der Kern unseres Beitrags ist klar: Audiovisuelle Deepfakes – also gefälschte Stimmen und manipulierte Live-Videos – sind inzwischen so überzeugend, dass menschliche Wahrnehmung nahezu vollständig versagt. In unseren Experimenten erkannten mehr als 70 % der Teilnehmenden weder künstlich erzeugte Stimmen noch täuschend echte Deepfake-Videos. Besonders alarmierend: Selbst Personen, die den vermeintlichen Sprecher gut kannten, ließen sich täuschen. Diese Ergebnisse unterstreichen die dramatische Verwundbarkeit digitaler Kommunikationsräume.

Audiovisuelle Phishing-Angriffe: Ein perfekter Sturm aus Technik und Psychologie

Unser Artikel zeigt, dass moderne Tools für Voice Cloning und Live-Video-Deepfakes mittlerweile frei verfügbar, leicht bedienbar und technisch hochentwickelt sind. Lösungen wie ElevenLabs oder DeepLiveCam benötigen kaum noch Expertise – eine einzige Referenzaufnahme genügt, um Stimmen, Mimik und Gesichtsausdrücke überzeugend zu imitieren.

Damit verschärft sich ein zentraler Punkt: Es geht nicht mehr darum, ob sich Angreifer Zugang zu solchen Technologien verschaffen können, sondern vielmehr wie schnell und mühelos sie sie heute einsetzen können. Die Barriere für Missbrauch ist faktisch verschwunden.

Gleichzeitig trifft diese technische Entwicklung auf menschliche Faktoren, die Angriffe begünstigen:

Authentizitätsbias: Menschen halten audiovisuelle Informationen intuitiv für echt.
Overconfidence-Bias: Viele glauben, Deepfakes zuverlässig erkennen zu können – unsere Daten zeigen das Gegenteil.
Confirmation Bias: Inhaltlich passende Botschaften werden eher akzeptiert.

Diese Kombination aus einfacher Angriffstechnik und menschlichen Verwundbarkeiten macht audiovisuelle Phishing-Angriffe so wirkungsvoll.

Zwei empirische Studien: Wie leicht wir auf manipulierte Inhalte hereinfallen

Wir haben zwei experimentelle Studien durchgeführt – eine mit einem KI-generierten Audioclip, eine mit einem Live-Video-Deepfake.

Audio-Experiment:

Eine künstlich generierte Stimme, die einen Studierenden imitiert, wurde 56 Teilnehmern vorgespielt. Das Ergebnis:

91 % hielten die Nachricht für glaubwürdig, obwohl die Stimmenimitation klar künstlich erzeugt war.

Video-Experiment:

Ein manipuliertes Video, das eine Professorenidentität imitiert, wurde 34 Studierenden gezeigt.

74 % erkannten die Fälschung nicht – trotz bekannter Person.

Diese Zahlen zeigen eindrücklich, wie gering unsere Fähigkeit ist, audiovisuelle Manipulationen zu erkennen – selbst in vertrauten Szenen wie Hochschulkommunikation. Die Gefahr für Unternehmen ist entsprechend noch größer, besonders in kritischen Bereichen wie CEO Fraud, interner Kommunikation, Rollenmissbrauch, oder Authentifizierungsprozessen über Video.

Was unser Beitrag leistet: Ein Rahmen zur systematischen Einordnung und Verteidigung

Der Wert unseres Artikels liegt in drei zentralen Erkenntnissen:

Technische Realität:Deepfake-Werkzeuge haben die Schwelle professioneller Angriffe radikal gesenkt. Die Tools sind verfügbar, leistungsfähig und produktiv einsetzbar.
Empirisch belegte Verwundbarkeit:Selbst technisch affine Nutzergruppen erkennen Deepfakes nicht zuverlässig. Das Versagen der Wahrnehmung ist keine Ausnahme, sondern der Normalfall.
Handlungsrahmen für Organisationen:Wir identifizieren konkrete Felder, in denen Unternehmen aktiv werden müssen – darunter:
- robuste Verifikationsprozesse für Audio- und Videoidentitäten,
- Schulungen und Awareness-Kampagnen,
- Einsatz von (real-time) Deepfake-Detection,
- klare Richtlinien für kritische Kommunikationssituationen,
- rechtliche und organisatorische Anpassungen.

Fazit: Deepfakes sind kein Zukunftsszenario – sie sind Realität

Unser Artikel zeigt: Die Art und Weise, wie wir digitale Kommunikation bewerten, muss sich grundlegend verändern. Vertrauen in audiovisuelle Signale – jahrelang selbstverständlich – ist heute eine riskante Annahme.

Wenn Angreifer Identitäten über Voice-Cloning und Live-Video-Manipulationen perfekt imitieren können, müssen Unternehmen, Behörden und Bildungseinrichtungen neue Standards entwickeln, um Vertrauen neu zu definieren und abzusichern.

Warum audiovisuelle Deepfakes zur größten neuen Gefahr in virtuellen Meetings werden

Audiovisuelle Phishing-Angriffe: Ein perfekter Sturm aus Technik und Psychologie

Zwei empirische Studien: Wie leicht wir auf manipulierte Inhalte hereinfallen

Was unser Beitrag leistet: Ein Rahmen zur systematischen Einordnung und Verteidigung

Fazit: Deepfakes sind kein Zukunftsszenario – sie sind Realität

Das könnte dich auch interessieren

Mannbronner Logistikinformatik

Multi-Cloud strategisch nutzen: Warum unser Beitrag zeigt, dass Cloud Computing heute ein Managementthema ist

Arbeiten 4.0 – Veröffentlichung

Schreibe einen Kommentar Antworten abbrechen