Los “deepfakes” de voz ya no son un fenómeno raro sino un riesgo real para ciudadanos y empresas. Hoy en día, rescatar unos segundos de audio público es suficiente para clonar una voz y colarla en una llamada, mensaje o videollamada que imite a un familiar. … La precisión de un empleado o directivo es inquietante. A partir de ese momento, el patrón suele repetirse: una solicitud urgente de fondos, un evento bancario o una notificación de “no puedo esperar”. En este caso, resulta cada vez más difícil distinguir la autenticidad y cualquier comunicación inesperada comienza a ser vista con desconfianza.
La distancia entre un “deepfake” y una imitación clásica ya es enorme. José Antonio Marcos, decano asociado de la Escuela de Negocios y Tecnología de la UAX, explicó que el audio generado por IA puede reproducir timbre, ritmo e incluso matices emocionales, “lo que los convierte en Extremadamente confiable. Con sólo 30 segundos de grabación, señaló, “se puede construir un clon confiable y luego generar cientos de mensajes en un corto período de tiempo”. Este realismo permite que se produzcan fraudes, como el que llevó a la empresa de ingeniería británica Arup a desviar más de 200 millones de dólares, o el fraude fallido en Ferrari que se hizo pasar por la voz de su director general.
La capacidad de imitar sonidos con tanto detalle no se limita al audio grabado. En ataques recientes ha surgido un fenómeno más inquietante: las conversaciones en tiempo real. Luis Corrons, experto en ciberseguridad de Gen, comentó que la IA “puede modular la voz del estafador a medida que avanza la llamada hasta que sea prácticamente indistinguible de la persona suplantada”. El engaño se potencia cuando se combinan audios falsos con vídeos generados artificialmente capaces de recrear gestos y expresiones. Para Corrons, esta combinación de inmediatez y apariencia natural convirtió estos montajes en herramientas muy convincentes y fácilmente replicables.
La naturalidad de estos montajes depende en gran medida de cómo se generan los sonidos que los sustentan. Miguel López, director regional para Europa, Medio Oriente y África Sur de Barracuda Networks, explica que el proceso se ha vuelto tan sencillo que “ya no es necesario tener muchas grabaciones para obtener un modelo confiable”. Los clips cortos extraídos de mensajes de WhatsApp o vídeos en las redes sociales “proporcionan material suficiente para que la inteligencia artificial reconstruya perfiles de sonido convincentes”. Con las muestras más pequeñas, señala que El sistema emite un sonido en tan solo unos minutos. Puedes usarlo incluso durante llamadas reales.
El engaño aumenta cuando se combina audio falso con vídeo generado artificialmente
impacto grave
En las empresas, los costos del fraude de voz clonado van mucho más allá de la pérdida de transmisión. Paula Yanes, vicepresidenta y responsable de confianza digital de Capgemini Invent, señaló que “estos incidentes derivan en investigaciones internas, honorarios legales y reclamaciones, que incrementan el importe de la factura final”. Incluso sin exposición pública, pueden erosionar la confianza de clientes y proveedores. El impacto interno también fue grave: la urgencia operativa “fue sustituida por una validación constante, que ralentizó las tareas cotidianas y nos obligó a utilizar estructuras más rígidas de lo habitual”, explica.
Para Rafael Palacios, director de la Oficina de Inteligencia Artificial de la Universidad Pontificia de Comillas y profesor del ICAI de Comillas, detrás de estos fraudes “casi nunca hay improvisación”. Si bien los individuos pueden intentar realizar estafas aisladas, “los casos exitosos provienen de organizaciones que recopilan los detalles de las víctimas de antemano para hacer que su mensaje sea más convincente”, explica el experto. Añadió que esta fase preliminar puede incluir contactos a pequeña escala destinados únicamente a obtener Pistas sobre personajes, Las empresas e incluso los bancos son el foco principal. Según su experiencia, la motivación “casi siempre es económica, lo que impulsa la creciente profesionalización de estos colectivos”.
En entornos empresariales, estos fraudes siguen un patrón que, a pesar de la autenticidad de los sonidos clonados, puede ser identificado por quienes saben dónde buscar. Miguel Ángel Thomas, responsable de ciberseguridad de NTT DATA, explicó que los atacantes “a menudo crean una sensación artificial de urgencia para que las acciones ‘se completen inmediatamente’ y evitan cualquier verificación, a menudo desde canales inusuales como números desconocidos, llamadas de audio o video de WhatsApp sin cámara”. Thomas explica que estas comunicaciones “se basan en guiones rígidos y emocionalmente planos, con pausas antinaturales, microretrasos o respuestas entrecortadas cuando la conversación va más allá del guión”.
La precisión de estas imitaciones hace que sea cada vez más difícil distinguirlas de oído. Eduardo Prieto, director general de Visa España, comentó «El falsete suena muy natural Incluso en situaciones aparentemente rutinarias. Aun así, dijo, a menudo aparecen pequeños signos, “por ejemplo, cuando el fraude involucra video, el ritmo no encaja del todo o hay una ligera discrepancia”.
Al alcance
Sin embargo, Gastón Fornés, profesor de EAE Business School, afirmó que la gran cantidad de material falsificado que circula hace que sea cada vez más difícil distinguir entre lo genuino y lo falso. Uno de los desafíos es que la inteligencia artificial se ha vuelto tan barata que cualquiera puede usar herramientas automatizadas para generar audio o video manipulado”, explica.
Casos recientes demuestran que estas prácticas engañosas no afectan sólo a las grandes empresas. “Los individuos siguen siendo objetivos comunes, desde secuestros virtuales que imitan las voces de familiares, hasta los llamados agentes bancarios que utilizan audios publicados en línea para solicitar contraseñas o transferencias urgentes”, señaló Collens de Gen.
Thomas de NTT DATA recuerda que en el mundo empresarial las áreas de finanzas, contabilidad o compras a menudo estaban en primera línea, especialmente cuando la comunicación se realizaba a través de canales inusuales. López de Barracuda Networks agregó: “Algunas de las estafas más sofisticadas han logrado que se transfieran millones de dólares mediante órdenes falsas enviadas a nombre de directores”.
A simple vista, los sonidos deepfake pueden parecer impecables, por eso es importante prestar atención a los pequeños detalles. Marcos de la UAX enfatizó que, como comentó Prieto de Visa, la IA puede replicar el timbre y el ritmo con extrema precisión, pero rara vez logra la espontaneidad de los sonidos reales.
Clips cortos de mensajes de WhatsApp o vídeos web utilizados para crear montajes.
Protegerse implica ajustar sus hábitos y procesos internos. Yanes, de Capgemini Invent, insiste en “una verificación adicional de cualquier solicitud sensible y en enseñar a los equipos a hacer una pausa antes de reaccionar”. López de Barracuda Networks recomienda reforzar estos reflejos mediante autenticación multifactor y simulaciones que recrean ataques de voz. Prieto recomienda “pararse unos segundos y confirmar la información por diferentes canales”. Esta sigue siendo una forma sencilla pero decisiva de evitar el fraude.
modo anormal
Al mismo tiempo, la IA también permite a las empresas mejorar sus capacidades de defensa. Prieto de Visa dice que ya se está utilizando para detectar patrones inusuales en pagos y acceso interno, identificar acciones que no se ajustan al comportamiento habitual de un usuario y detener el fraude antes de que se complete.
Estos sistemas analizan miles de señales en tiempo real y son capaces de bloquear intentos casi imperceptibles a simple vista. Aun así, los expertos coinciden en que no existe una protección infalible.
El avance de los “deepfakes” y la democratización de las herramientas nos obliga a vivir en un entorno más incierto donde la verificación se convierte en una rutina imprescindible. La tecnología ayuda, pero no reemplaza la precaución. Durante bastante tiempo, hacer una pausa, revisar y reconocer seguirá siendo la forma más eficaz de no caer en engaños que suenan demasiado reales.