Los ‘deepfakes’ de voz engañan incluso cuando se prepara a la gente para detectarlos

En 2019, el director de una empresa británica fue víctima de una estafa después de recibir un falso mensaje de voz de su gerente en que pedía la transferencia de 220.000 euros a un proveedor. Un año después, un gerente de banco en Hong Kong recibió una llamada telefónica de alguien que le sonaba familiar. Basado en su relación existente, el banquero transfirió 400.000 dólares hasta que se dio cuenta de que algo estaba mal. Estos son solo ejemplos aislados, pero cada vez más frecuentes. Ambos casos involucran el uso de tecnología deepfake para clonar las voces, una forma extremadamente sofisticada de manipular un contenido. Identificarla es un desafío significativo que se volverá cada vez más complicado a medida que la inteligencia artificial avanza rápidamente. Y no hay buenas noticias. Mientras algunas herramientas computacionales pueden detectarlas con cierto grado de precisión, las voces falsas engañan a los humanos, incluso cuando las personas se entrenan.

Un estudio realizado con 529 personas, que se publica hoy en Plos One, demuestra que las habilidades humanas son poco eficaces a la hora de calificar sin un mensaje de voz es falso o verdadero. Los participantes fallaron una de cada cuatro veces que intentaron detectar correctamente estos deepfakes de voz y los esfuerzos para capacitarlos tuvieron efectos mínimos. La mitad del grupo recibió un entrenamiento previo, donde podían escuchar cinco ejemplos de voz sintetizada. A pesar de ello, la mejora fue tan solo del 3% en comparación al otro.

Los investigadores del University College London, en Reino Unido, querían además entender si el reto era más fácil o difícil según las características de diferentes idiomas, por lo cual condujeron las pruebas en inglés y mandarín. Los hallazgos sugieren que las capacidades son equivalentes y ambos públicos se basaron en atributos similares a la hora de calificar la autenticidad de los mensajes, como la naturalidad y si sonaba robótico. “Tanto los participantes de habla inglesa como los de mandarín mencionaron comúnmente las pronunciaciones incorrectas y las entonaciones inusuales en los clips de sonido al tomar decisiones”, explica Kimberly Mai, autora principal del estudio.

personas falsas, se puede contar el número de dedos en sus manos o si sus accesorios coinciden”, dice la investigadora postdoctoral de la universidad británica.

Para comparar la capacidad humana con la tecnológica, los investigadores condujeron la misma prueba también con dos detectores automáticos. El primero fue un software entrenado con una base de datos ajena al estudio, que alcanzó el 75% de asertividad, cifra similar a las respuestas humanas. El segundo, entrenado con la versión original y sintetizada de la voz, pudo identificar la naturaleza de los audios con 100% de precisión. Según subraya Mai, se da un mejor desempeño porque los programas avanzados son capaces de identificar las sutilezas de la acústica, lo que no puede hacer una persona.

Los sonidos complejos, como el habla humana, contienen una mezcla de diferentes frecuencias, que es la cantidad de veces que una onda sonora se repite en un segundo. “Los detectores automáticos examinan miles de ejemplos de voz durante su fase de entrenamiento. A través de este proceso, pueden aprender sobre peculiaridades en niveles específicos de frecuencia e irregularidades en el ritmo. Los humanos son incapaces de descomponer los sonidos de esta manera”, sostiene la investigadora.

Si bien los detectores automatizados han demostrado ser más efectivos que los humanos en esta tarea, también tienen limitaciones. Primero, no son accesibles para el uso cotidiano. Además, su rendimiento disminuye cuando hay cambios en el audio de prueba o en entornos ruidosos. Pero el mayor desafío es que sean capaces de acompañar los avances en materia de inteligencia artificial generativa, puesto que se producen contenidos sintetizados cada vez más realistas y de forma más rápida. Si antes eran necesarias horas de grabación para entrenar un programa, ahora se hace en unos pocos segundos, por ejemplo.

Fernando Cucchietti, experto ajeno al estudio, subraya que los resultados presentados tienen algunas limitaciones, dado que las condiciones del los experimentos “son muy de laboratorio” y no traducen las amenazas cotidianas de este tipo de tecnología. “No son realistas para situaciones donde los deepfakes puede ser problemáticos, por ejemplo, si conoces a la persona que están imitando”, opina el responsable del grupo de Análisis y Visualización de datos del Barcelona Supercomputing Centre en declaraciones al Science Media Centre España. Pese a ello, Cucchietti subraya que las conclusiones se asemejan a otros estudios similares, y por tratarse de un entorno bastante controlado, “los resultados están menos afectados por otros factores, por ejemplo, prejuicios o sesgos previos, como en el caso de los estudios de desinformación”.

Evitar las estafas

En el plano individual, las personas son poco fiables para detectar deepfakes de voz. Sin embargo, los resultados de la investigación muestran que al agrupar las opiniones de más individuos y tomar una decisión basada en una votación mayoritaria, hay una mejora en la detección. Kimberly Mai recomienda: “Si escuchas un clip de audio del que no estás seguro porque el contenido parece inusual, por ejemplo, si implica una solicitud de transferir una gran cantidad de dinero, es una buena idea discutirlo con otras personas y verificar la fuente”.

Mai sugiere que la ruta para mejorar los detectores automatizados es hacerlos más robustos ante las diferencias en el audio de prueba. Según dice, su equipo está trabajando para adaptar modelos básicos que han funcionado en otros campos, como el texto y las imágenes. “Dado que esos modelos utilizan grandes cantidades de datos para el entrenamiento, es de esperar que generalicen mejor las variaciones en los clips de sonido de prueba”, subraya. Además, opina que las instituciones tienen la obligación de tomar partido. “Deben priorizar la implementación de otras estrategias, como regulaciones y políticas, para mitigar los riesgos derivados de los deepfakes de voz”, argumenta.

Piura tiene dos salas de operaciones inoperativas por falta de especialistas

Talara: 10 proyectos municipales declarados viables han perdido vigencia

Talara: Caja Piura atiende a clientes de ex Caja Sullana en sus oficinas de Mártires Petroleos

Talara: proyectan un Museo del Futuro en esta ciudad

La Costanera Tramo I: con inversión de S/ 336 millones Consorcio Vial Costanera construirá carretera en Talara

Caja Piura: desde este jueves 25 clientes de la ex Caja Sullana pueden efectuar operaciones

Feminicidios en Piura suben a 8 y ubican a la región como la quinta con más casos en el Perú

Región Piura: adquieren 18 kits para destituir autoridades

ANP: “Las autoridades tienen el deber de transparentar la información pública”

Contraloría: 145 funcionarios con presunta responsabilidad en hechos irregulares en Piura

Keiko Fujimori no declaró millones recibidos cuando era congresista de la República

Ministerio de Energía y Minas: estamos reactivando la industria petrolera

Proyecto del Ejecutivo reduce capacidad operacional de Contraloría

BCR: economía peruana habría crecido alrededor del 5% en mayo

Asociación Nacional de Periodistas rechaza instrumentalización del sistema de justicia

Nueva York: alcalde de la ciudad proclama el 22 de julio como Día de la Herencia Peruana

Casa Blanca: EEUU celebrará este viernes contribución de peruanos a su cultura

Precios del petróleo vuelven a subir por alivio a presiones inflacionistas de EEUU

Argentina: se desploma consumo de carne, leche y pan por la crisis económica

Brasil: Lula reanuda el trabajo de la Comisión de Muertos y Desaparecidos Políticos

Talara: proyectan un Museo del Futuro en esta ciudad

Talara: 600 pescadores artesanales de Cabo Blanco se beneficiarán en temporada de avistamiento de ballenas

WhatsApp: cómo impedir que desconocidos te agreguen a grupos para caer en ciberestafas

FIFA investiga cantos racistas en Argentina y solicitan que Messi pida disculpas (VIDEOS)

Los ‘deepfakes’ de voz engañan incluso cuando se prepara a la gente para detectarlos

Evitar las estafas

WhatsApp: cómo impedir que desconocidos te agreguen a grupos para caer en ciberestafas

Tecnología: Apple rechazó IA de Meta porque sus prácticas de seguridad no son estrictas

Inteligencia Artificial opera al servicio del arte contra la falsificación