¿Alguna vez has construido una imagen mental de una persona que nunca has visto, basada únicamente en su voz? La inteligencia artificial (IA) ahora puede hacer eso, generando una imagen digital de la cara de una persona usando solo un breve clip de audio como referencia.
Llamada Speech2Face, la red neuronal, una computadora que "piensa" de manera similar al cerebro humano, fue capacitada por científicos en millones de videos educativos de Internet que mostraban a más de 100,000 personas diferentes hablando.
A partir de este conjunto de datos, Speech2Face aprendió las asociaciones entre las señales vocales y ciertas características físicas en un rostro humano, escribieron los investigadores en un nuevo estudio. Luego, la IA usó un clip de audio para modelar una cara fotorrealista que coincida con la voz.
Los hallazgos se publicaron en línea el 23 de mayo en el preimpreso jounral arXiv y no han sido revisados por pares.
Afortunadamente, la inteligencia artificial (todavía) no sabe exactamente cómo se ve un individuo específico solo en función de su voz. La red neuronal reconoció ciertos marcadores en el habla que señalaban el género, la edad y el origen étnico, características que comparten muchas personas, informaron los autores del estudio.
"Como tal, el modelo solo producirá caras de aspecto promedio", escribieron los científicos. "No producirá imágenes de individuos específicos".
AI ya ha demostrado que puede producir rostros humanos increíblemente precisos, aunque sus interpretaciones de los gatos son francamente un poco aterradoras.
Las caras generadas por Speech2Face, todas orientadas al frente y con expresiones neutras, no coincidían exactamente con las personas detrás de las voces. Pero las imágenes generalmente capturaron los rangos de edad, etnias y géneros correctos de los individuos, según el estudio.
Sin embargo, las interpretaciones del algoritmo estaban lejos de ser perfectas. Speech2Face demostró "rendimiento mixto" cuando se enfrentó a variaciones de lenguaje. Por ejemplo, cuando la IA escuchó un clip de audio de un hombre asiático que hablaba chino, el programa produjo una imagen de una cara asiática. Sin embargo, cuando el mismo hombre habló en inglés en un clip de audio diferente, la IA generó la cara de un hombre blanco, informaron los científicos.
El algoritmo también mostró sesgo de género, asociando voces de tono bajo con rostros masculinos y voces de tono alto con rostros femeninos. Y debido a que el conjunto de datos de capacitación representa solo videos educativos de YouTube, "no representa igualmente a toda la población mundial", escribieron los investigadores.
Otra preocupación sobre este conjunto de datos de video surgió cuando una persona que apareció en un video de YouTube se sorprendió al enterarse de que su imagen se había incorporado al estudio, informó Slate. Nick Sullivan, jefe de criptografía de la empresa de seguridad de Internet Cloudflare en San Francisco, vio inesperadamente su rostro como uno de los ejemplos utilizados para entrenar a Speech2Face (y que el algoritmo había reproducido más o menos aproximadamente).
Sullivan no había consentido en aparecer en el estudio, pero los videos de YouTube en este conjunto de datos se consideran ampliamente disponibles para que los investigadores los usen sin adquirir permisos adicionales, según Slate.