Investigación en el Conicet de Rosario

Computadoras más “humanas” con un avatar en la pantalla

La ciencia y la tecnología no están tan lejos de conseguir que la comunicación entre personas y computadoras adquiera un aspecto más humano.

a.jpg

“La computadora imaginaria”, grabado de Rosa Renk. Foto: Archivo El Litoral

Conicet Rosario - Conicet Santa Fe El Litoral

Los Dres. Lucas Terissi y Juan Carlos Gómez, del Centro Internacional Franco Argentino de Ciencias de la Información y de Sistemas (Cifasis/Conicet/UNR/Universidad Paul Cézanne, Aix-Marseille III, Francia), de Rosario, trabajan en la animación de imágenes 3 D del rostro humano para imitar los movimientos del habla. A partir de filmaciones de personas que hablan y de un modelo matemático logran animar estas imágenes, llamadas avatares. Los científicos procesan una señal de voz representando cada sonido en términos numéricos y la relacionan con el movimiento de la boca en cada instante de habla. Para registrar los rasgos característicos del movimiento, dibujan sobre el rostro una malla de líneas que determinan puntos cuya posición puede expresarse, al igual que la señal acústica, por un conjunto de coeficientes. Así, se puede predecir la ubicación de los labios y el rostro de acuerdo al sonido que se produzca. Con esta información se entrena al avatar para que, a partir de un nuevo audio, simule los movimientos faciales.

Cómo lo hacen

Toman como referencia un conjunto de puntos para analizar la posición de los labios, y determinan otros puntos en torno a los principales que se mueven relacionados a éstos. Así, se puede animar un modelo complejo que realice gestos más precisos. “Para la inteligibilidad de un mensaje no sólo cuenta la señal acústica durante el habla sino también la información visual del movimiento de los labios y músculos faciales”, indica Terissi. A fin de comprobarlo, hicieron un test de percepción para analizar si los sonidos eran más entendibles gracias al avatar. Luego, un grupo de personas debía distinguir sílabas fácilmente confundibles: primero, a partir de la voz; segundo, del modelo animado y, por último, de un video que mostraba a alguien repitiendo las sílabas. Resultado: las personas se equivocaban menos al ver el avatar que al escuchar sólo la voz, si bien el mayor número de aciertos ocurrió al ver el video.

Aplicaciones

Según el Dr. Terissi, el modelo en desarrollo “se podría emplear en un teléfono celular en el que, además de escuchar el sonido, se pueda ver al modelo 3 D hablando. Esto ayudaría a personas con discapacidad auditiva ya que leerían los labios del avatar”, cuenta. O usarlo en la producción de películas de animación 3 D ya que, a partir de la voz de los personajes, podría animarse el movimiento de sus labios y otras expresiones faciales y ahorrar mucho trabajo manual. “Tratamos de integrar la información multimedial para que la comunicación con la computadora sea lo más natural posible”, señala el Dr. Gómez. “El objetivo, a largo plazo, de estos trabajos es lograr que en la pantalla de la computadora se disponga de un avatar que conteste como se comunican los humanos”, concluye. La investigación se basó en los resultados de la tesis doctoral de Lucas Terissi, que dirigió el Dr. Gómez, y fue distinguida como “Technicolor Best Student Paper Award” en el Congreso y Exposición Internacional sobre Multimedia, organizado por la International Conference on Multimedia & Expo, ICME 2011, en Barcelona (España).

* Por la Lic. Vanesa Bomben - Prensa, Conicet Rosario. Adaptó: Lic. Enrique A. Rabe (ÁCS/Conicet Santa Fe).


Salvando una omisión

En la nota “Se presentó la primera vacuna contra la hidatidosis” (publicada el viernes 21) se omitió mencionar que se trata de un desarrollo de investigadores argentinos del Conicet, de Australia y de Nueva Zelanda.