jueves, 7 de agosto de 2014

Asombrosa técnica para extraer audio a partir de información visual

[Img #21517]
En un grupo de experimentos, el algoritmo ha logrado recuperar palabras inteligibles a partir de vibraciones en una bolsa de patatas fritas fotografiada desde unos 5 metros de distancia , a través de cristal insonorizado. (Imagen: Christine Daniloff / MIT)
Gracias a un nuevo algoritmo, se ha conseguido reconstruir una señal de audio a partir del análisis de vibraciones minúsculas de objetos cercanos a la fuente de sonido mostrados en un video. En un grupo de experimentos, los creadores de la técnica han logrado recuperar palabras inteligibles a partir de vibraciones en una bolsa de patatas fritas fotografiada desde unos 5 metros de distancia (unos 15 pies), a través de cristal insonorizado.

En otros experimentos, estos científicos, del Instituto Tecnológico de Massachusetts (MIT) en Cambridge, Estados Unidos, así como de las conocidas empresas Microsoft y Adobe, han extraído señales de audio útiles a partir de videos similares sobre las vibraciones en hojas de papel de aluminio, en la superficie del agua dentro de un vaso, e incluso en las hojas de una planta en un tiesto.

Cuando un sonido incide contra un objeto, hace que éste vibre. El movimiento de esta vibración crea una señal visual muy sutil que normalmente es invisible a ojo desnudo. Esta información ha pasado esencialmente desapercibida para el Ser Humano, aunque siempre ha estado ahí.

El equipo de Abe Davis, Frédo Durand, Bill Freeman y Neal Wadhwa, del MIT, Michael Rubinstein, de Microsoft Research, y Gautham Mysore, de Adobe Research, sí ha sabido aprovechar esa información, y ha comprobado que en algunos casos es mucho más detallada de lo que se podía imaginar.

Reconstruir audio a partir de video precisa que la frecuencia de las muestras videográficas, es decir, el número de cuadros de video capturados por segundo, sea más alta que la frecuencia de la señal de audio. En algunos de sus experimentos, los investigadores utilizaron una cámara de alta velocidad que capturó de 2.000 a 6.000 cuadros por segundo. Eso es mucho más rápido que los 60 cuadros por segundo que son posibles con algunos teléfonos inteligentes, pero está muy por debajo de las tasas manejadas por las mejores cámaras comerciales de alta velocidad, que pueden alcanzar los 100.000 cuadros por segundo. Es decir, que ni siquiera se requieren las mejores cámaras del mercado para lograr esta hazaña tecnológica de “escuchar” imágenes.

Las aplicaciones prácticas para esta insólita vía de obtener información acústica son casi tantas como permita la imaginación. Es obvio que bastantes de las primeras estarán en el ámbito de la policía científica y en el de la seguridad en general, pero las áreas de actividad que se podrían beneficiar del nuevo sistema o de otros parecidos que vayan surgiendo a partir de ahora, son numerosas. (NCYT)

No hay comentarios:

Publicar un comentario