No son vídeos, sino imágenes fijas convertidas a vídeo.
Mientras que los ordenadores van a aprendiendo a reconocer objetos y escenas en fotografías, «entender el movimiento de los objetos y las escenas dinámicas es un problema intrínseco de la visión artificial», explican investigadores del MIT. El reconocimiento de vídeo es más complejo por las incontables formas en las cuales una escena dinámica puede cambiar.
Como método para enseñar a las máquinas a ver en la imágenes en movimiento —detectar el contenido y a la vez cómo cambian las escenas a lo largo del tiempo— investigadores del MIT han desarrollado un algoritmo que convierte fotografías estáticas en imagen en movimiento, en vídeo. Antes de eso el ordenador analiza diferentes tipos de vídeos —de bebés, de trenes, de golf, de la playa— y a continuación aplica sobre las fotografías los movimientos comunes y habituales recogidos en vídeos de igual temática.
El objetivo no es obtener vídeos realistas a partir de fotografías. De hecho no lo son y el resultado es un poco inquietante — caso de las muestras con imágenes de bebés. En cambio se trata de que las máquinas «jueguen» a acertar qué hay en la escena y cuáles serían los movimientos esperados en cada una de ellas. De modo que al recorrer el camino inverso entenderán qué aparece y qué sucede en una secuencia de vídeo.
El generador de vídeo del MIT es por ahora bastante rudo, pero por lo que se ve en las miniaturas el ordenador llega a entender la dinámica de las escenas: cómo debería moverse un tren (de modo que cuando vea un tren en movimiento entenderá lo que es); cómo se desplaza una personas por la playa, cómo rompen las olas, que gestos hace una persona que está jugando al golf,... Otra limitación evidente viendo las imágenes tiene que ver con el tamaño minúsculo y con la duración, de apenas un segundo para cada muestra.
Fuente: Generating Videos with Scene Dynamics.
Relacionado,
- Cómo los personajes de Pokémon Go podrán interactuar con objetos reales
- Cómo los ordenadores colorean de forma creíble viejas fotos en blanco y negro
- La tecnología de Facebook para describir con palabras las fotografías a usuarios con problemas de vista
- La red neuronal de Google que puede saber dónde se tomó una foto sólo con mirarla, sin los datos GPS
- La app The Roll analiza, etiqueta y busca entre las imágenes del iPhone