Un millón de clips de vídeo para enseñar a la inteligencia artificial de IBM a reconocer acciones y emociones humanas

Moments in time dataset ibm watson 1

En Helping AI master video understanding el investigador de IBM Research AI, Dan Gutfreund, cuenta un poco cómo el uso del vídeo está acelerando el desarrollo de tecnologías y modelos que proporcionan “comprensión” automática a la inteligencia artificial.

Utilizando un repositorio de un millón de clips de vídeos, de tres segundos de duración cada uno, las redes neuronales son capaces de predecir qué va a suceder o qué está sucediendo en los vídeos. También “desarrollan la habilidad” de aprender qué partes del vídeo son las más importantes de cara a identificad momentos de la vida cotidiana.

Moments in time dataset ibm watson 2

Durante décadas los investigadores en el campo de la visión artificial han intentando desarrollar modelos de comprensión visual que se asemejen al nivel de los humanos. Sólo en los últimos años y gracias a los avances en el aprendizaje automático hemos comenzado a desarrollar modelos que están a la altura del rendimiento humano, aunque de momento se limitan a un puñado de tareas y a ciertos conjuntos de datos.
Este logro se debe fundamentalmente a dos factores: los conjuntos de datos etiquetados masivamente y las mejoras significativas en la capacidad de los ordenadores, que permiten procesar grandes conjuntos de datos con millones de parámetros en tiempos razonables.

Moments in time dataset ibm watson

El conjunto de datos, recopilados en Moments in Time Dataset, hace uso de clips de vídeo públicos que recogen momentos cotidianos en los que aparecen personas, animales, objetos y fenómenos naturales. El proyecto se basa en identificar qué sucede en esos clips etiquetándolos con palabras que describen las acciones básicas con términos como “saltar”, “hablar”, “cocinar”, “caer”... Y a partir de ahí una red neuronal “aprende” a identificar y reconocer escenas. En algunos casos los vídeos no muestran la acción, pero el audio permite identificarla (por ejemplo, “aplaudir”), algo que al añadirlo “permite el desarrollo de modelos multimodales para el reconocimiento de acciones,” según los investigadores del MIT IBM Watson AI Lab.

La comprensión automática de video ya juega un papel importante en nuestras vidas, y creemos que el número de aplicaciones crecerá exponencialmente en ámbitos como la asistencia a los discapacitados visuales, el cuidado de ancianos, la automoción o los medios de comunicación y de entretenimiento, entre otros muchos.

IBM ofrece acceso libre al conjunto de datos Moments in Time con fines educativos y de investigación, con el fin de fomentar nuevos estudios y desarrollos que aceleren los avances en inteligencia y visión artificial.

# Enlace Permanente

Un millón de clips de vídeo para enseñar a la inteligencia artificial de IBM a reconocer acciones y emociones humanas

Trending Articles

Mi 530d no arranca, códigos de avería

Ley Memoria Histórica o Democrática 2022 – Matrimonios con españoles – Cuba...

Coronel de la Guardia Nacional asume dirección de Polibolívar

TELEVISOR KONKA 43 PULG TV5-43K2 - 850.00USD

Silent Hill 2: Revelation (2012) 720p BRRip Dual Español Latino-Inglés

Merluzas en Airfryer con sofrito de pimientos rojos

[Wii] Silent Hill Shattered Memories [NTSC][WBFS][ESPAÑOL][MEGA]

Gobernador de Anzoátegui decreta 14 de noviembre como feriado no laborable

The Cranberries – When You’re Gone-Pronunciación Letra Traducción

QUÉDATE, BUEN JESÚS. Autor: Luis Iruarrízaga

Matan a dos personas en colonia Reparto Lempira, San Pedro Sula

Profetas de la Ciencia Ficción (Serie) Castellano

Fallece en Mérida el empresario Alvaro Juanes Ancona

ACTIVIDAD: El primer milagro de Jesús (para los más chiquitos)

Elodia, ahora en Playboy

Reguetoneros y productores que perdieron la vida

Coche de sustitucion en BMW al pasar campaña EGR

CDG INTERROGA A ZETA SECUESTRADOR DE TAMPICO

Ayuda!!!! Notificacion de Demanda Coppel

"MI VIDA FUE SIGNADA POR LA TRISTEZA Y LA POBREZA"