Ficha del Reto Innotransfer

2024_R_173

Prioridad AVI del Reto

11.- Tecnologías Habilitadoras
11.1.- Optimización de las operaciones en las empresas mediante la incorporación de las tecnologías de digitalización
11.1.6. –
Desarrollo de plataformas servicios y modelos de analítica avanzada y visualización de datos que ayuden a la toma de decisión (Business Intelligence).

Título del reto

Identificación automatizada de personajes, objetos y entornos a través de IA creando un corpus audiovisual valenciano

Necesidad a resolver

Los archivos audiovisuales de las empresas televisivas contienen los originales de la producción realizada unida a una serie de metadatos asociados, y que permiten a los documentalistas proveer de información de eventos relacionados con un personaje, su ubicación, el contenido de la noticia, etc., en un tiempo récord. Los sistemas de reconocimiento del habla han sido sin duda un salto cualitativo en los sistemas de ayuda a la catalogación por parte de los responsables de dichos fondos documentales.

Si bien en À Punt ya se han integrado dichas tecnologías que transcriben el audio al dato textual, no es menos cierto que la irrupción de nuevos modelos de IA que trabajan con la imagen, con necesidades de computo más bajas y mejor nivel de predicción, permiten que modelos propios puedan ser entrenados y que de forma automatizada se incluya un metadato, haciendo referencia principalmente al personaje que aparece, pero pudiendo ser cualesquiera otras variables.

La necesidad concreta a resolver es el desarrollo de un sistema que una vez identificada una persona/ubicación o cosa, y utilizando el archivo documental propio, aprenda a etiquetar el contexto de la ubicación junto con el personaje o objeto que se desee, y posteriormente en base a este aprendizaje permita automáticamente etiquetar al menos personajes concretos.

Este sistema es muy similar a los que utilizan los servicios de inteligencia y en control de fronteras, “identificación de personas en tiempo real a partir de un flujo de video” en los que se utiliza una combinación de captura de imágenes, procesamiento avanzado, detección y reconocimiento facial mediante tecnologías de deep learning. Algunas empresas y start-ups que trabajan y que pueden clarificar mejor el estado del arte son por ejemplo Clearview AI, SenseTime, NEC Corporation, FaceFirst, Cognitec Systems, AnyVision, etc.

Requisitos de la solución

En una primera fase, el sistema deberá ser capaz que demostrar que dado un personaje/ubicación o cosa con o sin huella sonora, el sistema es capaz de incluir un metadato de forma automatizada cuando dicho personaje aparece en una secuencia de vídeo (puede ser imagen, o imagen y sonido a priori), pero con:

  • Consumo de recursos bajos (cómputo)
  • Identificación en tiempo real (entre uno y dos segundos de proceso de vídeo)
  • Predicción superior al 90%

En una segunda fase, el sistema deberá ser capaz de generar este tipo de metadato de forma automática tal y como se va generando la producción audiovisual para su archivo y recuperación en el momento que sea requerido.

El sistema debería ser capaz en definitiva de que dado un personaje en video y/o una huella sonora, extractar todas y cada una de las apariciones de este personaje.

En una solución ideal, el sistema incluso podría establecer, en base al análisis de estas imágenes ingestadas, un modelo de comportamiento biométrico (gestual/sonoro) de cada personaje, que tiene interés para otro reto de la empresa.

Perfil del colaborador buscado

Para desarrollar e implementar esta solución, se requiere un equipo multidisciplinario con los siguientes perfiles, y de forma muy particular grupos de investigación o empresas que hayan desarrollado sistemas en entornos similares en el reconocimiento facial (datos biométricos), tratamiento de señales y datos EXIF, información de comportamiento, histórico de actividades y métricas.

Plazo deseado de la solución

Estratégico (2-3 años)

Proponer una solución​