>>17048
>Al final lo que hacen no es diferente de Rotoscopía
He visto mucho el comentario de rotoscopia.
La historia es algo compleja pero en inteligencia artificial, visión por computadora, aprendizaje automatizado y redes neuronales paso esto.
La visión por computadora es tomar una imagen y procesarla, por ejemplo defectos de fabricación en una linea de ensamble, detección de objetos, reconocimiento de rostros o segmentación de imágenes medicas, gran parte del campo era usar técnicas matemáticas para darle significado a las imágenes creando sistemas adaptado al caso de uso e incluso cámara, pero al final casi todo problema quería segmentar la imagen en distintas partes, eran cientos de métodos que terminan segmentando la imagen o haciendo operaciones que para un humano son obvias al ver la imagen, nombrar objetos, antes incluso se decía imposible poder definir que era una letra a o una manzana, se decía que porque una a podía ser creada de muchas formas plasmar la idea de que es una 'a' seria muy difícil, de una manzana que existían muchos colores, distintos ángulos de cámara o incluso cosas como una manzana podrida, que los sistemas no podrían entender el concepto de algo con una cantidad enorme de variantes .
Si en photoshop u otro programa has usado, filtros, desenfoque gaussiano, ajuste de curvas, selección de bordes u otras cosas, todo eso nació en el campo de la visión por computadora, para intentar hacer tareas básicas.
En aprendizaje automatizado es usar conjuntos de datos y algoritmos para clasificarlos por características creadas por expertos o que se auto gestione, al ver el problema de segmentación o detección de objetos como central, se tomo esa idea de usar distintos algoritmos para generalizar estas tareas basadas en ejemplos de entrenamiento y ajustar características especiales.
A finales de los 90s se vio con éxito usar redes neuronales para detectar letras o números, este sistema se uso en USA para procesar correos físico o cheques, al entrenar con docenas de miles de letras o números manuscritos o de imprenta el sistema podía arrojar con un margen de error mínimo el reconocimiento de texto.
Ahora en los 2010s el uso de redes neuronales profunda rompió todo los records y enfoques de ajustes de características al usar el propio sistema que aprendiera de millones de imágenes, ahora los problemas de visión por computadora se pasarían a redes neuronales, la imagen que pongo, es hacer la detección, la segmentación, el reconocimiento y entonces ... se propuso la idea de que se generara una descripción de imagen basada en la imagen, de imagen a texto, la idea eran las bases de datos multimedios o clasificación de imagenes, instagram usa este sistema para búsquedas o describir imágenes a ciegos.
Luego los sistemas transferencia de estilo que se decía el comentario de Loving vincent seria un filtro de estos, son transferir una imagen a otra usando un estilo, de esto nacio los deepfake.
En esos años se hablo mucho del problema inverso si un sistema puede hacer de A a B entonces puede hacer de B a A, la importancia de esto es que los sistemas de redes neuronales, necesitan millones o cientos de millones de casos de aprendizaje en texto, imagen u otros datos, modelos actuales usan miles de millones de casos, por lo que si puedes automatizar la generación de A a B, entonces puedes generar los casos para hacer de B a A.
Otro problema era que los sistemas eran muy limitados a transformar de A a B, se quería poder usar otras formas de meter información o extraerla, el modelo o red neuronal termina siendo una caja negra sin saber como acceder a la información o ajustarla,
La locura, fue usar tanto modelos del lenguaje como sistema de consulta, generar el problema inverso de describir una imagen a generar una imagen solo usando texto, por lo que esto que vez, es pasar una imagen, describir un estilo y generar otra imagen,
El punto gordo, el modelo que usan tiene la capacidad de generar cualquier imagen, se alimenta el modelo con una imagen y descripción de estilo y genera otra imagen.
La segunda imagen, el texto es transformado en imagen, ideas como texto, libro, animales, alberca olímpica, nadar de mariposa, poses, comida u objetos están el modelo, por ejemplo puedes tener pose animal, animal peluche, animal dibujo, forma de animal hecha con cosas, crear un texto hecho de plantas.
Por ejemplo la animacion 3D siempre se habla que no se siente como la 2D, la 3D al necesitar modelos estándar, no existe la flexibilidad que añaden los animadores al poder adaptar cada frame a algo mas estético, realzar detalle, ocultar detalles, lo que han hecho los de corredor digital, es usar modelo que tanto aprendió de animaciones, fotografías reales, personas haciendo filtros de personas reales, dibujos artísticos con referencias, calcado o totalmente creados, el modelo entrenado, tiene las apreciaciones humanas sobre pasar una imagen real a una representación animada, el modelo contiene la idea de lo que se quejan los que discuten animación 2D vs 3D.
La idea de rotoscopia es algo que surgió del modelo solo por entrenarlo con imágenes de artistas, imágenes reales y demás, nadie entreno el modelo para que entendiera rotoscopia, ese es el enorme poder de este corto, la tecnología es extremadamente genérica en la transformación de imagen a imagen, puede ser entrenada en gigantesco cantidades de imágenes y estilos, puede general la distancia entre imagen real, pintura hiperrealista, pintura, ilustración, y poder mezclar entre eso.
Por lo que te puedes imaginar los aspectos, estética, estilo, expresiones faciales o corporales, iluminación, cámara, perspectiva y mas que se los añadas al modelo, y poder crear transformaciones, el modelo tendra millones de ejemplos de como una persona dibuja una cara enojada, de lado, desde un simple sketch a una cara real, edades, razas, sexo ... para los furros, la representación humano animales ...
https://video-diffusion.github.io/
Google los creadores de los modelos de diffusion, trabajan en animaciones generadas con ellos, de texto a animación.
El enorme potencial, es poder pasar storyboard, keyframes, arte conceptual, con ilustraciones, descripciones, captura de movimiento, animación de modelos de alambre muy simple como representación, grabar video, o captura de expresiones faciales a animación.
Es poder replicar o crear cualquier estilo de animación, estilo artístico y poder controlar la animación con texto, video, animación 2D muy simplificada o un motor de videojuegos.