Hace 5 años | Por hermestrek a microsiervos.com
Publicado hace 5 años por hermestrek a microsiervos.com

El sistema funciona analizando primero en vídeo las secuencias de una persona bailando (el objeto de la imitación) y luego pidiendo a quien va a realizar la «imitación» que realice algunos movimientos básicos similares – que no tienen por qué ser perfectos. Entonces entran en juego los algoritmos de procesado de imagen e inteligencia artificial: los movimientos originales se convierten en una figura de palo animada y luego se recrean sobre la otra persona mapeando los movimientos de brazos, piernas, torso, cabeza y demás. Vídeo listo.

Comentarios

D

#1 la pole del año te has marcado

D

#1 lol lol lol lol lol lol lol lol lol lol lol lol lol lol

DENLE UN PREMIO A ESTE HOMBRE lol lol lol lol lol

obmultimedia

#1 Quique Peinado aprueba este invento

D

Yo trabajo con gráficos 3D a diario y se nota un montón en los movimientos:



De todas formas como "broma" o aplicación de entretenimiento está muy bien, y más sabiendo que ha sido realizada por un pequeño grupo de una Universidad.

Sospecho que está hecha con Open CV y a saber que más.

D

#5, yo no trabajo en 3D pero apostaría a que más que en los movimientos se nota por ejemplo en que la mano de se desprende del brazo y cosas así, que es mucho más chocante

thorpedo

#5 fyi un proyecto parecido o hermano ...
https://github.com/CMU-Perceptual-Computing-Lab/openpose

kwisatz_haderach

#5 A ver, que es la tipica cosa "divertida" para probar ese conjunto de instrucciones. La gracia es precisamente eso, que el sistema sea capaz de hacer un tracking de un movimiento original y hacer el rotteo transformacion en el video objetivo sin intervencion. Si funciona con el baile funciona con cualquier otro movimiento.

miriel852

#5 Bueno, así es como avanza la investigación, supongo que nadie espera que un día mágicamente llegue alguien y diga "mira, ya funciona todo perfecto, aquí está la solución". Lo que proponen en este paper es una aportación muy valiosa, y los resultados increíbles para el estado del arte.

Ese "pequeño" grupo de una Universidad está liderado por Alexei Efros, un referente en el campo de computer vision (https://scholar.google.com/citations?user=d97bGd8AAAAJ&hl=es).

Por último, decir "está hecha con OpenCV", es como decir "esto está resuelto con matemáticas", OpenCV solo es una librería, lo importante es todo el desarrollo que hay detrás.

No suelo comentar en meneame, pero me sorprende la facilidad con la que la gente desmerece el trabajo de los demás.

D

#19 No he desmerecido el trabajo de nadie, te has montado una película en la cabeza. El 99.99% de los desarrolladores trabajamos con librerías y no es nada nuevo bajo el sol.

También dije que tenía merito al ser un grupo reducido de la universidad, lo siguiente es hacerles una donación, que no sé si es lo que esperabas.

Curiosee ligeramente con OpenCV hace tiempo y vi que estaba muy extendido, por eso dije este comentario.

f

#5 ¡Hola audaz compañero de menéame! Bienvenido al curso de "cosas de IA para decir en menéame".

En esta primera entrega analizaremos varios términos que se pueden usar con seriedad y propiedad sobre el tema actual, y así parecer que se domina el tema.

- Lo primero que observamos en ese vídeo es que lo que se analiza, en el fondo, es la pose de la persona. ¿Cómo se llama la estimación de pose? ¡Correcto! ¡Pose estimation! Uno de los modelos más de moda en el tema es PoseNet, porque tensorflow está pegando fuerte (esto tienes que decirlo como un mantra). ¿Y cómo funcionan las tripas? Lo primero es saber que siempre que veas una IA que a partir de una imagen devuelve algo, puedes decir sin miedo "eso es una CNN, una Convolutional Neural Network". El tema es, ¿qué es ese algo que devuelve? Ese algo puede estar en un ámbito discreto y acotado (una lista de labels) en cuyo caso es un clasificador (ejemplo, decir si en una foto hay un gato, un perro o un cerdito). O puede estar en un ámbito contínuo, por ejemplo detectar los 4 puntos que forman la caja en la que se encuadra el gatito de la foto, en cuyo caso es una regresión. En el caso de PoseNet lo que se detectan son segmentos, que en realidad se calculan a partir de un mapa de calor y vectores de desplazamiento, así que es una regresión. Para dar más peso a tu argumento, siempre puedes poner un link al github de PoseNet en el que además hay link a demo para que pruebes tú mismo: https://github.com/llSourcell/pose_estimation

- Lo segundo que observamos es que genera algo falso pero tiene que parecer real. Así que puedes estar bastante seguro de que usa una GAN, una Generative Adversarial Network. Para entenderla necesitarás dos conceptos: generadores y discriminadores. Un generador es la red que genera la salida falsa, y un discriminador es el que decide si está bien. Para entenderlo, mejor pensar en el ejemplo del meneo. Supón que quieres entrenar algo para hacer imágenes de ti en diferentes poses. Lo que haces es sacarte fotos en diferentes poses, cuantas más mejor, y además de cada foto calculas su pose. Si a la pose de cada foto la llamamos x y la foto en si la llamamos y, tú buscas un generador G tal que G(x) se aproxime lo máximo posible a y. Y para ese "se aproxime lo máximo posible a y" lo que tienes es un discriminador que te dice si se lo cree, al discriminador le llamaremos D, y no devuelve 0 o 1, sino un número real entre 0 y 1 que dice cuánto se lo cree. Y aquí para hablar con más propiedad sueltas este mantra: "al final una GAN lo que hace es la optimización de un juego minimax entre un generador y un discriminador". Y tan pancho.

- Lo tercero... ¿y cómo a partir de la pose hago una imagen? Aquí puedes soltar cosas como "seguramente sea una pix2pix". Y sueltas este enlace para que lo flipen: https://github.com/NVIDIA/pix2pixHD

- Lo cuarto: el problema de pix2pix es que funciona bien para imágenes. Para vídeo tiene que haber una cosa que se llama coherencia temporal. ¡Te explico el problema! Como estamos generando imágenes y a partir de las imágenes vídeo, puede suceder que la imagen generada para el tiempo t y la generada para el tiempo t+1 sean suficientemente diferentes como para en el vídeo dar sensación desagradable. Esto se suele arreglar con un suavizado temporal, pero vas a perder algo de calidad eso sí.

¡Hey! ¡Ya tenemos el cálculo de pose y ya tenemos la GAN entrenada con una persona y que a partir de una pose nos genera el adversarial! ¡Está todo hecho!

Pues no. Resulta que hay caras. Las caras necesitan un trabajo aparte. Si solamente usases la cara entrenada por la GAN previa, quedaría muy artificial, y siempre tendría el mismo rostro, seguramente muy difuminado. Así que vas a tener que currarte una GAN propia solamente para las caras.

Y sin más os dejo, ¡no olviden supervitaminarse y mineralizarse! Y escuchen esta obra de arte:



¡Menéame te educa a la vez que te entretiene!

D

#23 A ver... te felicito por tu preperación en el tema, pero la forma de decirlo... se ve que te dedicas a la programación, vas a explotar de sarcasmo.

Tengo idea de lo que hablas, cursé y me gusto mucho TIC ( Tecnología de la Imagen Computacional). Sé de buena mano que el trabajo de esa gente es enorme, y aunque se note visualmente vuelvo a decirte que es un trabajo brillante, de hecho por eso está en los medios. Mi trabajo fin de carrera está muerto en el olvido.

Ayer miré el enlace de github que me acabas de dar, aunque dudo muchísimo que tenga tiempo de verlo en profundidad algún día, estoy colapsado de trabajo. Me encantaría dedicarme a crear herramientas o incluso a investigación, pero desgraciadamente hay que pagar facturas y estoy todo el día con librerías (sí, las que tanto nos gustan) creando programas con mejor o peor resultado.

Me gusta que me escribieras el mensaje, pero el tono...

f

#23 "se ve que te dedicas a la programación" - Ojo que en este caso has acertado porque además soy programador, has tenido suerte. Pero cuidado con a quién se lo dices, porque la gente que se dedica a la inteligencia artificial suele estar mucho más cerca de la matemática aplicada que de la programación, y no llevan muy bien que les digan que se dedican a la programación.

Tecnología de la Imagen Computacional no la conozco, pero al menos cuando cursé la carrera la asignatura de imagen por computador, y no se tocaba absolutamente nada de inteligencia artificial. Hay que tener en cuenta que programación clásica !== inteligencia artificial.

El tono, siento que te lo tomases mal pero no es mi problema. Es un tono gracioso y no iba con mala intención, si te lo has tomado mal le diré al Bodegas que haga chistes sobre ti.

D

Yo quiero uno así pero en vez de baile con movimientos de lucha.



Casado vs Rivera, fight!

alexwing

Esto con una base de Chiquito de la calzada sería la monda.

ElLocoDelMolino

#4 todo es la monda con una base de Chiquito

D

#6 Hasta el propio Chiquito.

e

Aún queda pulirlo un poco, pero estoy seguro si se consiguen mejores capturas de origen y destino, seguro que el resultado debería ser muy convincente.

armando.s.segura

Yo estoy viendo el potencial de esto en el porno.... y estoy empezando a sudar.

Nividhia

#9 tarde #deepfakes

thorpedo

#11 #9 muy tarde ... Ya te pueden integrar con tu pornstar favorita https://variety.com/2018/digital/news/deepfake-porn-custom-clips-naughty-america-1202910584/

chemari

Esta cachondo, pero canta a la legua.

maxxcan

pequeños avances de la IA que ahora sabemos que está hecho por ordenador pero ya veréis cuando esto mejore la de cosas falsas que nos van a meter como reales y nos lo vamos a creer.

Por cierto, me he acordado de este video que al principio pensaba que era un fake y no.

j

El video es en si un fake, aunque la entradilla hable de crear fakes.En el ultimo "ejemplo", en el del chinorris, se ven exactamente los movimientos que esta efectuando reflejados en la ventana que tiene detrás suya, por lo que en realidad están bailando exactamente igual que el "source", o por lo menos muy muy parecido a él, efectuando ciertas y minimas correciones...nada de movimientos básicos.

f

#22 ¿Y no puede ser que como la IA aprende de imágenes con poses que le dan para entrenar, si las imágenes usadas en el entrenamiento contienen sombra, la IA las identifique como features a tener en cuenta y por tanto las imágenes producidas contengan sombra? Por saber...