jueves, abril 23, 2026
jueves, abril 23, 2026

Lo más visto

spot_img

RElacionado

Sorprendente: Microsoft crea tecnología única para imágenes a vídeo

Microsoft ha creado VASA-1, una herramienta basada en IA para crear clips de vídeo a partir de una sola fotografía de nuestro rostro. El funcionamiento de esta tecnología puede resultar muy interesante en el futuro, ya que se abre un abanico de posibilidades de ahora en adelante. Para poder sacar el máximo rendimiento a la tecnología que incorpora, tan solo habrá que incluir una imagen y agregar un extracto de audio. Automáticamente se generará un vídeo en el que da la sensación de que son las personas las que, efectivamente, están hablándole a la cara.

Tal y como se puede observar en las imágenes, en tan solo unos pocos pasos se puede contar con un resultado que demuestra el gran trabajo que hay detrás de VASA-1. Basta con la publicación de una sola imagen para completar un trabajo de edición de vídeo muy realista. El sistema es capaz de crear expresiones faciales muy naturales, dando sentido a las palabras gracias a una coordinación de los labios en cada sílaba. Es cierto que se pueden detectar algunas imperfecciones, pero es importante tener en cuenta que esto es una primera versión.

Microsoft ha decidido no llevar todavía esta tecnología al mercado por la posibilidad de que pueda ser usada esta herramienta con fines de engaño y aquellos relacionados con estafas. Al fin y al cabo, se ha conseguido un nivel de realismo que puede ser, incluso, peligroso. Aun así, la empresa está decidida a aprovechar todas las ventajas de esta tecnología para favorecer el uso en determinados colectivos. El ejemplo más representativo nos lo muestran las personas con alguna dificultad para comunicarse, las cuales podrían aprovechar las ventajas de VASA-1.

Se espera que Microsoft continúe mejorando esta herramienta a lo largo de los próximos meses. Teniendo en cuenta que esta IA ha sido entrenada con más de un millón de expresiones de 6.112 celebridades a través de vídeos de YouTube, se espera que se produzcan cambios que le permitan a su base de datos integrar mejor los audios con las expresiones faciales. ¿Se espera que pueda ser usada por el público en el medio plazo? Todavía hay dudas al respecto.

n-d.mx