
Introducción a la IA generativa
Anteriormente en el blog ya se ha explicado qué es la IA generativa, en qué consiste y a qué afecta. En esta entrada de blog vamos a estudiar cómo afecta al ámbito de la generación de imágenes.
Para empezar, vamos a repasar y recordar qué es la IA, “a secas”.
Se trata de una tecnología diseñada para realizar determinadas operaciones, consideradas propias de la inteligencia humana, que pueden resolver problemas que un humano sabe hacer pero no sabe explicar exactamente como.
Es decir, esta llamada Inteligencia Artificial es capaz de imitar las redes neuronales del cerebro humano para obtener un algoritmo. Con este algoritmo se crea un modelo, al que se le ajustan los parámetros para resolver un problema concreto. A la hora de ajustar los parámetros, se “entrena” de forma supervisada a la IA para que aprenda y el modelo acierte lo máximo posible.
La clave de una inteligencia artificial está, por tanto, en su entrenamiento.
Entonces, ¿la IA generativa…?
Son modelos de inteligencia artificial (lo que se obtiene de los algoritmos que acabamos de mencionar) capaces de crear nuevo contenido. En este blog estamos estudiando tres formatos en los que la IA puede generar nuevo contenido.
Importancia de la IA generativa en el ámbito audiovisual
La IA generativa está permitiendo crear imágenes, animaciones y efectos visuales con un chasquido de dedos. Antes, esto sólo era posible si poseías un alto nivel de producción audiovisual (por ejemplo, siendo experto en animación de personajes 2D).
Es por esto mismo que la IA ha conseguido bajar las barreras de entrada para artistas, diseñadores, y creadores de contenido que no cuentan con recursos técnicos o software caros. Basta con una buena descripción en texto y conocimiento sobre prompting para crear una imagen gráfica. Sin embargo, esto también genera dilema, pues ¿qué pasa con aquellos puestos de trabajo que consisten, precisamente, en la generación de contenido visual? Ya sea animación, imagen, concept art…
El desarrollo de IA generativa ha permitido creación de imágenes increíblemente realistas. Hay quien opina que la IA ha venido para ayudar, otros que opinan que han venido para “arrebatar y eliminar” puestos de trabajo… incluso otros que piensan que la IA está intentando reemplazar lo “humano” en el arte.
Vamos a investigar algunos aspectos más importantes que conlleva la IA generativa, y los posibles outcomesde su continuo desarrollo y fomentación.
Fundamentos de la IA Generativa
Como hemos mencionado anteriormente, la IA Generativa son modelos capaces de crear nuevo contenido, pero ¿cómo lo hacen?
Actualmente, existen hay varios modelos de IA que “dominan” el mercado:
Modelos de difusión
Los modelos de difusión son modelos generativos de redes neuronales entrenadas mediante deep learning (categoría de machine learning que usan tres o más capas de redes neuronales para procesar datos), para generar imágenes a partir de ruido.
¿Sabías que…?
Tanto el machine learning como el deep learning son procesos de enseñanza para la IA que las ayudan a aprender a procesar datos de forma parecida a un cerebro humano. Sin embargo, el machine learning depende más de la intervención humana para aprender, mientras que el deep learning es capaz de aprender usando datos sin haber sido procesados antes (es decir, etiquetados o clasificados por un humano) y determinar qué características distinguen esa imagen de otra.
Funcionan de la siguiente manera: toman una imagen, y la “difunden” hacia delante, pixelando la imagen hasta que simplemente queda ruido estático; píxeles que no muestran ni representan nada. Es entonces cuando el modelo aprende a revertir esa difusión que ha creado, siendo capaz de generar una imagen “difundiendo para atrás” los píxeles.
Para entenderlo mejor, pongamos un ejemplo más intuitivo. Este modelo, en realidad, está basado en la difusión termodinámica.
Imaginemos que tenemos un vaso con líquido azul. Esta sería nuestra imagen “inicial”, nuestro punto de partida. A este vaso con un líquido azul, ahora le vierto una gota de pigmento rosa. Esto sería nuestro proceso de difusión hacia delante.
Al mezclar los colores, me quedo con un tono morado. Esta es nuestra imagen pixelada.
Lo que hace ahora la IA Generativa es sustraer todo el pigmento rosa, aunque haya sido mezclado, para volver a tener el vaso con el líquido azul. Es decir, partiendo de la mezcla, es capaz de volver al punto de partida.

Toda la idea del modelo de difusión viene de que a los software y ordenadores, en general, les resulta sencillo generar estática de una televisión, por ejemplo. Al usar la aleatoriedad de la estática generada, les es más fácil crear nuevas imágenes.
Para entrenarla, se le proporciona al modelo muchísimas imágenes, a las que se le irán añadiendo distorsiones aleatorias (ruido gaussiano) para que la IA aprenda a cómo generar imágenes a partir de ellas por sí misma.
Ilustración 2: Ejemplo del proceso de modelo de difusión.

Ilustración 2: Ejemplo del proceso de modelo de difusión.
Redes generativas antagónicas (GAN)
Una red generativa antagónica es una arquitectura de deep learning que entrena dos redes neuronales (un “generador” y un “discriminador”) para que “compitan” entre sí en un juego.
La red generativa creará muestras de imágenes bajo una premisa. Sin embargo, el primer intento será fallido. Y ahí es donde entra la red discriminadora.
La red discriminadora, entrenada en algo que a la IA se le da genial; que es identificar, analizará las muestras creadas por la red generativa y determinará si lo que se ha creado se ajusta a lo que se ha pedido. Citando al creador de las GAN, Ian Goodfellow:
“Si empezamos con un dataset de imágenes de perros, al comienzo la red generativa ofrecerá imágenes al azar, que parecerán ruido estático.
Al entrenarlas, el generador logra ofrecer imágenes que engañan al discriminador. Así, al principio, el generador hará bien los colores. Hará imágenes verdes y marrones, porque la mayoría de las imágenes son de perros marrones en pasto verde.
Luego el discriminador aprenderá a buscar las formas de perros, y entonces el generador deberá hacer bien las formas para engañar al discriminador. Es un proceso donde las dos redes van mejorando y aprenden de su oponente.”
Es decir, las dos redes van mejorando con el fin de engañar y ganar a la otra. La red generativa buscará formas de crear imágenes cada vez más acertadas para engañar a la discriminadora, y la discriminadora seguirá aprendiendo a cómo discernirlas de forma meticulosa para ganar a la generativa.
En caso de que la red generativa no sea capaz de ganar a la discriminadora engañándola, la imagen generada se “descartará”, notificando a la generativa cuánto se ha acercado a la referencia deseada y forzándola a generar un nuevo intento. Así, rechazo tras rechazo, la red generativa aprenderá qué es lo que busca la discriminadora; y la discriminadora la guiará según sus porcentajes de acierto. Esto es conocido como Backpropagation (método de enseñanza que utiliza la “regla de cadena”. Después de caso hacia delante, se realiza un paso hacia atrás para ajustar los parámetros del modelo y aprender).
Para terminar de entenderlo, vamos a poner otro ejemplo intuitivo. El juego que llevan las dos redes es, al fin y al cabo, el juego de “caliente y frío”. La red discriminadora es quien le dice a la red generativa cómo de “caliente” o “frío” se queda de ser ajustada a la premisa. Cuanto más cerca quede, más “caliente” queda.

Ilustración 3: Funcionamiento de la GAN
Autocodificador variacional (VAE)
Antes de explicar qué es un autocodificador variacional, vamos a ver qué es un autocodificador, a secas.
Un autocodificador es un tipo de arquitectura de red neuronal que codifica (comprime) datos de entrada para reducirlos a sus características esenciales, para luego decodificarlos (reconstruirlos) y volver al punto de partida, a partir de la representación comprimida.
Funciona, por ejemplo, como los juguetes de pelota extensible. La forma “abierta” es la información de entrada, decodificada. Y la forma “cerrada”, es la información codificada. Sin embargo, sin importar la forma, siguen siendo lo mismo en esencia.

Su función principal es descubrir las variables latentes de los datos de entrada (variables ocultas o aleatorias que informan sobre cómo se distribuyen los datos en el espacio latente). Durante el entrenamiento, el autocodificador aprende qué variables latentes se pueden usar para reconstruir el dato original con mayor precisión, representando así la información más esencial.
Entonces, ahora sí, ¿qué es un autocodificador variacional?
Pues, mientras que las arquitecturas de autocodificadores sólo codifican una única representación discreta y fija de las variables latentes, los VAE codifican una representación continua y probabilística del espacio. Esto les permite reconstruir con precisión la entrada original exacta y, además, aprovecharse de la inferencia variacional para generar nuevas muestras de datos que se parezcan a los datos originales.

La ventaja reside en eso, generar nuevos datos mediante el aprendizaje del espacio latente estructurado y continuo, pues para generar imágenes el objetivo no es únicamente comprimir datos, sino crear nuevas muestras que se parezcan a la premisa original.
Aunque las VAE suelan ser utilizadas en el contexto de generación de imágenes, han demostrado ser útiles para otras funciones, como por ejemplo la detección de anomalías o la eliminación de ruido dentro de los datos; convirtiéndose en modelos increíblemente valiosos.
Aplicaciones actuales de la IA Generativa
Hemos visto tres modelos muy útiles de IA Generativa, cada una con su proceso de funcionamiento y procesamiento de información. Pero ¿qué modelo es mejor para qué? ¿Hay un modelo mejor que otro? ¿Qué usos le puedo dar a esos modelos? Vamos a resolver todas estas preguntas.
DALL-E
Dall-E, perteneciente a OpenAI, es una IA generativa que usa modelos de difusión para crear imágenes a partir de texto.
Como hemos visto antes, los modelos de difusión se entrenan para eliminar el ruido gaussiano de imágenes borrosas; por lo que, funciona creando un ruido inicial a partir del texto que le hemos dado, que luego “difunde” para transformarlo en la imagen que queremos obtener.
Al haber sido entrenado para eliminar el ruido gaussiano de las imágenes borrosas, en el proceso de creación de nuestra imagen, Dall-E borra por sí mismo las pequeñas distorsiones que puedan generarse.
Para entender nuestro texto, Dall-E codifica y entiende el prompt escrito. Así, sabe a qué te refieres, qué estilo estás pidiendo, qué rasgos deseas…
Entonces, toma esta información para luego decodificarla y pintar la imagen partiendo del texto.
Es decir, en resumidas cuentas, primero entiende lo que le pides, luego piensa qué elementos va a utilizar y, finalmente, realiza el dibujo.
Dall-E, por lo tanto, sirve para:
- Crear ilustraciones (realistas, o no) para historias o libros
- Visualizar ideas abstractas o complejas
- Diseñar productos, interiores o espacios.
- Crear memes, gifs, contenido humorístico…
En realidad, las posibilidades de usar Dall-E son ilimitadas. Además, cada vez que le pides un dibujo, el resultado cambia, porque siempre procesa la información desde cero (incluso aunque sea la misma).
NVIDIA Canvas
NVIDIA Canvas es una IA generativa que usa GANs (redes generativas antagónicas) para crear imágenes a partir de dibujos rápidos o bocetos. Es decir, no admite como entrada texto. Apenas con que des unos brochazos, esta IA te crea un paisaje fotorrealista en un abrir y cerrar de ojos.
La inteligencia artificial de NVIDIA Canvas esta acelerada por RTX (una tarjeta gráfica de NVIDIA que permite crear gráficos fotorrealistas en tiempo real), lo que permite aún más realismo y precisión a la hora de convertir estos bocetos en paisajes verdaderos.
NVIDIA Canvas fue desarrollado mediante el entorno de deep learning “PyTorch”, de tal forma que el modelo rellena el paisaje en función de los pinceles y brochas que se usen (“cielo”, “mar”, “hierba”…)
Y, como hemos visto antes, al ser una GAN, NVIDIA Canvas se compone de dos redes neuronales: la generativa (en este caso, la que crea la imagen) y la discriminadora (la que evalúa cómo de realista es la imagen generada, y cómo se acerca a la entrada que se le ha dado).
En un caso práctico, la red generativa tomará las formas y colores básicos de la entrada (el boceto) que se le ha proporcionado, para generar el paisaje completo con todos sus detalles. Es entonces cuando entra la red discriminadora, que evalúa la calidad de la imagen y va “diciéndole” a la generadora cómo ajustar su creación para que cada vez se parezca más y más a un paisaje natural realista.
Además, como el proceso es en tiempo real (es decir, si yo sigo pintando sobre mi boceto, NVIDIA Canvas lo verá y modificará lo que yo haya cambiado), la imagen se irá mejorando de forma continua.
NVIDIA Canvas, por lo tanto, sirve para:
- Crear una previsualización rápida de paisajes atractivos para, por ejemplo, un videojuego. Esto ahorra las horas de renderizado y modelado.
- Ayudar a crear concept art por la misma razón; al dar dos pinceladas puedes obtener un paisaje bien elaborado.
- Ahorrar tiempo en la creación de fondos y escenarios.
Las GANs en NVIDIA Canvas son ideales por permitir ajustar rápidamente una imagen, a medida que la red discriminadora da feedback. La competencia entre el generador y el discriminador garantiza que la imagen sea lo más realista posible.
VQ-VAE-2
Vector Quantizied Variational Autoencoder , perteneciente a DeepMind es una IA generativa que utiliza VAEs para la generación de imágenes de alta calidad a partir de otras imágenes. Su entrada no permite texto.
El funcionamiento de VQ-VAE-2 discierne un poco de una VAE “a secas”. Utiliza una técnica llamada cuantización vectorial, que optimiza el proceso de generación al ser capaz de crear imágenes realistas a partir de datos comprimidos y representaciones simples. Funciona de la siguiente manera:
- Codificación (encoder): El dato de entrada (imagen) se comprime en un espacio latente de menor dimensión, de tal forma que la red no pierda información importante. Luego, lo cuantiza. Es decir, la red “elige” valores específicos dentro de la información codificada.
- Reconstrucción (decoder): La red Decoder toma la representación comprimida y la reconstruye, pero siempre respetando los detalles de la imagen original. La cuantización hace que se obtenga una mejor calidad y mayor realismo.
- Jerarquía: A diferencia de los VAE tradicionales, VQ-VAE-2, utiliza una arquitectura jerárquica, por lo que genera imágenes en diferentes resoluciones (de baja a alta). Cada nivel permite mejorar los detalles de la imagen para llegar a una mejor.
Todo el proceso que lleva a cabo VQ-VAE-2 lo convierte en un candidato para aplicaciones donde la velocidad en la codificación y decodificación es esencial.
VQ-VAE-2, por lo tanto, sirve para:
- Generación de imágenes de alta calidad de forma eficiente, porque la cuantización hace que no se tengan que manejar tantos parámetros, siendo más rápido.
- Generación de imágenes con capacidad de capturar patrones complejos, gracias a su arquitectura jerárquica. Las imágenes que genera (desde baja a alta calidad) permite que se puedan añadir más detalles y texturas complicadas, sin perder calidad.
- Puede generar tanto retratos como paisajes complejos, no siendo limitado a una representación única. Además, cuentan con mucha coherencia a la hora de representar (es decir, no crean figuras sin sentido).
- También es útil para restaurar imágenes, como por ejemplo fotografías antiguas, o la recuperación de detalles en imágenes de baja calidad.
¿Cuál es mejor?
Cada IA Generativa que hemos visto, utiliza un modelo distinto y, por lo tanto, consigue un resultado distinto. No creo que haya un modelo mejor que otro, simplemente creo que hay modelos más adecuados a unas tareas, que a otras.
Como hemos visto con NVIDIA Canvas, si estás trabajando en un videojuego o la creación de un libro, y no tienes ni idea de cómo hacer paisajes, es muy eficaz. Con hacer tres o cuatro líneas, obtienes un paisaje realista que puedes modificar en tiempo real.
O, por ejemplo, con Dall-E puedes conseguir lo que sea. Desde una pequeña caricatura hasta la creación de una ciudad entera, detallada. Pero si lo que buscas es velocidad a la hora de crear esta ciudad, VQ-VAE-2 te agiliza el proceso, sin perder ningún tipo de calidad. También puede ser que vayas buscando un nivel de precisión que solamente la cuantización de VQ-VAE-2 te dé.
Que una IA Generativa sea mejor que otra dependerá tanto de su uso, como de su aplicación y de cómo se quiera obtener la imagen final.
Impacto de la IA Generativa en el contexto de la imagen
En el ámbito audiovisual, especialmente el contexto de la imagen, las imágenes generadas por IA están cambiando y reformando la forma en la que las empresas gestionaban su parte audiovisual. Al fin y al cabo, la IA ofrece unos beneficios que los métodos tradicionales no pueden igualar. ¿Cuáles son estos beneficios?
Mayor calidad y variedad de las imágenes
Probablemente, una de las principales ventajas que ofrece la IA es su calidad. La IA, ahora mismo, es capaz de crear imágenes diversas y con muy buena calidad ya sea para redes sociales, páginas web o carteles impresos. Su ventaja es esa: la versatilidad, la facilidad que tienen para adaptarse a cualquier plataforma.
Ahorro de tiempo
De la mano de la calidad, encontramos la siguiente ventaja: el tiempo. Con los medios tradicionales, los encargados de marketing debían estar pensando con qué estrategia crear su imagen, qué incluir, cómo organizarlo, buscar en bibliotecas de imágenes… y, luego, realizarlo. Ahora, con la IA, el equipo de marketing puede centrarse en la estrategia y la ejecución sin importarles el tiempo, pues la IA agiliza el proceso y lo realiza en cuestión de segundos.
Relación coste-eficacia
Como es evidente, los proveedores tradicionales de imágenes, ilustradores, y demás equipo que forma parte de marketing; suelen cobrar por imagen o exigen suscripciones (por lo general caras). Sin embargo, la IA genera imágenes libres de derecho, permitiendo a las empresas utilizar imágenes de alta calidad sin tener que preocuparse por pagar. Esto es un gran beneficio para aquellas empresas que, por ejemplo, necesitan muchas imágenes para muchos proyectos y campañas.
Consecuencias para los creadores de contenido
Si bien esto para las empresas está genial, ¿qué sucede con el proveedor de imagen tradicional?
Hemos visto que la IA es increíble; capaz de crear imágenes muy realistas, en poco tiempo, de forma sostenible y con una personalización ajustada. Sin embargo, la IA no ha superado a los productores audiovisuales humanos.
La creatividad implica la interpretación de sentimientos, emociones, experiencias… es algo innato por parte del ser humano. Sin embargo, la IA no puede replicarlo por completo, por mucho que aprenda a ser humano. Por lo que, aunque la IA sea muy eficiente, los productores audiovisuales son capaces de verter su propia visión única y esencia, muy difícil de incluir en un algoritmo.
Por esa misma razón, no creo que los productores vayan a ser sustituidos por la IA. De hecho, creo que la mejor opción sería empezar a realizar colaboraciones “hombre-máquina”.
La IA es capaz de agilizar procesos que pueden llevar mucho tiempo usando métodos tradicionales. Por lo que, si los productores utilizan la IA como una herramienta para ahorrar tiempo y poder dedicarse a otras producciones creativas más significativas, siempre y cuando nunca se olvide el conocimiento y orientación humanos; podría suponer una gran evolución positiva para el mundo de la comunicación audiovisual.
De esta manera, la aparición de la IA Generativa no debería suponer la desaparición de ciertos puestos de trabajo, sino la evolución de éstos; adoptando nuevos roles. Los productores audiovisuales deben adaptarse, aprender a utilizar la IA a su favor, y utilizarla para mejorar.
Deepfake
Al igual que hay ventajas sobre la IA Generativa, también hay desventajas. Las Deepfake son creaciones audiovisuales por parte de la IA que imitan a una persona con tanta precisión que pueden ser tratados como sucesos reales. Son capaces de engañar a las personas como, incluso, a los algoritmos.
Esta tecnología suele usarse con fines negativos, como engañar al público al difundir información falsa o propaganda. En 2023, salieron imágenes falsas del arresto del presidente Trump. Aparentemente la imagen era real pero, si mirabas con atención, era fácil ver que le faltaban dedos.
Los Deepfake usan el modelo de las GAN que hemos visto antes, de tal forma que se consigue un contenido tan convincente que el discriminador ya no puede identificarlo como falso. El juego se acaba, y la red generativa gana.
Al principio se necesitaba una gran cantidad de datos para generarlos, por ello las celebridades eran los principales protagonistas de las Deepfake. Sin embargo, ahora se pueden crear a partir de una sola imagen, independientemente de la calidad.
Los Deepfake no solo son utilizados para engañar al público. Un estudio de 2019 reveló que la gran mayoría (cerca del 90%) de las creaciones falsas eran pornográficas, afectando a mujeres en su mayoría. También se han usado para amenazar a víctimas o explotar a menores. Es por ello por lo que la ley de Inteligencia Artificial es de vital importancia, con el auge de tal herramienta. Usada con buena fe, es muy útil y eficiente. Pero, en las manos equivocadas, su uso puede conllevar graves consecuencias.
Últimas consideraciones
Como hemos visto desde el comienzo de esta entrada de blog, la IA Generativa en el contexto de la imagen está transformando el ámbito de la comunicación audiovisual.
Los modelos en los que hemos profundizado permiten reducir los costos y el tiempo de producción, así como amplían las posibilidades creativas. Sin embargo, no debemos olvidarnos de la ética que engloba a todo el mundo de la inteligencia artificial. El uso indebido de la tecnología puede tener graves consecuencias como la desinformación, violación de derechos de autor…
Siempre y cuando la IA se use como una herramienta que complemente la creatividad, no es una amenaza. Mantengo mi opinión sobre que los profesionales de la producción audiovisual deben aprender a integrarla en sus proyectos, para que su uso potencie su proceso creativo y sus creaciones, valga la redundancia. Al fin y al cabo, la IA jamás reemplazará la visión humana.
Esta evolución de la IA Generativa apenas ha comenzado. Ofrecerá enormes beneficios en el futuro, probablemente mayores de los que ya ofrece. Sin embargo, la clave residirá en su regulación y el uso ético que se le dé, para garantizar que su impacto sea positivo.
Añadir comentario
Comentarios