I.A en el audio

Publicado el 1 de mayo de 2025, 12:13

I.A en el audio. 

Al igual que el resto de las aptitudes audiovisuales (vídeo e imagen), el apartado sonoro se ha estado viendo afectado por estas tecnologías desde el principio, siendo una de las principales razones para sus avances.

Esto lo podemos observar desde hechos como la evolución de las redes P2P (Peer to peer) en los años 90’; “un conjunto de reglas e interacciones que permiten conectar a los clientes de estas redes” (Lloret Mauri J. Granados Tenorio, M.A. Borat Seguí, F.), en otras palabras, “es un tipo de red o modelo de comunicación donde los participantes (peers) se conectan directamente entre sí, sin necesidad de un servidor central” (Ed. IONOS. 2023). Seguidas de la distribución digital, y posteriormente de la aplicación de la Inteligencia Artificial a través de plataformas de streaming, como Spotify o Deezer, con sus sistemas de recomendaciones basados en los gustos de sus clientes, o mismamente la APP Shazam, con su sistema de reconocimiento de canciones.

Hoy en día, su principal fuerza de evolución es la I.A generativa, la cual ha golpeado a la industria musical con gran fuerza, especialmente en la cuestión de la propiedad intelectual, obligándonos a tener que trazar nuevos límites y reglas para poder clasificar los trabajos de las personas. Asimismo, es un terreno bastante polémico que está generando un gran debate tanto, entre los profesionales, como en los consumidores. No obstante, ese es un factor que desarrollaremos más adelante, ahora mismo me gustaría centrarme en el funcionamiento de estas nuevas tecnologías, así como sus aplicaciones y las nuevas herramientas de creación musical que están surgiendo con ellas.

La I.A esta evolucionando a una gran velocidad, y parte de ello se debe al uso que algunos artistas, o simplemente aficionados, le están dando a la I.A generativa, es decir, aquella que les permite la creación de piezas musicales de forma automatizada, lo que permite a personas sin conocimiento musical crear obras, que de cualquier otra forma les podría resultar “imposible”. Además, muchos están empleando estas tecnologías para generar interpretaciones, como las diversas versiones de canciones cantadas por personajes ficticios; como Homer Simpson cantando

¿Cómo logran crear estas interpretaciones? ¿Qué herramientas emplean?

Con una búsqueda rápida en cualquier navegador podrás descubrir varias aplicaciones o programas que te permitirán crear audios con las voces de tus personajes favoritos. Entre ellas encontramos Replay A.I, Applio, Speechify, o incluso las propias herramientas de edición de vídeo, como CupCut, tienen una opción que te permite hacerlo.

Ahora bien, como logran la I.A generar estos contenidos usando la voz de otras personas, pues realmente el proceso es el mismo por el que otros sistemas de I.A “aprenden”, por modelos de Deep Learning.  Antes de poder clonar la voz de personajes, se ha tenido que desarrollar (y sigue en desarrollándose) la generación de voz por I.A, cuyo funcionamiento se basa en la integración de modelos de I.A, como el PLN (procesamiento de lenguaje natural), con el que consiguen hacer que el sistema comprenda la estructura y el significado de los textos que escribimos, permitiendo la generación de discursos coherentes y naturales. Este modelo también lo siguen los softwares de tipo chat conversacional, como ChatGPT. Asimismo, emplean el aprendizaje profundo (Deep learning) y las redes neuronales, y explicadas con anterioridad.

Estas tecnologías le permiten a los programas aprender de una gran variedad de datos, de los cuales logran analizar textos con los que luego generan un discurso que busca imitar la entonación y el ritmo humano a la hora de hablar.

  • Las herramientas como IBM Watson Text-to-Speech, son algunos de los ejemplos que podemos encontrar.

Con el tiempo se ha podido comenzar a imitar emociones, como la felicidad o la tristeza, para darle un mayor realismo y “humanidad” al discurso generado, conocimientos que se han aplicado a las herramientas encargadas de clonar voces.

Para poder clonar la voz de alguien, incluso la nuestra, tendremos que “enseñarle” a la I.A cómo sonamos, cuál es nuestra entonación, timbre, tono y ritmo al hablar. A partir de esa recogida de datos, que no constará de unas pocas palabras o construcciones gramaticales, deberemos acompañar a la I.A en su proceso de aprendizaje hasta obtener el resultado deseado. En el caso de voces de personajes ficticios o personajes público, la recogida de datos es muchísimo más sencilla, permitiéndonos hacer cosas como los ejemplos de Homer cantando.

Aunque esto en un principio parezca una actividad que resulte fácil en un primer momento, a la hora de generar estas voces nos encontramos ante una encrucijada, pues ¿qué sucede con los problemas de privacidad o de propiedad intelectual?

Para empezar, con el fin de enseñarle a la IA el cómo generar voces, deberemos enseñarla mediante la aportación de grandes cantidades de datos, es decir, de muchas voces, lo que genera un gran problema ético y podría incluso considerarse ilegal, pues la recogida de datos no siempre se realiza de forma legal obteniendo todos los permisos, por lo que nos enfrentaríamos a problemas legislativos.

La generación de voz por I.A, especialmente la de clonación de voz, se ha llegado a emplear para cometer delitos, como clonar voces para cometer fraude, provocando un estado de alerta entre las autoridades, provocando la necesidad de constituir reglas y leyes más estrictas con respecto a estas herramientas.

Aunque este problema parezca afectar simplemente a personajes públicos, las personas comunes también ven su privacidad violada por estas tecnologías, pues su voz podría clonarse sin su consentimiento con malos fines. Estos generadores son un riesgo para la privacidad y seguridad de los datos, ya sea por casos de clonaciones de voz con el fin de estafar, como fue el caso de una madre que juraba que era la voz de su hija la que había escuchado en una llamada de rescate con la que pretendieron estafarla, o, mismamente, casos como los del TikToker @Ghostwriter977, quien genero una canción, titulada Heart On My Sleeve, empleando las voces de Drake y The Weekend, canción que recibió gran apoyo en redes y que se podía encontrar en plataformas como Spotify o Apple. Esto le llevo a tener problemas legales con Universal Music Gruop, discografía de los artistas. Aunque este problema, aparte de violar los derechos de protección de datos, también se enfrentaba a problemas de propiedad intelectual.


La IAG en la industria musical

Aunque no es demasiado popular actualmente, el uso de herramientas de inteligencia artificial para la creación de composiciones musicales está avanzando a gran velocidad. Esta tecnología es posible usarla a lo largo de todo el proceso creativo de los artistas, y aunque este puede variar dependiendo de la persona, podríamos definirlo en una serie de siete niveles o pasos, empezando por la búsqueda de inspiración, hasta la fase final de publicación.

El uso de IA es más claro en pasos como la composición de la letra, con técnicas como la generación de texto, en el que, a raíz de su funcionalidad de aprendizaje automático, estas herramientas pueden combinar frases y estructuras que han estudiado para crear canciones originales a través de prompts o de la descripción que el usuario le haya ofrecido. Con solo exponerle el género que se busca, la temática, la estructura e incluso los sentimientos que se buscan evocar, podremos generar letras originales y únicas en las que se combinan frases y versos de forma coherente y con un aspecto natural. Cualquier Chatbot podría realizar esto, mas hay que advertir que en muchas ocasiones a la IA le costará superar las creaciones hechas por personas, pues, aunque se exponga una descripción detallada, al no ser capaces de procesar sentimientos y no haber tenido experiencias, las letras de la IA pueden carecer de ese “factor humano” que, al fin de cuentas, hace que nosotros como consumidores nos sintamos atraídos a una canción u otra.

En cuanto a la composición musical, ya hay a nuestra disposición una gran variedad de herramientas que nos ayudan a poder componer bases para nuestras canciones o crear instrumentales. La IAG, será capaz de hacer esto gracias a unos algoritmos que le permiten combinar y manipular elementos musicales a raíz de lo aprendido durante su entrenamiento. De nuevo, cualquier Chatbot será capaz de generar composiciones.

En cuanto a la producción musical, la IA supondrá una gran ventaja, pues muchas de estas herramientas permitirán automatizar los procesos de grabación y edición, así como detectar y corregir los problemas de sonido como el ruido y la distorsión, ayudando al productor a obtener un sonido más equilibrado y profesional, ampliando a su vez el acceso a la creación musical. 

Algunas de las herramientas más usadas y reconocidas dentro de la industria son; IBM Watson Beat, Amper Music, Magenta o Flow Machines.

He querido poner a prueba los dos primeros pasos, y este es el resultado:

Letra (ChatGPT):

"Rewind (Al Revés)"

[Verso 1]
Ya no hay palabras, solo un último adiós
Dos maletas llenas, y un corazón sin voz
Nos miramos sin saber qué decir
Y en el aire flota el "para siempre" que ya no va a existir

[Estribillo]
Duele más volver atrás
Cuando sabes que no hay más
Cada risa, cada plan
Se deshace en el umbral
Si pudiera rebobinar
Y quedarme donde estás
Tal vez no, tal vez sí...
Pero al menos lo intenté por ti

[Verso 2]
Tantos silencios que nos fueron hiriendo
Promesas rotas que el tiempo fue venciendo
Dormíamos lejos aunque estuviéramos cerca
Y el amor se volvió rutina, sin alerta

[Estribillo]
Duele más volver atrás
Cuando sabes que no hay más
Cada risa, cada plan
Se deshace en el umbral
Si pudiera rebobinar
Y quedarme donde estás
Tal vez no, tal vez sí...
Pero al menos lo intenté por ti

[Puente]
Fue una noche, una pelea sin razón
Y lo que callamos pesó más que el perdón
No supimos soltar ni aferrarnos bien
Y el “te amo” quedó solo en papel

[Verso 3]
Recuerdo el primer café, tus nervios, tu risa
Tus manos temblando al rozar las mías
El mundo era nuevo si tú estabas ahí
Y juro que ese día fui realmente feliz

[Final / Outro]
Ahora entiendo que el amor no siempre basta
Que a veces se ama mejor con distancia
Pero si pudiera volver a empezar...
Te volvería a amar, aunque fuera al final

 

El resultado ha sido bastante satisfactorio, pues ha tenido en cuenta todos los detalles que le he pedido.

En cuanto a la composición musical, su solución ha sido la siguiente. La menor (Am)

Verso 1, Acordes:
Am – F – C – G
(Piano arpegiado muy suave)

Estribillo, Acordes:
F – G – C – Am
F – G – Am
(Se suman batería lenta, bajo muy suave y guitarra limpia con delay)

Verso 2, Acordes:
Am – F – C – G
(Igual al primer verso, pero con un poco más de intensidad en la voz y el piano)

Estribillo (repetición):

(Misma progresión pero ahora puedes meter más fuerza en la batería, platillos abiertos)

Puente, Acordes:
Dm – G – C – Am
Dm – E7 – Am
(La intensidad sube, batería más presente, guitarras con distorsión leve)

Verso 3, Acordes:
Am – F – C – G
(Se baja la intensidad, voz mucho más emotiva)

Final / Outro, Acordes:
Am – F – C – G – Am
(Solo piano y guitarra acústica, cerrando en Am)


Otro caso que podríamos poner de ejemplo es el conocido como Operación Temazos, una serie que lleva realizando desde hace tres años el creador de contenido Illojuan, en la que pide a sus seguidores crear canciones a partir del programa SUNO, herramienta que permite al usuario generar canciones realistas mediante la combinación de voces e instrumentos. Aunque el contenido de estas canciones es algo vulgar, por la letra que busca ser cómica, las canciones que son generadas cuentan con bases instrumentales elaboradas y voces de artistas con un gran alcance vocal.

Otro tema que merece la pena mencionar es el proyecto AIPM (Artificial Inteligence popular music), un proyecto de investigación desarrollado en los laboratorios de Sony CSL, que consiste en un sistema de IA que aprende estilos musicales. Y los combina con el objetivo de generar nuevas melodías. Este software se conoce como Flow Machine, y se presenta como una herramienta interactiva para la creación de música asistida por IA.

En 2016 salieron a la luz sus dos primeras canciones generadas completamente por IA, Daddy’s Car y Mr. Shadow. Actualmente podemos encontrar varias de sus canciones en plataformas como Spotify.

Para la creación de la primera canción mencionada, es obra de Benoit Carré (alias SKYGGE) y François Pachet, en el que se entrenó la base de datos con canciones de los Beattles, dejando la composición a cargo de la IA, y los arreglos musicales a los artistas. Para la segunda se hizo algo similar, pero esta vez fue entrenada con estilos musicales de Irving Berlin, Duke Ellignton, George Gershwin y Cole Porter, dejando los arreglos musicales para el ser humano.


Estos proyectos acabaron con la publicación del álbum Hello Word de 2018, primer álbum realizado con IA. https://open.spotify.com/intl-es/album/0cGWC9bhEJA4l7jAaV7cqR?si=cS5dL84hSTy55DKF_OONtw

Según estos compositores, Flow Machine es el resultado de la aplicación del modelo de Márkov (Un modelo de Markov es un marco matemático utilizado para modelar sistemas que pasan de un estado a otro, donde la probabilidad de cada transición depende únicamente del estado actual y no de la secuencia de eventos que lo precedieron) (Learn Statistics Easily, 2024).

En otras palabras, es un modelo que identifica patrones que le permiten simular y realizar variaciones que se traducen en versátiles composiciones. Melissa Avdeeff señala que la aplicación sirve a tres propósitos: la generación automática de lead sheets, la inferencia armónica basada en los acordes de una melodía y la composición interactiva (Avdeeff 2019).

En conclusión, la industria musical se está viendo sacudida en gran medida por las implementaciones de estas herramientas para la generación de contenidos, y a pesar de parecer algo relativamente nuevo, el mercado lleva años empleando estas herramientas, haciendo que cada vez evolucionen y avancen a más velocidad. Otra cuestión que “preocupa”, o tiene un carácter importante, es que todas estas herramientas están siendo expuestas al alcance del público, además de que no requieren de un conocimiento teórico y técnico de su funcionamiento para poder usarlas, lo que a su vez provoca que la IA se entrene con mucha más variedad de contenidos, y comience a desarrollar contenidos de mejor calidad.  

Conclusión 

En este apartado del blog hemos hecho un recorrido por varias industrias que se ven afectadas por la IAG, concretamente en el apartado del audio, así como hemos indagado sobre su funcionamiento y el que supone para estas industrias la aplicación de estos nuevos modelos. Bien es verdad, que es una herramienta que todavía se está explotando y experimentando con ella, pero que ya nos deja con ciertas incertidumbres sobre la evolución de las industrias, y la forma en la que las leyes de PI y protección de datos personales se van a ver moldeadas y afectadas por ellas. Asimismo, hemos dado una vuelta por algunos de los debates que surgen con la integración de la IAG, aunque si tengo que dar mi opinión respecto a la IA en ámbitos creativos, he de defender que aquellos contenidos “artísticos” generados por estas herramientas, no pueden considerarse arte, pues parte de lo que supone ese concepto es el esfuerzo y la búsqueda de representar vivencias y sentimientos propios en palabras, expresiones artísticas como la pintura o la escultura, o en notas musicales, con el fin de que el espectador sea capaz de sentirse identificado y de hacer suyos esos sentimientos, cuestión que la IA no es capaz de alcanzar por su falta de humanidad, y aunque para poder generar dichos contenidos requiera de la participación activa de un persona (describiendo lo que se pide y supervisando los resultados obtenidos), no creo que lo que se pueda generar tenga tanto impacto, como lo que pueda crear una persona, mas debo admitir que estas tecnologías avanzan a una velocidad aterradora y no puedo prever como puedan evolucionar en este aspecto.

También hemos expuesto varios casos prácticos de situaciones en las que se han puesto en práctica estos modelos, como las covers hechas por Homer Simpson o la generación de una canción empleando las voces de dos artistas reconocidos. Además, hemos puesto en práctica lo que se menciona en algunos blogs respecto a la generación de canciones en modelo de IA conversacionales, como ChatGPT, dejándonos un resultado bastante satisfactorio y escalofriante, teniendo en cuento lo expuesto antes.

En definitiva, la IAG es una nueva realidad a la que tendremos que adaptarnos, tanto como consumidores, como creadores.


Añadir comentario

Comentarios

Todavía no hay comentarios