Como periodista, politólogo y consultor de comunicación que aborda diversos temas culturales y de actualidad, la profesora de 1º de bachillerato a cargo de la asignatura de Filosofía del instituto de mi hija me invitó a que hiciera una breve introducción en su clase acerca del libro Amor líquido (Paidós Ibérica, 2018) de Zygmunt Bauman, que sus alumnos habían leído. La idea era que mi introducción sirviera como punto de partida para debatir los conceptos propuestos por el sociólogo polaco, y que luego los estudiantes redactaran en casa un comentario sobre el texto y la discusión en el aula.

Desafortunadamente, el día de la cita con la clase de Filosofía amanecí enfermo, lo que me impedía asistir personalmente al centro para dirigir la discusión. Así que propuse a la profesora enviarle un vídeo para que ella lo proyectara y luego moderara el debate con el alumnado en mi lugar. Sin embargo, esa mañana me encontraba realmente indispuesto como para producir el vídeo prometido en condiciones.

La clase comenzaba en un par de horas y, o me ponía a resolver el asunto a toda prisa o la profesora se vería obligada a improvisar.

Sin tiempo para redactar un guion efectivo de menos de cuatrocientas palabras para que el vídeo se ajustara a la duración requerida (dos minutos), y con mi vecino haciendo un ruido insoportable a causa de obras de remodelación en su vivienda impidiendo cualquier tipo de grabación, ¿qué podía hacer?

Inteligencia Artificial al rescate

El guion:

Lo primero fue crear una cuenta en ChatGPT, la plataforma estadounidense de Inteligencia Artificial (IA) que está causando controversia en todo el mundo por su capacidad de producir todo tipo de textos, académicos incluidos, y formular la cuestión: «Explain Zygmunt Bauman's concept of “Liquid Love”» («Explica el concepto de “Amor líquido” de Zygmunt Bauman»).

A los pocos segundos obtuve una respuesta, pero ésta no me convenció del todo. Así que pinché en el botón de «regenerar» para que la aplicación sugiriese un texto alternativo. La segunda versión me pareció más apta para mi público adolescente, por lo que, tomando algunas frases de la anterior propuesta de ChatGPT y reordenando un par de párrafos quedé satisfecho con el resultado.

La traducción:

Acto seguido, tocaba traducir el texto de ChatGPT al español. Aunque soy perfectamente bilingüe inglés-español, no tenía cabeza ni tiempo para hacerlo. Se me ocurrió entonces acudir al motor de DeepL para que éste realizara la traducción. Apenas y le hice unas pocas correcciones a la versión en español generada por DeepL y la guardé.

La producción del vídeo:

El paso siguiente consistía en montar el vídeo. Sin tiempo ni ánimo para salir a buscar un sitio lo suficientemente silencioso para situarme delante de una cámara y leer el resumen de ChatGPT traducido por DeepL sobre las ideas de Bauman, accedí a D-ID, AI Face Technology, una plataforma que utiliza una fotografía proporcionada por el usuario para animarla y convertirla en vídeo (alternativamente, D-ID también permite elegir un personaje de su banco de «presentadores virtuales»).

Decidí utilizar la imagen que figura en los perfiles de mis cuentas en redes sociales. No encontré la fotografía original en alta resolución que hubiese hecho la animación de ésta más natural y nítida, pero el tiempo apremiaba, por lo que tomé la que tengo en mi cuenta de Twitter, que además es de medio cuerpo como requería D-ID.

El audio:

Tras subir la foto, pegué el texto de ChatGPT en un campo contiguo para que «Álvaro» «hablara» por mí. Y es que, aunque D-ID ofrece la opción de subir un archivo de audio para montar el vídeo, como antes comentaba, las obras de remodelación en la vivienda de mi vecino imposibilitaban grabar mi voz sin ruido de fondo. Así que opté por emplear la de «Álvaro», una de las voces pregrabadas de la colección ofertada por D-ID para dar sonido a mi fotografía animada.

El resultado:

Menos de cinco minutos tardó D-ID en procesar la imagen y el sonido para producir el vídeo. Este es el resultado:

¿Resulta artificial? Sí, porque lo es, y entre otras cosas porque utilicé una fotografía de baja resolución, así como las versiones de prueba (gratuitas) de las tecnologías citadas (las de pago me hubiesen permitido optimizar el vídeo con mejores herramientas de edición). Y es cierto que además de la falta de fluidez y naturalidad en las secuencias generadas a partir de la fotografía a la que D-ID «dio vida», el audio presenta momentos de dicción atropellada.

Las herramientas avanzadas de Resemble AI, otra plataforma que más tarde probé, permiten editar el audio de manera granular, desde modular el tono y la cadencia hasta alterar el estado de ánimo proyectado por la voz. Pero cuando la métrica para valorar el éxito de este experimento era producir un vídeo explicativo sobre las tesis de un sociólogo a un grupo de adolescentes de manera eficaz y en tiempo récord (todo el proceso me llevó menos de una hora y sin coste alguno), creo que podemos declarar «misión cumplida»: los estudiantes contarían con mi vídeo de dos minutos en tiempo y forma para emprender el debate académico.

Difusión en otros idiomas:

Soy canario y pese a que escucharme hablar con acento peninsular y con un tono de voz ajeno me resultaba simpático, esto restaba credibilidad al ejercicio. Así que repetí el experimento con la misma fotografía, sólo que esta vez utilicé Resemble AI para que en el vídeo se escuchara mi voz. Bueno, no exactamente.

Resemble AI toma muestras de voz (veinticinco enunciados cortos que tuve que leer con el objetivo de que su sistema de IA «escuchara y aprendiera» mi voz) para luego sintetizar dichas muestras y a partir de ahí reproducir cualquier texto que yo le proporcione en el futuro ya con «mi propia voz».

La versión de uso gratuito de Resemble AI sólo está disponible en inglés, así que el siguiente vídeo que elaboré con esta tecnología es el resultado de mi voz sintetizada en dicho idioma. Es decir, aporté el texto que ChatGPT generó en inglés y Resemble AI se encargó de reproducirlo con mi voz aprendida en ese idioma. Luego volví a D-ID para subir el archivo de audio y que esa plataforma animara mi fotografía nuevamente, pero esta vez incorporando mi voz en lugar de la de «Álvaro». No obstante, el idioma tampoco es problema, pues la inteligencia artificial de YouTube/LinkedIn y otras redes sociales se encarga de generar subtítulos de manera automática. Aquí otra ventaja: estas tecnologías permiten difundir contenidos audiovisuales en varios idiomas para llegar a un público internacional. Y es previsible que pronto estas tecnologías también serán capaces de realizar traducciones simultáneas de voz.

El debate sobre el impacto de la inteligencia artificial en diversos planos de nuestras vidas lleva tiempo servido, y en los últimos meses se ha animado con la irrupción de ChatGPT y su libre acceso a personas de cualquier edad. Desde cuestiones éticas hasta sus efectos pedagógicos dada la interacción de los más jóvenes con ella, los avances tecnológicos en IA de los que hoy estamos siendo testigos nos obligan a reflexionar, tal y como ocurre en otros campos como la ingeniería genética. En cualquier caso, estos asombrosos avances son imparables y sacarles el mejor provecho es nuestra responsabilidad.

Tampoco debemos obviar que para que este experimento tuviese sentido en primer lugar fue necesario que un brillante sociólogo tuviera la inteligencia, esta sí sólida, para hacernos debatir sobre las interacciones más importantes en nuestra sociedad: las humanas. Eso aún no lo consigue la inteligencia artificial líquida que hoy tenemos a nuestro alcance.