Los modelos de inteligencia artificial generativa ahora ocupan el centro de la escena. En tal contexto, se habla mucho acerca de los desarrollos más reconocidos —entre ellos los de OpenAI y Google— y de otros emergentes. Ahora bien, los vínculos entre ChatGPT y el humor no se abordaron extensamente. Hasta ahora.
Investigadores de la Universidad del Sur de California (USC), en Estados Unidos, decidieron examinar si el modelo de IA generativa más famoso es capaz de hacernos reír. Las conclusiones del estudio sorprenden. Los científicos encontraron que, en ciertos contextos, aquella entidad sintética es “tanto o más graciosa que los humanos”.
“En nuestro estudio sobre ChatGPT y el humor, los participantes humanos calificaron bromas humanas y otras producidas por la IA, sin ser conscientes de su fuente”, explican los investigadores. “Los chistes del modelo de OpenAI fueron calificados como igual o más divertidos que los producidos por humanos”, aseguran.
ChatGPT y el humor: ¿cómo se realizó el estudio?
Si bien ya existían estudios que examinaron las capacidades de los modelos de IA para generar textos cómicos, los investigadores de la UCS, Drew Gorenz y Norbert Schwarz, decidieron ir más a fondo. Para ello, compararon las producciones del chatbot de OpenAI con la gracia de humanos, incluyendo la de escritores de revistas de humor.
Los científicos realizaron dos pruebas. En la primera, solicitaron a un grupo de personas adultas que generen textos cómicos. Para ello, pidieron que se usen acrónimos y respondan preguntas, que sirvieron como disparadores para bromas. Por ejemplo, “¿qué logro extraordinario probablemente no incluirías en tu currículo laboral?”. En esta revisión sobre ChatGPT y el humor, también invitaron a los participantes a elaborar una opinión sincera sobre cómo canta un amigo, que por cierto lo hace con muchas desafinaciones. “Para ser honesto, oírte cantar fue como…”, es la frase con la que debían comenzar el veredicto, siempre con un ánimo de humorismo.
Luego, pidieron a ChatGPT —en su versión 3.5— que realice esas mismas tareas. Finalmente, otros participantes evaluaron los resultados, otorgando puntajes según la gracia de las frases generadas tanto por los humanos como por el modelo de IA y sin conocer las fuentes en cada caso. La conclusión: las bromas sintéticas resultaron más cómicas. Casi el 70 % las prefirió, frente al 26,5 % que eligió los chistes humanos. Cerca del 4 % consideró igual de graciosos a los contendientes en esta batalla humorística.
La segunda prueba: escribir titulares para una revista cómica
La compatibilidad entre ChatGPT y el humor se confirmó, en el estudio de la USC, con un segundo experimento. Para el mismo, los investigadores pidieron tanto a humamos como al modelo de IA que escriban titulares con el estilo de The Onion, una publicación humorística de Estados Unidos reconocida por su tono satírico.
En este caso, los resultados fueron juzgados por estudiantes de psicología y no hubo grandes ventajas. Cerca del 49 % consideró más graciosos a los títulos originales de The Onion. Y el 37 % opinó que los generados por ChatGPT eran más cómicos.
“Que ChatGPT pueda generar humor escrito con una calidad que supera las capacidades de los aficionados, e iguala las de algunos escritores profesionales de comedia, tiene repercusiones importantes para los amantes del género. También para los trabajadores de la industria del entretenimiento”, dijeron los investigadores. “Para los escritores profesionales de comedia, nuestros resultados sugieren que los modelos de lenguaje masivo (LLM) serán una seria amenaza para su empleo”, añadieron.
Entrevista exclusiva al autor del estudio: “Es importante evaluar las habilidades de ChatGPT para bromear”, dice Drew Gorenz
¿Cómo surgió la idea de estudiar los vínculos entre ChatGPT y el humor?
Recuerdo que estaba escuchando un episodio de podcast de Ezra Klein y que él estaba hablando con un invitado sobre IA. Ezra opinaba que la razón por la que los LLM no habían alterado la industria del periodismo tanto como la gente predijo, era por su tendencia a alucinar. En una industria donde la precisión es muy importante, esta es una enorme barrera para utilizarlos.
Entonces pensé qué pasa con el entretenimiento? En ese ámbito, la gente se preocupa menos por cuestiones de exactitud. En cambio, están más interesados en la pregunta: ¿es esto entretenido? Y en la comedia, ¿es esto gracioso? Si los modelos de IA son lo suficientemente divertidos, puede que a la mayoría de las personas no les importe si inventan cosas. Fue entonces cuando decidí que quería saber qué tan graciosos son.
¿Por qué han utilizado la versión ChatGPT 3.5 para este estudio, considerando las ventajas que ahora ofrece GPT 4o?
Ocurre que realizamos nuestro estudio el año pasado, antes del lanzamiento de GPT-4o. La versión anterior de pago de GPT-4 ya estaba disponible. Pero primero quería ver qué tan buena era la versión gratuita (GPT 3.5), ya que es más accesible para todos.
En vuestro examen sobre ChatGPT y el humor, ¿han realizado pruebas similares con otros chatbots, tal vez con Gemini o Claude de Anthropic?
Nos hemos enfocado en el modelo de OpenAI. Sí he jugado con los otros chatbots. Me gusta mucho Claude 3.5 en este momento. Todavía tengo que probar experimentalmente estos modelos entre sí y evaluar los comentarios de la gente, pero me gustaría hacerlo en el futuro.
La metodología del estudio es interesante. ¿Cómo tuvieron la idea de pedirle al chatbot que redacte titulares con el estilo de The Onion?
En el primer estudio, probamos qué tan divertido era ChatGPT-3.5 en comparación con la gente “normal”. En ese caso, superó a los humanos en varias pruebas de rendimiento humorístico. A continuación, quería subir el listón y encontrar una manera de probar un LLM con escritores de comedia profesionales. The Onion es una organización de noticias satíricas de gran éxito en Estados Unidos y, personalmente, una de mis favoritas.
En una época en la que la comedia más exitosa se basa en imágenes, audio o video, esa publicación todavía produce algunos de los mejores chistes de solo texto en forma de titulares de noticias satíricos. Dado que ChatGPT solo podía producir chistes de texto, The Onion se convirtió en una gran fuente de comparación.
Tras la lectura de vuestro estudio, nosotros mismos revisamos la relación entre ChatGPT y el humor. En nuestras pruebas —pedimos al chatbot que cuente chistes— las bromas son aburridas, demasiado infantiles. ¿Esto puede deberse a que los desarrolladores, OpenAI en este caso, prefieren no meterse en problemas con chistes un poco más “picantes”?
Bueno, ten en cuenta esto. Si bien muchos buenos chistes pueden ser considerados ofensivos por algunos, e inofensivos por otros, no creo que los chistes tengan que ser ofensivos o “picantes” para ser divertidos. Hay muchos cómics “clean” que han tenido un gran éxito profesional. Dicho esto, hay muchas razones por las que es posible que uno no aprecie los chistes de LLM fuera de las barreras establecidas para moderar su contenido.
¿Cuáles son esas variables?
Por un lado, al estudiar a ChatGPT y el humor, aparece lo siguiente. La escritura es solo un componente de la producción de la comedia. El otro componente es la entrega o el soporte. La gente tiende a calificar los chistes que solo contienen texto como menos divertidos que aquellos que involucran imágenes y texto o elementos audiovisuales. Dado que estos modelos no crean humor basado en imágenes, audio o video, solo deberíamos compararlo con otras comedias basadas en texto, no con videos o memes, por ejemplo.
Dicho esto, los LLM incorporan cada vez más imágenes, audio y vídeo a medida que surgen nuevos modelos con mayor potencia informática y datos de formación. Y se podrían combinar las capacidades de redacción de humor de un modelo de IA con las capacidades de producción de imágenes, audio o vídeo de otro para contar los chistes.
Anteriormente mencionabas un segundo factor para analizar los vínculos entre ChatGPT y el humor. También para comprender por qué sus chistes en ocasiones resultan demasiado livianos…
Claro. La otra parte clave es la incitación. Al igual que la inteligencia artificial, la mayoría de las personas, incluidos los comediantes, no actuarían bien si se les pidiera en el acto que “digan algo gracioso”. Mucha comedia es contextual. Cuando evaluamos las habilidades de producción de humor de las personas, les dimos un contexto y limitaciones en nuestras indicaciones. Es decir, «un logro notable que probablemente no incluirías en tu currículo”), así como ejemplos de buenas respuestas.
Advertimos que los LLM pueden producir chistes de menor calidad en respuesta a indicaciones más ambiguas que carecen de ejemplos, limitaciones o contexto social. Por ejemplo, otro grupo de investigadores (Jentzsch y Kersting, 2023) le dieron a ChatGPT este mensaje: «¿Puedes contarme un chiste, por favor?», solamente con variaciones sutiles en la redacción. Por ejemplo, “me encantaría escuchar un chiste”, repitiéndolo miles de veces. Como era de esperar, el chatbot devolvió muchas bromas redundantes de mala calidad en respuesta a estas indicaciones genéricas. La conclusión fue que ChatGPT «es divertido, pero no tanto».
¿Por qué es importante evaluar la capacidad de humor de estos sistemas sintéticos? ¿Crees que es relevante, para los LLM, alcanzar la capacidad de imitar a los humanos, también en ese aspecto?
Muchos investigadores han documentado el conocimiento y las capacidades de razonamiento analítico de los sistemas de IA emergentes. Pocos han estudiado sus habilidades más creativas. Pensamos que era igualmente importante documentar su posición creativa en la producción de humor. Comprender sus habilidades creativas nos ayuda a prepararnos para futuras disrupciones de la industria. También nos enseña sobre la producción de humor.
Dado que los LLM no pueden sentir emociones, no experimentan la sensación de apreciar un buen chiste. Sin embargo, ellos mismos pueden hacer un buen chiste. Esto nos dice que las emociones no son una parte necesaria para producir una buena comedia. Otros componentes, como el reconocimiento de patrones, pueden ser más importantes.
A fin de cuentas, ¿en qué se diferencia ChatGPT a la hora bromear, en comparación con la búsqueda de chistes en Google? Más allá de las diferencias evidentes, ¿qué cambia?
Bueno, las búsquedas web arrojan contenido que ya ha sido creado. Si buscamos algo que no se haya creado antes, no lo encontraremos en Google. En cambio, los LLM crean contenido nuevo. Debido a esto, son considerablemente más flexibles para las demandas específicas que usted podría presentarles. Por ejemplo, puede responder qué le diría Shrek al expresidente Barack Obama si se encontraran en una cita para tomar un helado.
Titulado Cuán gracioso es ChatGPT, el estudio fue publicado en la revista Plos One y puede consultarse —completo, en inglés— en este enlace.