¿Por qué los abogados del New York Times están inspeccionando en una sala secreta el código de OpenAI?

En algún lugar de Estados Unidos, en una sala segura, en un ordenador sin conexión a internet, se encuentra el código fuente de ChatGPT.

Está allí para ser inspeccionado por los abogados del New York Times.

Para acceder a esta sala, los abogados deben identificarse con documentos oficiales y no pueden ingresar con teléfonos, memorias USB u otros dispositivos electrónicos. Se les proporciona un ordenador sin acceso a internet y con un programa de procesamiento de textos. Tras cada sesión, las notas tomadas pueden descargarse en otro equipo, y luego se borran del ordenador original.

Los abogados del NYT  pueden compartir sus notas con hasta cinco consultores externos para que les ayuden a entender lo que hace el código. Si uno de los abogados quiere mostrar al CEO de OpenAI, Sam Altman, un fragmento del código para hacerle preguntas al respecto en una declaración, esa copia se destruirá después.

OpenAI está valorada en 157.000 millones de dólares en gran parte gracias al éxito de ChatGPT. Pero para construir el chatbot, la empresa ha entrenado sus modelos con grandes cantidades de texto por los que no ha pagado ni un céntimo, incluyendo artículos del New York Times, de otros medios y un número incalculable de libros protegidos por derechos de autor.

El análisis del código de ChatGPT, así como de los modelos de inteligencia artificial de Microsoft construidos con tecnología de OpenAI, es crucial para las demandas por infracción de derechos de autor contra las dos empresas. Editoriales y autores han presentado cerca de dos docenas de demandas por derechos de autor en Estados Unidos contra empresas de IA generativa. Quieren sangre: exigen una parte del botín económico que ha convertido a OpenAI en la empresa dominante del sector y que ha elevado la valoración de Microsoft por encima de los 3 billones de dólares.

Las decisiones de los jueces en estos casos podrían marcar el rumbo legal para el entrenamiento de modelos de lenguaje en Estados Unidos. «Los desarrolladores deberían pagar por el valioso contenido editorial que se utiliza para crear y hacer funcionar sus productos», explica un portavoz del NYT a BI. «El éxito futuro de esta tecnología no tiene por qué producirse a expensas de las instituciones periodísticas».

El New York Times ha contratado al bufete de abogados Susman Godfrey, reconocido por alcanzar un acuerdo de 787,5 millones de dólares entre Dominion y Fox News, para liderar esta demanda. Otros medios, como el New York Daily News y Mother Jones, también se han unido al caso.

El bufete Susman Godfrey también representa a un grupo de autores, incluidos George R.R. Martin, Jodi Picoult y Ta-Nehisi Coates, quienes presentaron demandas por derechos de autor meses antes que el New York Times. Si un juez certifica su caso como demanda colectiva, cualquier acuerdo o sentencia podría tener consecuencias para prácticamente todos los escritores y artistas cuyos trabajos se hayan utilizado para entrenar modelos de inteligencia artificial.

El 12 de septiembre, docenas de abogados de empresas tecnológicas y medios de comunicación se reunieron en la sala de un juez en el sur de Manhattan. El objetivo: determinar la mejor manera de llevar a cabo la presentación de pruebas, incluidas la inspección del código fuente y los datos de entrenamiento de ChatGPT. Los abogados de los autores, por su parte, aún están deliberando sobre a quién interrogar y cómo programar las declaraciones.

«No hay nada más emocionante para los profesores de Derecho especializados en derechos de autor», resume Kristelia García, profesora de Derecho de la propiedad intelectual en la Facultad de Derecho de la Universidad de Georgetown.

Fijar las normas

Dado que el Congreso de Estados Unidos —a diferencia de la Unión Europea— se mantiene al margen de la regulación de la IA, el sector espera que sean los tribunales los que establezcan —o no— las normas. Muchas editoriales, entre ellas Axel Springer, la matriz de Business Insider a nivel global, han llegado a acuerdos con empresas de IA generativa para compartir sus contenidos con fines formativos.

El alcance y los recursos de la demanda presentada por The New York Times la convierten en una candidata probable para sentar un precedente en el Tribunal Supremo de Estados Unidos. Los abogados están estudiando también demandas colectivas de autores, así como un caso similar en la industria musical contra Anthropic.

«El New York Times es un gigante del periodismo», comenta García, la profesora de Georgetown. «Es grande, tiene mucho contenido. Y lo que es más importante, tiene mucho poder de mercado detrás de esos contenidos».

La demanda argumenta que OpenAI ha infringido sus derechos de propiedad intelectual de dos maneras. Por un lado, está el caso de la «entrada», en el que se alega que el modelo de lenguaje ha recopilado de forma ilegal más de 10 millones de artículos del NYT para entrenar a ChatGPT y Microsoft Copilot sin compensación alguna. Por otro, está el caso de la «salida», donde se sostiene que ChatGPT es capaz de reproducir artículos completos del NYT a petición de los usuarios, sin que estos paguen una suscripción.

En sus presentaciones judiciales, los abogados han comparado repetidamente el caso con Napster, que copiaba ilegalmente millones de canciones y las ponía a disposición del público de manera gratuita. El New York Times argumenta que OpenAI ha utilizado artículos de alta calidad, bien documentados y escritos, para hacer que ChatGPT sea tan impresionante.

En todo caso, OpenAI es peor, según Justin Nelson, abogado de Susman Godfrey que representa a los autores en una demanda colectiva paralela al caso del NYT y en un litigio similar contra Anthropic. «Napster era un proyecto universitario, mientras que OpenAI cuenta con el respaldo de Microsoft y ya está valorada en miles de millones», explica Nelson a Business Insider. «En lugar de ser unos chavales, estamos hablando de una empresa sofisticada, que lo ha hecho no para uso personal, sino para obtener un beneficio económico».

Los representantes de OpenAI y Microsoft no han respondido a las preguntas formuladas por parte de Business Insider. En los tribunales, alegan que la doctrina legal del «uso justo» protege la forma en que sus modelos ingieren los artículos.  Además, aseguran que las reproducciones casi literales de los artículos del medio estadounidense son «muy anómalas» y no representan el uso habitual de la aplicación.

Aunque Napster dejó de existir tras ser demandada, su legado impulsó a la industria musical a adoptar los MP3 y, con el tiempo, el modelo de streaming, ahora utilizado en música, videojuegos y películas. Daniel Ek, cofundador de Spotify, ha señalado a Napster como su inspiración, y Sean Parker, cofundador de Napster, ha elogiado a Spotify como sucesor.

Las demandas por derechos de autor de las organizaciones periodísticas pueden marcar el ritmo de todos los generadores de IA, predice García, que ha trabajado en la industria musical durante una década. La IA no es especialmente buena creando películas o haciendo reportajes, pero puede imitar al periodismo de forma convincente.

«El periodismo es una especie de conejillo de indias», afirma García. «De la misma manera que la música desempeñó ese papel en la época de Napster, cuando la gente podía descargar fácilmente archivos MP3. En aquel entonces, no ocurría lo mismo con las películas».

Debido al gran número de personas involucradas, las demandas de los creadores podrían tener un impacto aún mayor. Un acuerdo judicial o una sentencia definitiva podría transformar los modelos de negocio actuales.

«La gente se pone creativa en los acuerdos de demandas colectivas», explica Matthew Sag, profesor de Derecho de la Universidad de Emory que estudia la ley de derechos de autor y la inteligencia artificial. «Podrían dar a los autores de Estados Unidos un porcentaje de las acciones o algo así».

El código fuente

La naturaleza misma de la tecnología de IA generativa está en el centro de una acalorada disputa sobre los derechos de autor. Pero, ¿qué sucede realmente cuando un gran modelo lingüístico «aprende» de un libro o de un artículo de prensa? ¿Y qué ocurre cuando ChatGPT consulta ese modelo para responder a una pregunta? ¿Es este proceso, de alguna manera, una «copia» en el sentido legal de la palabra? ¿O los datos de entrenamiento se transforman en una masa de unos y ceros que ya no guarda relación con las obras originales?

Los abogados y consultores que están estudiando a fondo el código de ChatGPT intentan responder a estas preguntas. También están examinando los datos de entrenamiento del LLM y planean preguntar a los principales ejecutivos y programadores de OpenAI, bajo juramento, cómo se supone que funcionan los modelos.

Una vez analizado el código y recogidas las declaraciones, las partes estarán mejor preparadas para debatir sobre el «uso legítimo», una doctrina legal particularmente compleja que ampara el uso de creaciones «transformadoras» basadas en material protegido por derechos de autor.

Si OpenAI está copiando libros y artículos de prensa, como se hizo en su momento con Napster, ¿es su proceso de entrenamiento lo suficientemente transformador como para ser considerado un «uso legítimo»? Según Christa Laser, profesora de Derecho de Propiedad Intelectual en la Universidad Estatal de Cleveland, los jueces de Estados Unidos están «desorientados» a la hora de decidir sobre casos de uso legítimo de los derechos de autor.

«Creo que, al final, esta será la gran cuestión que llegará hasta el Tribunal Supremo», asegura Laser a Business Insider. «El uso legítimo de los datos de entrenamiento, la recopilación de información y el proceso de formación serán clave».

Una de las cuestiones más importantes del «uso legítimo» es si las creaciones generadas por ChatGPT compiten directamente con las obras originales, una preocupación urgente para los medios de comunicación. «Las empresas de medios de comunicación han sido las primeras en presentar estas grandes demandas porque son las que más tienen que perder», señala García.

Para poder reclamar derechos de autor, un demandante no puede simplemente señalar un grupo de obras usadas como inspiración; debe identificar una obra específica que haya sido copiada. En su demanda, The New York Times ha presentado decenas de miles de páginas con pruebas que detallan 10.553.897 artículos. Afirman que OpenAI y Microsoft han infringido ilegalmente los derechos de autor de cada uno de ellos.

Entre esos artículos hay uno de 2001, poco después de que un tribunal de apelación fallara contra Napster, en el que un periodista preguntaba a los lectores qué habrían hecho ellos. Todos estaban de acuerdo en que, se decidiera lo que se decidiera, no había vuelta atrás.

«Si Napster cierra, habrá más sitios», dijo un lector al periodista. «Y puede que acaben con algunos, pero no podrán acabar con todos».

Deja una respuesta