Se ha revelado que las obras de miles de autores, incluyendo nombres tan destacados como Stephen King, Rachel Cusk, Zadie Smith, Margaret Atwood, Haruki Murakami y Elena Ferrante, han sido pirateadas y utilizadas para entrenar herramientas de inteligencia artificial (IA). Este hallazgo fue detallado en un artículo publicado por la revista estadounidense The Atlantic.
Según la investigación, se estima que más de 170,000 títulos se incorporaron a modelos de IA administrados por empresas como Meta y Bloomberg, proporcionando involuntariamente un vasto conjunto de datos utilizado para construir herramientas de IA. La biblioteca «Books3» se utilizó para entrenar modelos de lenguaje, incluido LLaMA, un generador de contenido basado en patrones identificados en textos de muestra. También se empleó para entrenar otros modelos de IA, como BloombergGPT y GPT-J de EleutherAI.
Los títulos contenidos en Books3 comprenden alrededor de un tercio de ficción y dos tercios de no ficción, y la mayoría se publicaron en las últimas dos décadas. Entre los autores cuyas obras fueron utilizadas se encuentran Margaret Atwood, Haruki Murakami, Rachel Cusk y Stephen King, entre otros. Además, la biblioteca incluye títulos de diversas editoriales, incluyendo más de 30,000 de Penguin Random House y 14,000 de HarperCollins.
Este hallazgo surge después de una demanda presentada por tres escritores que alegaron que sus obras protegidas por derechos de autor se utilizaron en el entrenamiento del LLaMA de Meta. La discusión sobre la utilización no autorizada de obras protegidas por derechos de autor para entrenar IA ha generado preocupaciones entre los autores y ha llevado a llamados a una mayor regulación en este ámbito.
El avance de estas tecnologías, que pueden generar contenido textual, ha generado inquietudes sobre el impacto en los ingresos de los autores, que han visto una disminución significativa en sus ganancias en la última década. Los escritores a tiempo completo ganaron en promedio $23,000 en 2022, lo que representa una suma relativamente baja en comparación con los estándares estadounidenses. La utilización de obras protegidas por derechos de autor para entrenar IA plantea desafíos éticos y legales que siguen siendo objeto de debate en la comunidad literaria.