Los modelos de inteligencia artificial se basan en gran medida en contenidos de alta calidad creados por seres humanos, a menudo sujetos a protección por derechos de autor. Sin estos recursos, el rendimiento del modelo sería deficiente. Surge la pregunta de si es legal utilizar obras protegidas por derechos de autor durante la fase de entrenamiento en el desarrollo de un modelo de inteligencia artificial.
Los modelos de IA de gran envergadura, como el GPT-4 de OpenAI, el PaLM 2 de Google y el Llama 2 de Meta, se han construido en parte utilizando una amplia gama de fuentes, que incluyen millones de libros, artículos, conversaciones y otros contenidos disponibles en Internet. Esta práctica ha generado disputas legales por parte de algunos creadores de estos contenidos, quienes argumentan violaciones de derechos de autor, mientras que otros buscan ser compensados por sus contribuciones.
Sin embargo, surge la pregunta de cómo se puede evaluar el valor de un dato específico cuando un modelo de IA ha absorbido una gran parte de lo que ha sido publicado en Internet durante la última década o incluso más. Benedict Evans, analista tecnológico, resalta este desafío en un reciente artículo sobre IA al señalar que el modelo no distingue entre un libro o sitio web en particular, sino que requiere acceso a «todos» los libros y «todos» los sitios web. Esto plantea un dilema, ya que el retiro de contenidos por parte de una empresa no solucionaría el problema si todas lo hicieran.
El concepto de «apalancamiento de datos», como lo describe el profesor Vincent, destaca la importancia de que las comunidades comprendan el valor de sus datos para los modelos de IA, lo que les permitiría negociar de manera más efectiva la compensación por su contribución. Si se puede determinar que el conjunto de todos los libros, por ejemplo, es responsable de una parte significativa del rendimiento de un modelo de IA como ChatGPT, entonces es posible asignar un valor adecuado a esa contribución.
En este contexto, se presenta SILO, un nuevo modelo lingüístico desarrollado por investigadores de instituciones como la Universidad de Washington en Seattle, la UC Berkeley y el Allen Institute for AI. SILO se creó con el objetivo general de minimizar riesgos legales al eliminar datos sensibles, pero también se ha desarrollado una metodología para evaluar la contribución específica de datos a los resultados de un modelo de IA. Esto podría abrir la puerta para que los propietarios de datos reciban el reconocimiento adecuado, o incluso una compensación directa, cada vez que sus datos contribuyan a las predicciones de un modelo. Como se demuestra, el rendimiento de los modelos se ve afectado significativamente si se entrenan solo con texto de bajo riesgo, como libros o documentos gubernamentales sin derechos de autor, debido a las limitaciones en tamaño y cobertura de dominio.
Basado en: Barr, Alistair. «“Data Leverage” and the Harry Potter Test: How Much Is a Single Book Worth to a Giant AI Model?» Business Insider. Accedido 4 de septiembre de 2023. https://www.businessinsider.com/data-leverage-harry-potter-test-putting-value-data-ai-models-2023-8.