Muchas gracias por su participación en la consulta pública.

No se identificó en este aporte una propuesta concreta de modificación del contenido del borrador de la Estrategia.

Propuesta técnico-legal para la protección de los derechos de propiedad intelectual y los datos personales en el entrenamiento de IA

Marcel Mir Teijeiro 07/10/2024 13:13

MILD: Documentación Mínima a Nivel de Ítem de Datos de Entrenamiento

RESUMEN

Los grandes modelos de IA suelen entrenarse con datos que infringen derechos de autor, la privacidad personal y otros intereses legales. Tenemos múltiples ejemplos de demandas iniciadas por empresas y artistas contra los principales proveedores de IA (por ejemplo, NY Times vs OpenAI). Por ello, si no se pueden identificar los ítems de datos, los ciudadanos no pueden eliminar datos privados, las empresas no pueden proteger la propiedad intelectual y las autoridades no pueden detener la difusión de materiales de abuso sexual infantil.
Proponemos una solución que respeta la necesidad de proteger los secretos comerciales y la información confidencial de las empresas, mientras garantiza que los titulares de derechos de autor y otras partes interesadas puedan hacer valer sus derechos bajo la ley uruguaya.
Nuestra propuesta permite el manejo de la información compartida con estricta confidencialidad, salvaguardando los derechos de propiedad intelectual, secretos comerciales y datos sensibles. Es importante destacar que un proveedor de IA no necesita divulgar el conjunto de datos completo. El cumplimiento se asegura permitiendo que las partes identifiquen los ítems de datos sobre los que tienen legitimidad.

Primero, se crea una huella digital de cada ítem en el conjunto de datos, permitiendo la detección de contenido ilegal. En segundo lugar, se añaden detalles sobre cómo se obtuvo cada ítem (información de licencias o enlace a la página web), asegurando tanto el cumplimiento de derechos de autor como la reproducibilidad científica.
Este enfoque técnico protege los derechos de todas las partes interesadas, los intereses de seguridad pública y nacional, y cumple con las leyes de la Unión y nacionales. Se basa en prácticas industriales comunes, rentables y robustas. Las grandes empresas tecnológicas documentan las huellas digitales de los ítems de datos para que las autoridades puedan identificar contenido ilegal. Las empresas añaden rutinariamente atribuciones a los autores cuando utilizan sus obras en público. Las organizaciones académicas sin fines de lucro van más allá al referenciar las fuentes de datos, como ocurre cuando se publican conjuntos de datos de código abierto.

EXPLICACIÓN DETALLADA

Los proveedores de IA están entrenando modelos con datos a una escala que con frecuencia involucra el “scraping” de grandes porciones de la web. Artistas, escritores, gremios, discográficas, periódicos y ciudadanos preocupados por la privacidad han presentado demandas contra corporaciones de IA por entrenar modelos comerciales a gran escala con miles de millones de ítems de datos personales o con derechos de autor.

Los proveedores de IA quieren evitar costosas demandas y acciones regulatorias. Desafortunadamente, se han visto atrapados en una carrera competitiva de escalado de entrenamientos de modelos y comercialización de productos. Un estándar de toda la industria permitiría a los proveedores de IA competir de manera justa, sin tener que comprometer los derechos sobre los datos.
Para que una especificación sea lo suficientemente exhaustiva como para permitir que las partes hagan valer sus derechos, cualquier contenido protegido por derechos de autor o personal debe necesariamente ser divulgado ítem por ítem.

Aquí radica un conflicto:

Las partes con intereses legítimos tienen derecho adecuado acceso. Autores y editores tienen derecho a saber cuándo sus obras con derechos de autor son copiadas en conjuntos de datos comercializados, como ocurre a menudo para generar contenido sintético competidor. Los consumidores tienen derecho a conocer cualquier información personal. Finalmente, los reguladores deben poder verificar cualquier contenido ilegal recopilado por los proveedores de IA (como materiales de abuso sexual infantil).

Los proveedores de IA comerciales también deben proteger su propiedad intelectual. Si un proveedor de IA publica todo su contenido interno en línea, los competidores pueden recopilar ese contenido y entrenar nuevos modelos competidores. Donde el proveedor de IA ha invertido en la curaduría de obras con licencia para un conjunto de datos, el contenido general y la estructura de ese conjunto de datos pueden estar protegidos bajo la ley de propiedad intelectual.

La especificación propuesta logra un equilibrio entre los intereses de todas las partes interesadas. En lugar de divulgar todos los ítems en el conjunto de datos de entrenamiento, los proveedores de IA pueden divulgar propiedades mínimas sobre esos ítems.

Esta divulgación mínima es efectiva:
Los reguladores pueden asegurarse de que los proveedores de IA cumplan con sus obligaciones de transparencia bajo un amplio conjunto de leyes internacionales y específicas de cada país.
Los titulares de derechos y los consumidores pueden hacer valer sus derechos sobre los datos.
Los inversores pueden confiar en que un proveedor de IA no ha ocultado violaciones legales masivas, es decir, que el proveedor de IA no será golpeado por costosas demandas o acciones regulatorias.
Los proveedores de IA pueden demostrar que cumplen con las normas de protección de datos

MILD es barato de administrar. Divulgar estas propiedades mínimas no solo es fácil de implementar desde el punto de vista técnico, sino que también elimina la necesidad de que el personal tenga que hacer un seguimiento de las solicitudes de acceso. Otras prácticas, como las explicaciones narrativas sobre el proceso de obtención de datos, obligan a los titulares de derechos, consumidores y reguladores a solicitar más detalles aclaratorios a los proveedores de IA. Esto sobrecarga a los proveedores de IA con el coste administrativo de manejar esas solicitudes. Las agencias de protección de datos y derechos de autor, a su vez, carecen de personal para investigar si los proveedores de IA han manejado las solicitudes de acceso en cumplimiento con las leyes correspondientes.

Permitir que cualquier persona con intereses legítimos verifique si se copiaron ítems específicos en el conjunto de datos, elimina toda esa carga administrativa.

2. EJEMPLOS
A continuación presentamos varios ejemplos de cómo los conjuntos de datos de mayor calidad de la comunidad tienen características similares a las de MILD en sus metadatos y documentación. También mostramos cómo las especificaciones de MILD ayudarían con conjuntos de datos problemáticos.

FFHQ
Descripción: Un conjunto de datos de caras de Flickr en alta calidad (1024x1024).
Característica: Metadatos a nivel de ítem para las imágenes con su URL y licencia.

Stability Audio
Descripción: Conjunto de datos de archivos de música con licencia de proveedores de audio.
Característica: Claridad legal para la licencia y el uso del modelo.

LAION-5B
Problema: Conjunto de datos extraído de la web que fue filtrado de manera negligente para contenido ilegal, con un enfoque técnico deficiente.
Resultado: La organización fue presionada para retirarlo debido a la divulgación en la prensa del contenido ilegal (CSAM).
Solución: Los hashes en MILD permitirían una fácil identificación de contenido ilegal, lo cual es un enfoque estándar.

books3
Problema: Conjunto de datos de libros obtenidos de sitios web piratas sin licencia.
Resultado: Obligado a ser retirado por una solicitud de eliminación bajo derechos de autor.
Solución: Los hashes en MILD permiten a los titulares de derechos detectar contenido de libros y tomar medidas antes.

3. TRAYECTORIA

Hemos presentado las especificaciones de MILD como solución al problema expuesto previamente, tanto en la UE como ante el NIST en E.E.U.U. A continuación puede acceder a nuestras presentaciones en dichas consultas:

Propuesta MILD a la “AI Office Multi-Stakeholder Consultation”:

docs.google.com/document/d/1GOJQrETxPs7iS9lI3cCCxwrXywMCvTsF/

Propuesta MILD a la NIST:

nist.gov/system/files/documents/2024/02/15/ID045%20-%202024-02-03%2C%20AGI%20Inherent%20Non-Safety%2C%20Comment%20on%20AI%20EO%20RFI.pdf

4. CONTACTO

EGAIR: https://www.egair.eu/

EGAIR es una asociación que defiende los intereses de más de 22.000 artistas y otros profesionales creativos tanto en la Unión Europea como en otras partes del mundo.

Abogado encargado de ofrecer la solución MILD: Marcel Mir Teijeiro: marcel.mir.t@gmail.com

Referencia: PC-PROP-2024-10-667
Versión 1 (de 1) ver otras versiones

Huella digital

La siguiente cadena de texto es una representación abreviada y encriptada de este contenido. Es útil para garantizar que el contenido no haya sido alterado, ya que una única modificación daría lugar a un valor totalmente diferente.

Valor: 07995192f8e1c9b3c4dc38546e09c3757d022264c4dc075d73c4b6be83b2ca22

Origen:

{"body":{"es":"MILD: Documentación Mínima a Nivel de Ítem de Datos de Entrenamiento\n\nRESUMEN\n\nLos grandes modelos de IA suelen entrenarse con datos que infringen derechos de autor, la privacidad personal y otros intereses legales. Tenemos múltiples ejemplos de demandas iniciadas por empresas y artistas contra los principales proveedores de IA (por ejemplo, NY Times vs OpenAI). Por ello, si no se pueden identificar los ítems de datos, los ciudadanos no pueden eliminar datos privados, las empresas no pueden proteger la propiedad intelectual y las autoridades no pueden detener la difusión de materiales de abuso sexual infantil.\nProponemos una solución que respeta la necesidad de proteger los secretos comerciales y la información confidencial de las empresas, mientras garantiza que los titulares de derechos de autor y otras partes interesadas puedan hacer valer sus derechos bajo la ley uruguaya.\nNuestra propuesta permite el manejo de la información compartida con estricta confidencialidad, salvaguardando los derechos de propiedad intelectual, secretos comerciales y datos sensibles. Es importante destacar que un proveedor de IA no necesita divulgar el conjunto de datos completo. El cumplimiento se asegura permitiendo que las partes identifiquen los ítems de datos sobre los que tienen legitimidad.\n\nPrimero, se crea una huella digital de cada ítem en el conjunto de datos, permitiendo la detección de contenido ilegal. En segundo lugar, se añaden detalles sobre cómo se obtuvo cada ítem (información de licencias o enlace a la página web), asegurando tanto el cumplimiento de derechos de autor como la reproducibilidad científica.\nEste enfoque técnico protege los derechos de todas las partes interesadas, los intereses de seguridad pública y nacional, y cumple con las leyes de la Unión y nacionales. Se basa en prácticas industriales comunes, rentables y robustas. Las grandes empresas tecnológicas documentan las huellas digitales de los ítems de datos para que las autoridades puedan identificar contenido ilegal. Las empresas añaden rutinariamente atribuciones a los autores cuando utilizan sus obras en público. Las organizaciones académicas sin fines de lucro van más allá al referenciar las fuentes de datos, como ocurre cuando se publican conjuntos de datos de código abierto.\n\nEXPLICACIÓN DETALLADA\n\nLos proveedores de IA están entrenando modelos con datos a una escala que con frecuencia involucra el “scraping” de grandes porciones de la web. Artistas, escritores, gremios, discográficas, periódicos y ciudadanos preocupados por la privacidad han presentado demandas contra corporaciones de IA por entrenar modelos comerciales a gran escala con miles de millones de ítems de datos personales o con derechos de autor. \n\nLos proveedores de IA quieren evitar costosas demandas y acciones regulatorias. Desafortunadamente, se han visto atrapados en una carrera competitiva de escalado de entrenamientos de modelos y comercialización de productos. Un estándar de toda la industria permitiría a los proveedores de IA competir de manera justa, sin tener que comprometer los derechos sobre los datos.\nPara que una especificación sea lo suficientemente exhaustiva como para permitir que las partes hagan valer sus derechos, cualquier contenido protegido por derechos de autor o personal debe necesariamente ser divulgado ítem por ítem.\n\n\nAquí radica un conflicto:\n\nLas partes con intereses legítimos tienen derecho adecuado acceso. Autores y editores tienen derecho a saber cuándo sus obras con derechos de autor son copiadas en conjuntos de datos comercializados, como ocurre a menudo para generar contenido sintético competidor. Los consumidores tienen derecho a conocer cualquier información personal. Finalmente, los reguladores deben poder verificar cualquier contenido ilegal recopilado por los proveedores de IA (como materiales de abuso sexual infantil).\n\nLos proveedores de IA comerciales también deben proteger su propiedad intelectual. Si un proveedor de IA publica todo su contenido interno en línea, los competidores pueden recopilar ese contenido y entrenar nuevos modelos competidores. Donde el proveedor de IA ha invertido en la curaduría de obras con licencia para un conjunto de datos, el contenido general y la estructura de ese conjunto de datos pueden estar protegidos bajo la ley de propiedad intelectual.\n\n\nLa especificación propuesta logra un equilibrio entre los intereses de todas las partes interesadas. En lugar de divulgar todos los ítems en el conjunto de datos de entrenamiento, los proveedores de IA pueden divulgar propiedades mínimas sobre esos ítems.\n\n\nEsta divulgación mínima es efectiva:\nLos reguladores pueden asegurarse de que los proveedores de IA cumplan con sus obligaciones de transparencia bajo un amplio conjunto de leyes internacionales y específicas de cada país.\nLos titulares de derechos y los consumidores pueden hacer valer sus derechos sobre los datos.\nLos inversores pueden confiar en que un proveedor de IA no ha ocultado violaciones legales masivas, es decir, que el proveedor de IA no será golpeado por costosas demandas o acciones regulatorias.\nLos proveedores de IA pueden demostrar que cumplen con las normas de protección de datos\n\nMILD es barato de administrar. Divulgar estas propiedades mínimas no solo es fácil de implementar desde el punto de vista técnico, sino que también elimina la necesidad de que el personal tenga que hacer un seguimiento de las solicitudes de acceso. Otras prácticas, como las explicaciones narrativas sobre el proceso de obtención de datos, obligan a los titulares de derechos, consumidores y reguladores a solicitar más detalles aclaratorios a los proveedores de IA. Esto sobrecarga a los proveedores de IA con el coste administrativo de manejar esas solicitudes. Las agencias de protección de datos y derechos de autor, a su vez, carecen de personal para investigar si los proveedores de IA han manejado las solicitudes de acceso en cumplimiento con las leyes correspondientes.\n\nPermitir que cualquier persona con intereses legítimos verifique si se copiaron ítems específicos en el conjunto de datos, elimina toda esa carga administrativa.\n\n\n2. EJEMPLOS\nA continuación presentamos varios ejemplos de cómo los conjuntos de datos de mayor calidad de la comunidad tienen características similares a las de MILD en sus metadatos y documentación. También mostramos cómo las especificaciones de MILD ayudarían con conjuntos de datos problemáticos.\n\nFFHQ\nDescripción: Un conjunto de datos de caras de Flickr en alta calidad (1024x1024).\nCaracterística: Metadatos a nivel de ítem para las imágenes con su URL y licencia.\n\nStability Audio\nDescripción: Conjunto de datos de archivos de música con licencia de proveedores de audio.\nCaracterística: Claridad legal para la licencia y el uso del modelo.\n\nLAION-5B\nProblema: Conjunto de datos extraído de la web que fue filtrado de manera negligente para contenido ilegal, con un enfoque técnico deficiente.\nResultado: La organización fue presionada para retirarlo debido a la divulgación en la prensa del contenido ilegal (CSAM).\nSolución: Los hashes en MILD permitirían una fácil identificación de contenido ilegal, lo cual es un enfoque estándar.\n\nbooks3\nProblema: Conjunto de datos de libros obtenidos de sitios web piratas sin licencia.\nResultado: Obligado a ser retirado por una solicitud de eliminación bajo derechos de autor.\n Solución: Los hashes en MILD permiten a los titulares de derechos detectar contenido de libros y tomar medidas antes.\n\n\n3. TRAYECTORIA\n\nHemos presentado las especificaciones de MILD como solución al problema expuesto previamente, tanto en la UE como ante el NIST en E.E.U.U. A continuación puede acceder a nuestras presentaciones en dichas consultas:\n\nPropuesta MILD a la “AI Office Multi-Stakeholder Consultation”:\n\ndocs.google.com/document/d/1GOJQrETxPs7iS9lI3cCCxwrXywMCvTsF/\n\nPropuesta MILD a la NIST:\n\nnist.gov/system/files/documents/2024/02/15/ID045%20-%202024-02-03%2C%20AGI%20Inherent%20Non-Safety%2C%20Comment%20on%20AI%20EO%20RFI.pdf \n\n\n4. CONTACTO\n\nEGAIR: https://www.egair.eu/ \n\nEGAIR es una asociación que defiende los intereses de más de 22.000 artistas y otros profesionales creativos tanto en la Unión Europea como en otras partes del mundo.\n\nAbogado encargado de ofrecer la solución MILD: Marcel Mir Teijeiro: marcel.mir.t@gmail.com"},"title":{"es":"Propuesta técnico-legal para la protección de los derechos de propiedad intelectual y los datos personales en el entrenamiento de IA"}}

Esta huella digital se calcula utilizando un algoritmo hash SHA256. Para poder replicarlo tú mismo, puedes usar una Calculadora MD5 en línea y copiar y pegar los datos de origen.

Esenciales

Preferencias

Analíticas y estadísticas

Marketing

Plataforma de Participación Ciudadana Digital

Propuesta técnico-legal para la protección de los derechos de propiedad intelectual y los datos personales en el entrenamiento de IA

Por favor, inicia la sesión

Configuración de cookies

Esenciales

Preferencias

Analíticas y estadísticas

Marketing

Propuesta técnico-legal para la protección de los derechos de propiedad intelectual y los datos personales en el entrenamiento de IA

Confirmar

Por favor, inicia la sesión

Compartir