lunes, julio 1, 2024
InicioCiencia y ComputaciónAsí puede la IA puede filtrar tus datos privados

Así puede la IA puede filtrar tus datos privados

Investigadores de universidades de EE. UU. y Suiza, en colaboración con Google y DeepMind, han publicado un artículo que muestra cómo se pueden filtrar los datos de los sistemas de generación de imágenes que utilizan los algoritmos de aprendizaje automático DALL-E, Imagen o Difusión estable. Todos estos sistemas funcionan de la misma manera del lado del usuario: escribes una consulta de texto específica, por ejemplo, “un sillón con forma de aguacate” y a cambio obtienes una imagen generada.

Todos estos sistemas están entrenados con un gran número (decenas o cientos de miles) de imágenes con descripciones preparadas previamente. La idea detrás de estas redes neuronales es que, cuando consumen una gran cantidad de datos de entrenamiento, pueden crear imágenes nuevas y únicas. Sin embargo, la conclusión principal del estudio nuevo es que estas imágenes no siempre son tan únicas. En algunos casos, es posible forzar la red neuronal para que reproduzca casi exactamente una imagen original utilizada previamente para el entrenamiento. Eso significa que las redes neuronales pueden revelar información privada

El resultado de un sistema de aprendizaje automático en respuesta a una consulta puede parecer mágico para una persona que no es especialista: “¡Vaya, es como un robot que lo sabe todo!” Pero en realidad no hay ninguna magia…

Todas las redes neuronales funcionan más o menos de la misma manera: se crea un algoritmo que se entrena con un conjunto de datos, por ejemplo, una serie de imágenes de gatos y perros, con una descripción de lo que se representa exactamente en cada imagen. Después de la etapa de entrenamiento, se le muestra al algoritmo una nueva imagen y se le pide que averigüe si es un gato o un perro. Desde estos humildes comienzos, los desarrolladores de dichos sistemas pasaron a un escenario más complejo: el algoritmo entrenado con muchas imágenes de gatos crea una imagen de una mascota que nunca existió a pedido. Estos experimentos se llevan a cabo no solo con imágenes, sino también con texto, vídeo e incluso voz.

Para todas las redes neuronales, el punto de partida es un conjunto de datos de entrenamiento: las redes neuronales no pueden inventar nuevas entidades de la nada. Para crear una imagen de un gato, el algoritmo debe estudiar miles de fotografías o dibujos reales de estos animales. Hay muchos argumentos para mantener la confidencialidad de estos conjuntos de datos. Algunos de ellos son de dominio público; otros conjuntos de datos son propiedad intelectual de la empresa desarrolladora que invirtió tiempo y esfuerzo considerables en su creación con la esperanza de lograr una ventaja competitiva. Otros, por definición, constituyen información confidencial. Por ejemplo, se están llevando a cabo experimentos para utilizar redes neuronales a fin de diagnosticar enfermedades a partir de rayos X y otros estudios médicos de diagnóstico por imágenes. Esto significa que los datos de entrenamiento algorítmicos contienen los datos de salud reales de personas reales que, por razones obvias, no deben caer en las manos equivocadas.

Sobre los derechos de autor

En enero de 2023, tres artistas demandaron a los creadores de servicios de generación de imágenes que utilizaban algoritmos de aprendizaje automático. Afirmaron (con justificación) que los desarrolladores de las redes neuronales las habían capacitado con imágenes recopiladas en línea sin ningún respeto por los derechos de autor. Recordemos que una red neuronal puede copiar el estilo de un artista en particular y, por lo tanto, privarle de ingresos. En el documento, se insinúa que, en algunos casos, los algoritmos pueden cometer plagio total por diversas razones al generar dibujos, fotografías y otras imágenes que son casi idénticas al trabajo de personas reales.

 

ARTÍCULOS RELACIONADOS
- Advertisment -

MÁS POPULARES