Mi información de contacto estaba incluida en una lista de direcciones de correo electrónico profesionales y personales de más de 30 empleados de The New York Times que un equipo de investigación, del cual formaba parte Zhu, había conseguido extraer de GPT-3.5 Turbo en otoño del año pasado. Con algo de esfuerzo, el equipo había sido capaz de “eludir las restricciones del modelo para responder a consultas relacionadas con la privacidad”, escribió Zhu.
Mi dirección de correo electrónico no es un secreto. Pero el éxito del experimento de los investigadores debería hacer sonar las alarmas porque revela el potencial de ChatGPT y de herramientas de IA generativa como esta para revelar información personal mucho más sensible con solo unos cuantos ajustes.
Cuando le haces una pregunta a ChatGPT, no se limita a buscar la respuesta en internet. En su lugar, recurre a lo que ha “aprendido” de montones de información —datos de entrenamiento que se utilizaron para alimentar y desarrollar el modelo— con el fin de generar una respuesta. Los grandes modelos lingüísticos (LLM, por su sigla en inglés) se entrenan con grandes cantidades de texto, que pueden incluir información personal extraída de internet y otras fuentes. Esos datos de entrenamiento informan sobre el funcionamiento de la herramienta de IA, pero no se supone que se recuerden textualmente.
En teoría, cuantos más datos se añaden a un LLM, más profundamente se entierran los recuerdos de la información antigua en los recovecos del modelo. Un proceso conocido como olvido catastrófico puede hacer que un LLM considere la información antes aprendida como menos relevante cuando se añaden datos nuevos. Ese proceso puede ser beneficioso cuando se quiere que el modelo “olvide” cosas como la información personal. Sin embargo, Zhu y sus colegas —entre otros— descubrieron hace poco que la memoria de los LLM, al igual que la de los humanos, puede refrescarse.
En el caso del experimento que reveló mi información de contacto, los investigadores de la Universidad de Indiana dieron a GPT-3.5 Turbo una lista corta de nombres y direcciones de correo electrónico verificados de empleados del Times, lo que hizo que el modelo devolviera resultados similares a los que recordaba de sus datos de entrenamiento.
Al igual que la memoria humana, la capacidad de recuperación de GPT-3.5 Turbo no era perfecta. Los resultados que los investigadores pudieron extraer estaban sujetos a alucinaciones, es decir, a una tendencia a producir información falsa. En el ejemplo que dieron de los empleados del Times, muchas de las direcciones de correo electrónico personales eran erróneas por unos cuantos caracteres o eran totalmente erróneas. En cambio, el 80 por ciento de las direcciones de trabajo eran correctas.
Empresas como OpenAI, Meta y Google utilizan diferentes técnicas para evitar que los usuarios pidan información personal a través de mensajes de chat u otras interfaces. Uno de los métodos consiste en enseñar a la herramienta a denegar solicitudes de información personal u otros resultados relacionados con la privacidad. Un usuario promedio que inicie una conversación con ChatGPT pidiendo información personal será denegado, pero los investigadores han encontrado recientemente formas de burlar esas salvaguardas.
Zhu y sus colegas no trabajaban de manera directa con la interfaz pública estándar de ChatGPT, sino con su interfaz de programación de aplicaciones (API, por su sigla en inglés) que los programadores externos pueden utilizar para interactuar con GPT-3.5 Turbo. El proceso que utilizaron, denominado ajuste fino, está pensado para que los usuarios puedan dotar a un LLM de más conocimientos sobre un área específica, como la medicina o las finanzas. Pero, como descubrieron Zhu y sus colegas, también puede utilizarse para burlar algunas de las defensas integradas en la herramienta. Se aceptaron solicitudes que normalmente se denegarían en la interfaz ChatGPT.
“No cuentan con las protecciones de los datos afinados”, afirmó Zhu.
“Es muy importante para nosotros que el ajuste fino de nuestros modelos sea seguro”, señaló un portavoz de OpenAI en respuesta a una solicitud de comentarios. “Entrenamos a nuestros modelos para que rechacen las solicitudes de información privada o sensible sobre las personas, incluso si esa información está disponible en el internet abierto”.
La vulnerabilidad es muy preocupante porque nadie —aparte de un número limitado de empleados de OpenAI— sabe realmente qué se esconde en la memoria de datos de entrenamiento de ChatGPT. Según el sitio web de OpenAI, la empresa no busca de manera activa información personal ni utiliza datos de “sitios que principalmente agregan información personal” para crear sus herramientas. OpenAI también señala que sus LLM no copian ni almacenan información en una base de datos: “Al igual que una persona que ha leído un libro y lo deja, nuestros modelos no tienen acceso a la información de entrenamiento después de haber aprendido de ella”.
Lea también: El 32 por ciento de la futura décima legislatura está integrada por mujeres
Sin embargo, más allá de sus garantías sobre los datos de entrenamiento que no utiliza, OpenAI es notoriamente reservada sobre la información que sí utiliza, así como la que ha utilizado en el pasado.
“Que yo sepa, ningún modelo lingüístico de gran tamaño disponible en el mercado cuenta con defensas sólidas para proteger la privacidad”, afirmó Prateek Mittal, profesor del Departamento de Ingeniería Eléctrica e Informática de la Universidad de Princeton.
Mittal aseguró que las empresas de IA no podían garantizar que esos modelos no hubieran aprendido información sensible. “Creo que eso supone un riesgo enorme”, concluyó.