Cuando una empresa adopta sus primeras herramientas de IA, conviene hacerse pronto una pregunta clave: ¿qué datos salen de la organización, hacia quién y bajo qué condiciones?
Esta pregunta es más compleja de lo que parece, porque los datos fluyen de formas que no siempre son evidentes. Un empleado que copia y pega un contrato de cliente en ChatGPT para que lo resuma está enviando información confidencial a los servidores de OpenAI. Un sistema de atención al cliente basado en un modelo de lenguaje externo procesa conversaciones con información personal de los clientes en sistemas de un tercero.
Este artículo explica los riesgos concretos, cómo evaluarlos y qué medidas permiten gestionar la privacidad sin bloquear la adopción de IA.
Los vectores de riesgo de privacidad más frecuentes
Uso de APIs de terceros con datos sensibles. La mayoría de las herramientas de IA generativa actuales (ChatGPT, Claude, Gemini) funcionan enviando los datos a los servidores del proveedor para procesar la solicitud. Para datos no sensibles — documentación pública, textos genéricos, código sin información propietaria — el riesgo es bajo. Para datos personales de clientes, información financiera confidencial, datos de salud o información estratégica de la empresa, hay que analizar si la política de privacidad del proveedor es compatible con el RGPD y con los compromisos de confidencialidad de la empresa.
Datos de entrenamiento que incluyen información personal. Si una empresa desarrolla un modelo propio y usa datos históricos de clientes para entrenarlo, aplican las obligaciones del RGPD: base legal para el tratamiento, minimización de datos y posiblemente seudonimización de los datos de entrenamiento para reducir el riesgo en caso de incidente.
Memorización de datos por los modelos. Los modelos de lenguaje grandes pueden en algunos casos “memorizar” fragmentos de los datos con los que fueron entrenados y reproducirlos en respuestas. Para proveedores de servicios de IA que entrenan con los datos de sus usuarios (algo que las versiones empresariales suelen excluir contractualmente), esto puede ser un canal de fuga de información.
Logs y almacenamiento de conversaciones. Las plataformas de IA suelen almacenar las conversaciones por defecto para mejorar el servicio. Las versiones empresariales ofrecen opciones de no almacenamiento. Para usos con datos sensibles, conviene revisar qué almacena el proveedor y durante cuánto tiempo.
El RGPD aplicado a proyectos IA
El RGPD no prohíbe el uso de datos personales en sistemas de IA. Lo que establece son los principios y las obligaciones para hacerlo de forma legítima:
Base legal. El tratamiento de datos personales requiere una base legal. Las más frecuentes en contextos empresariales son el cumplimiento de un contrato (para datos de clientes necesarios para prestar el servicio), el interés legítimo (en algunos casos de análisis interno) o el consentimiento explícito.
Minimización de datos. Usar solo los datos estrictamente necesarios para el propósito del sistema. Si para predecir el churn de clientes no necesitas el nombre o la dirección del cliente, entrenar el modelo sin esos datos es mejor práctica.
Transparencia. Si el sistema IA toma decisiones que afectan a personas (clientes, empleados), estas personas tienen derecho a saber que existe ese sistema y, en algunos casos, a solicitar que las decisiones que les afectan sean revisadas por un humano.
Acuerdos de procesamiento de datos. Cuando se usan servicios de terceros (APIs de IA, plataformas cloud), hay que firmar los acuerdos de procesamiento de datos (DPA) correspondientes que aseguren que el proveedor cumple con el RGPD.
Las opciones que reducen el riesgo
Versiones empresariales de las herramientas. OpenAI, Anthropic y Google ofrecen versiones empresariales de sus modelos con garantías adicionales: los datos no se usan para entrenar modelos futuros, hay opción de no almacenamiento de conversaciones y los acuerdos de procesamiento de datos están disponibles. Para empresas que manejan datos sensibles, las versiones empresariales son el punto de partida.
Modelos de código abierto desplegados localmente. Herramientas como Ollama o LM Studio permiten ejecutar modelos de lenguaje de alta capacidad en la infraestructura propia de la empresa, sin enviar datos a servidores externos. El rendimiento es algo menor que los mejores modelos de API, pero para muchos casos de uso empresariales es suficiente, y la privacidad de los datos está completamente garantizada.
Seudonimización y anonimización de datos de entrenamiento. Para proyectos que desarrollan modelos propios con datos de clientes, la seudonimización — sustituir los identificadores directos por códigos — reduce el riesgo en caso de incidente de seguridad y puede ser suficiente para cumplir con los principios de minimización del RGPD.
Política interna de uso de IA. Definir qué tipos de datos pueden enviarse a herramientas de IA externas y cuáles no es una medida de organización interna que muchas empresas están implementando. Una política clara evita que los empleados tomen decisiones individuales sobre qué datos es apropiado compartir con qué herramientas.
Preguntas frecuentes
¿Hay que notificar a los clientes si se usa IA para procesar sus datos? Depende del uso. Si la IA procesa datos personales de clientes para tomar decisiones que les afectan, la transparencia es una obligación RGPD. Si la IA se usa para análisis internos que no afectan directamente a los clientes, la obligación de notificación individual no aplica necesariamente, aunque la política de privacidad de la empresa debería reflejar el uso de IA.
¿Los modelos de IA de código abierto son siempre más seguros desde el punto de vista de privacidad? No necesariamente. La privacidad depende de dónde y cómo se despliegan. Un modelo de código abierto ejecutado en servidores cloud externos tiene los mismos riesgos que uno propietario. La ventaja de privacidad aparece cuando el modelo se ejecuta en la infraestructura propia de la empresa.
¿El EU AI Act añade obligaciones sobre privacidad? Sí, especialmente para sistemas de alto riesgo, que tienen obligaciones de gobernanza de datos que complementan el RGPD: los datos de entrenamiento deben ser relevantes, representativos y estar libres de sesgos inapropiados. Estos requerimientos son adicionales a los del RGPD, no alternativos.