En el mundo de los datos hay una sentencia que captura a la perfección el fallo más habitual de los proyectos IA: “garbage in, garbage out”. Un modelo de inteligencia artificial es, fundamentalmente, un sistema que aprende patrones de los datos con los que se entrena. Si esos datos son incorrectos, incompletos o no representativos, el modelo aprende los patrones equivocados — y sus predicciones o clasificaciones serán incorrectas con total confianza.
Para las empresas que están evaluando o iniciando proyectos IA, la calidad del dato es el factor que más frecuentemente marca la diferencia entre un proyecto que genera valor y uno que no llega a producción.
Por qué nadie quiere mirar los datos primero
Hay una razón práctica por la que muchos proyectos IA empiezan por la parte más visible — el modelo, la interfaz, la demo — en lugar de por los datos: los datos son lo que más revela los problemas de fondo de la organización.
Cuando se hace un inventario serio de los datos de una empresa, aparecen cosas incómodas: registros duplicados que nadie había limpiado, campos obligatorios que en la práctica nadie rellenaba, sistemas que supuestamente estaban integrados pero que tienen claves distintas y no se pueden cruzar, históricos que empezaron a registrarse correctamente hace poco pero que tienen años de datos incompletos antes.
Este diagnóstico es incómodo porque revela inversiones de limpieza y gobierno del dato que no estaban en el presupuesto inicial. Pero hacerlo al principio — antes de comprometer presupuesto de desarrollo del modelo — es mucho más eficiente que descubrirlo a mitad de proyecto.
Los problemas de calidad más frecuentes en las empresas
Valores nulos o faltantes en variables clave. Si la variable que el modelo tiene que predecir — o las variables que usa para predecir — tienen un porcentaje alto de valores faltantes, el modelo tiene dificultades para aprender patrones robustos. En algunos casos, los valores faltantes tienen significado propio (un campo vacío en un pedido puede significar que el cliente no especificó una preferencia, no que el dato sea un error). El tratamiento correcto de valores faltantes requiere entender el negocio, no solo el dato.
Registros duplicados. Los sistemas de gestión empresarial acumulan duplicados con el tiempo — el mismo cliente con dos registros distintos, el mismo proveedor con variaciones en el nombre, el mismo producto con distintos códigos en distintas épocas. Para los modelos de ML, los duplicados distorsionan los patrones que el modelo aprende.
Inconsistencias entre sistemas. Una empresa puede tener el ERP, el CRM, el sistema de producción y el sistema de calidad funcionando con datos que en principio describen las mismas entidades — clientes, productos, pedidos — pero que no se pueden cruzar porque usan claves distintas o formatos distintos. La integración de estas fuentes es frecuentemente el trabajo más largo de un proyecto de datos.
Datos históricos que no reflejan el presente. Las empresas cambian: cambia el portfolio de productos, cambia el mercado, cambia el proceso. Un histórico de ventas de hace varios años puede no ser representativo de la demanda actual. Usar datos históricos muy antiguos puede hacer que el modelo aprenda patrones que ya no son válidos.
Sesgos en los datos de entrenamiento. Los datos reflejan las decisiones históricas de la empresa. Si históricamente se aprobaron créditos solo a clientes de cierto perfil, los datos reflejan ese sesgo y el modelo puede perpetuarlo. Identificar y corregir sesgos en los datos de entrenamiento es un aspecto del diseño ético de sistemas IA que el EU AI Act también recoge en sus requerimientos.
Cómo evaluar la calidad de los datos antes de empezar
Un inventario de calidad de datos bien hecho responde a cuatro preguntas fundamentales:
¿Los datos existen y son accesibles? No todos los datos que teóricamente existen en una empresa son accesibles de forma programática. Los datos en PDFs no estructurados, en hojas Excel fragmentadas o en sistemas legacy sin API requieren trabajo adicional para extraerlos.
¿Los datos son completos? Para cada variable relevante al caso de uso: ¿qué porcentaje de registros tiene valor? ¿Los valores faltantes tienen un patrón (ciertos períodos, ciertos productos, ciertos clientes) que podría introducir sesgo?
¿Los datos son consistentes? ¿Los mismos conceptos se codifican de la misma forma en distintos registros y distintos sistemas? ¿Las unidades son homogéneas? ¿Los formatos de fecha son consistentes?
¿El histórico es suficiente y representativo? ¿Cubre suficientes ciclos completos del fenómeno que se quiere modelar? ¿Incluye eventos excepcionales correctamente etiquetados?
Lo que se puede hacer cuando la calidad no es suficiente
Un diagnóstico de datos que revela problemas de calidad no es una sentencia de muerte para el proyecto. Hay opciones:
Limpieza de datos históricos. Para muchos problemas de calidad, la solución es un proceso de limpieza sistemático del histórico. Dependiendo del volumen y la complejidad, esto puede ser un proyecto en sí mismo o una fase del proyecto IA.
Ajustar el alcance del primer proyecto. Si los datos de calidad suficiente cubren solo parte del caso de uso original, puede tener sentido empezar con ese subconjunto — el que tiene datos limpios — y ampliar el alcance una vez que la calidad del resto de datos mejore.
Empezar a recoger datos correctamente ahora. Si el dato que se necesita no existe con suficiente calidad, el momento de empezar a registrarlo bien es ahora. En algunos casos, el proyecto IA empieza con una fase de instrumentación de recogida de datos, y el modelo se construye una vez que hay suficiente histórico de calidad.
Preguntas frecuentes
¿Hay herramientas para evaluar automáticamente la calidad de los datos? Sí. Hay herramientas de data profiling y data quality que analizan automáticamente completitud, consistencia, unicidad y distribución de los datos. Estas herramientas aceleran el diagnóstico pero no lo reemplazan — el experto en el negocio sigue siendo necesario para interpretar los hallazgos.
¿El gobierno del dato es lo mismo que la calidad del dato? Son conceptos relacionados pero distintos. La calidad del dato es el estado actual de los datos (son completos, consistentes, correctos). El gobierno del dato son los procesos, políticas y responsabilidades que aseguran que la calidad se mantiene en el tiempo. Sin gobierno del dato, la calidad se degrada. Sin datos de calidad, el gobierno no tiene objeto. Los proyectos IA bien diseñados abordan ambos.
¿Cuánto tiempo lleva mejorar la calidad de datos de una empresa? Depende del estado inicial y del alcance. Proyectos de limpieza de datos específicos para un caso de uso concreto pueden completarse en semanas. Proyectos de mejora de la calidad de datos a nivel de empresa son iniciativas de largo plazo. La estrategia más práctica es empezar por los datos necesarios para el primer caso de uso de mayor valor.