Qué Datos Necesita tu Empresa para Empezar con IA

“Tenemos muchos datos pero no los estamos aprovechando.” Esta frase la escuchamos constantemente. Y también su opuesto: “No tenemos datos suficientes para IA.” Curiosamente, ambas afirmaciones provienen a veces de la misma empresa, dependiendo de con quién hables.

La realidad es que los datos necesarios para IA dependen completamente del tipo de proyecto. No hay un umbral universal. Lo que sí existen son patrones claros que permiten evaluar si los datos disponibles son suficientes para un caso de uso específico, y qué hacer cuando no lo son.

El mito de los “big data”

Uno de los malentendidos más extendidos es que la IA requiere cantidades masivas de datos. Este malentendido viene en parte del marketing de los últimos años, que asociaba IA con los proyectos de Google o Amazon procesando miles de millones de registros.

La realidad empresarial es diferente. Un modelo de predicción de ventas para una empresa mediana de Cantabria puede funcionar perfectamente con un histórico suficiente de datos de pedidos — no necesariamente enormes volúmenes, sino datos representativos del negocio. Un sistema de detección de anomalías en una línea de producción puede entrenarse con el histórico de datos de sensores disponible. Un clasificador de documentos puede ser preciso con cientos de ejemplos etiquetados, no millones.

Lo que importa no es el volumen absoluto sino si los datos cubren suficiente variabilidad del fenómeno que se quiere modelar. Un año de datos en un negocio estacional tiene mucho menos valor que tres años que capturen varios ciclos completos.

Las tres dimensiones que realmente importan

Relevancia: Los datos disponibles deben contener información sobre las variables que determinan el resultado que se quiere predecir o automatizar. Parece obvio, pero no lo es: muchas empresas tienen datos abundantes sobre lo que es fácil de medir (tiempos de proceso, cantidades producidas) y datos escasos sobre lo que determina los resultados que más importan (motivos de cancelación de clientes, causa raíz de defectos de calidad).

Calidad: Los datos pueden existir pero ser inutilizables si tienen tasas elevadas de valores nulos, errores de entrada sistemáticos, duplicados o incoherencias entre sistemas. Una regla práctica: si los datos tienen más del 20-30% de valores faltantes en las variables clave, el proyecto de limpieza de datos precede al proyecto de IA.

Estructura temporal: Para modelos predictivos, el histórico necesita cubrir suficiente tiempo para que el modelo aprenda los patrones relevantes. Si el negocio tiene estacionalidad anual, dos o tres años de datos son mucho más útiles que seis meses.

Tipos de proyecto y sus requerimientos de datos

Automatización con IA generativa (clasificación de emails, resumen de documentos, generación de respuestas): No requiere datos de entrenamiento propios. Los modelos de lenguaje grandes ya están preentrenados. Lo que se necesita son los documentos o textos que sirven como contexto (manuales, catálogos, FAQs). Cualquier empresa con documentación interna tiene suficiente.

Modelos de predicción supervisada (demanda, churn, precios): Necesitan histórico de la variable a predecir más las variables explicativas relevantes. El volumen mínimo depende del problema: necesitas suficientes ejemplos del evento que se predice para que el modelo aprenda el patrón. Si el evento es poco frecuente, el histórico necesario es mayor. Más datos es mejor, aunque con rendimiento marginal decreciente a partir de cierto punto.

Visión artificial (control de calidad, clasificación de imágenes): Necesita imágenes etiquetadas por categoría. El volumen mínimo depende de la complejidad del problema, pero una referencia habitual son cientos de imágenes por clase. Con técnicas de transferencia de aprendizaje, este requerimiento se reduce significativamente.

Detección de anomalías (mantenimiento predictivo, fraude): Puede funcionar con datos predominantemente “normales” si el fenómeno anómalo es raro. Los modelos aprenden primero el comportamiento normal y detectan desviaciones. El histórico de fallos o fraudes ayuda, pero no siempre es indispensable.

Qué hacer cuando los datos no son suficientes

Esta es la situación más frecuente en empresas que empiezan su camino IA, y no tiene por qué ser un bloqueante.

Empezar a recoger datos sistemáticamente. Si el dato que necesitas no se registra hoy, el momento de empezar a registrarlo es ahora. Muchos proyectos IA exitosos empezaron seis o doce meses antes de entrenar un solo modelo, construyendo la infraestructura de recogida de datos.

Ajustar el caso de uso al dato disponible. En lugar de atacar el problema óptimo, atacar el problema que los datos actuales permiten resolver. Un modelo menos ambicioso pero en producción genera más valor que un modelo perfecto que nunca llega a existir.

Técnicas de data augmentation. En visión artificial, existen técnicas para multiplicar artificialmente el volumen de datos de entrenamiento (rotaciones, variaciones de iluminación, etc.). En otros dominios, hay técnicas de síntesis de datos que amplían un conjunto de entrenamiento pequeño.

Transferencia de aprendizaje. Los modelos preentrenados en grandes conjuntos de datos pueden adaptarse a tareas específicas con relativamente pocos datos propios. Esta técnica ha reducido dramáticamente los requerimientos de datos de entrenamiento en muchos tipos de problemas.

El inventario de datos como primer paso

Antes de decidir si hay datos suficientes para un proyecto IA, vale la pena hacer un inventario sistemático: qué datos se registran, en qué sistemas están, con qué calidad, desde cuándo y si pueden exportarse y cruzarse con otras fuentes.

Este inventario — que es parte de lo que una auditoría IA hace sistemáticamente — raramente produce sorpresas positivas o negativas extremas. Lo habitual es encontrar datos suficientes para algunos casos de uso prioritarios, datos de calidad mejorable para otros y lagunas claras que señalan dónde invertir en infraestructura de datos.

Preguntas frecuentes

¿Los datos de proveedores o datos externos pueden complementar los propios? Sí, en muchos casos. Los datos meteorológicos, económicos o de tráfico pueden enriquecer modelos de predicción. Los datos de sector o benchmarks de industria pueden proporcionar contexto. La clave es asegurar que la integración de datos externos cumple con la normativa de privacidad aplicable y que los datos externos tienen la calidad y frecuencia de actualización que el modelo necesita.

¿Cuánto tiempo se tarda en “limpiar” datos para un proyecto IA? Depende del estado inicial. En proyectos donde los datos están en sistemas bien mantenidos, la preparación es relativamente directa. En proyectos donde los datos están en múltiples fuentes con formatos heterogéneos y problemas de calidad, la preparación puede ser el trabajo más largo de todo el proyecto — con diferencia.

¿Qué pasa con los datos personales de clientes? Trabajar con datos personales en proyectos IA tiene implicaciones bajo el RGPD y, según el tipo de proyecto, bajo el EU AI Act. La minimización de datos — usar solo los datos estrictamente necesarios — y el anonimato o seudonimato de los datos de entrenamiento son buenas prácticas que reducen el riesgo regulatorio y también los riesgos de privacidad.