La limpieza de datos es el descubrimiento, corrección o eliminación de registros de datos erróneos. Es decir, un proceso que permite identificar datos incompletos, incorrectos, inexactos y no pertinentes, para luego substituir, modificar o eliminar los mismos.
Aunque la limpieza de datos es una de las etapas menos llamativas para implementar estrategias de Inteligencia Artificial (A.I.) en la empresa, es de las más importantes, ya que podría evitar que nuestras iniciativas arrojen modelos erróneos e inutilizables que por desgracia conllevarían a una pérdida de tiempo y dinero.
Imaginemos que queremos construir una casa. Anotamos en una hoja de cálculo la descripción junto con la cantidad de materiales y especificaciones. Luego visitamos una tienda en línea para comprar los materiales y cometemos un error al ingresar las especificaciones.
En el mejor de los casos, el resultado sería construir una casa fuerte y superior a lo que planificamos. Por otra parte, teniendo en cuenta el peor escenario, la casa podría derrumbarse por no cumplir con las especificaciones de diseño.
Para eso está la limpieza de datos. Como su nombre lo indica, sirve para asegurarnos que los datos usados para el procesamiento y la toma de decisiones tengan la calidad requerida para la obtención de información correcta.
¿Y CUÁLES SON LOS REQUISITOS PARA LA CALIDAD DE DATOS?
- Exactitud: los datos deben cumplir los requisitos de integridad, consistencia y densidad.
- Integridad: los datos deben cumplir los requisitos de entereza y validez.
- Entereza: alcanzado por la corrección de datos que contienen anomalías.
- Validez: alcanzado por la cantidad de datos que satisfacen las restricciones de integridad.
- Consistencia: alcanzado por la corrección de contradicciones y anomalías sintácticas.
- Uniformidad: relacionado con irregularidades.
- Densidad: conocer el cociente de valores omitidos sobre el número de valores totales.
- Unicidad: relacionado con datos duplicados.
Ahora que ya tenemos esto claro podemos definir un esquema de limpieza de datos. Aquí un ejemplo:
- Crear un diccionario de datos. Definir el tipo de datos numéricos, cadena y fecha.
- Comprobar consistencia de los datos.
- Identificar datos en blanco. Borrado e Imputación de datos.
- Outliers. Detección y Manejo.
- Mezcla de datos.
HERRAMIENTAS PARA LIMPIEZA DE DATOS Y MANIPULACIÓN DE DATOS
Existe gran variedad de herramientas open source, propietarias y también otras enfocadas en desarrolladores. Presentamos a continuación una lista de algunas de las más conocidas:
OPEN SOURCE
- Open Refine.
- Talend.
- Dataladder.
COMERCIALES
- DataCleaner.
- Trifacta.
- WinPure Clean & Match.
PROGRAMACIÓN
- Pandas. Python.
- Optimus. PySpark.
LIMPIEZA, CALIDAD Y GOBIERNO DE DATOS
La estrategia de limpieza de datos debe estar bajo la tutela de la estrategia de gobierno de datos, la cual definirá las personas, los procesos y la tecnología necesaria para alcanzar los objetivos de la organización.
Desde nuestra experiencia, siempre es recomendable empezar la implementación de un gobierno de datos a la menor escala posible. En un departamento de la empresa o como un experimento inicial investigando sobre el comportamiento de los clientes o preferencias de los mismos.
Para más información sobre cómo implementar una estrategia de limpieza, calidad y gobierno de datos contacte con nosotros.