Descubre tu próxima gran idea en PACK EXPO Las Vegas este septiembre
Experimenta el avance innovador en empaque y procesamiento y transforma tu negocio con propuestas de 2,300 proveedores de todos los sectores
Regístrate ya y ahorra!

Mucho ruido y pocas nueces sobre la calidad de los datos

Asegurar una calidad de datos adecuada para las iniciativas de transformación digital se basa en un enfoque de dos vertientes que enfatiza en la tecnología y la comunicación humana.

Mucho ruido y pocas nueces sobre la calidad de los datos

Por David Miller 

A medida que la era de la Industria 4.0, con sus promesas de análisis predictivo, planificación empresarial integrada y mayores eficiencias operativas, continúa calentándose, Big Data es un tema en la mente de todos. Sin embargo, con tanta discusión sobre el valor potencial que se puede aprovechar de las crecientes cantidades de datos que generan todo tipo de sensores y dispositivos, se presta menos atención al precursor demasiado necesario de la analítica eficaz: la calidad de los datos.

En este ámbito, la máxima ancestral "la basura entra, la basura sale" sigue reinando. Incluso los algoritmos de aprendizaje automático más avanzados son inútiles cuando se alimentan con datos de baja calidad.

"La calidad de los datos lo es todo", dice Tom Redman, presidente de Data Quality Solutions. “Lo primero es que si está utilizando datos existentes para entrenar un modelo y no hace un buen trabajo al limpiarlo, obtendrá un mal modelo. Incluso si el modelo [que construye] es bueno, si le agrega datos incorrectos, obtendrá un mal resultado. Si apila estos datos, es como una cascada y el problema se saldrá de control rápidamente".

Entonces, ¿cómo se define qué son o no datos de calidad? Esta es una pregunta desafiante porque gran parte de la respuesta depende del problema particular que está buscando resolver. En términos generales, la calidad de los datos se puede medir de acuerdo con cuatro dimensiones principales: precisión, coherencia, integridad y puntualidad.

Si los valores que se han recopilado a través de una red tienen precisión, reflejan correctamente la información producida por cada dispositivo. Por ejemplo, si varios dispositivos dentro de un solo espacio informan la temperatura ambiente en esa área, los analistas de datos deben esperar que esos valores sean iguales o con una desviación razonable entre sí. La consistencia es similar. Cuando los datos son consistentes, significa que múltiples eventos reportados bajo condiciones similares no exhiben variaciones irreconciliables. Por el contrario, la integridad se logra cuando no hay brechas sustanciales en una serie de tiempo de eventos reportados o valores capturados de sensores. Por último, si los datos poseen actualidad, significa que han podido pasar desde su punto inicial de creación a través de varios protocolos de comunicación y niveles de integración a una plataforma de gestión de datos donde se pueden sincronizar con datos de otras fuentes con la suficiente rapidez para ser efectivos y que se pueda actuar en consecuencia.


Véalo en vivo en PACK EXPO Connects del 9 al 13 de noviembre: OptiMate, la nueva interfaz de máquina con conectividad y funcionalidades inteligentes para optimizar la calidad y el desempeño de su equipo, de Coesia. Obtenga una vista previa de su Showroom aquí. 


Si bien tal torbellino de métricas y criterios puede parecer complicado, Redman dice que todo se puede resumir en dos axiomas simples. Los datos deben ser correctos, lo que significa que son precisos, coherentes y completos. También deben ser los datos correctos, lo que implica no solo cumplir con los estándares técnicos de calidad, sino también ser imparcial y pertenecer al rango particular de insumos para los que se pretende desarrollar un modelo predictivo. Un equipo mal calibrado puede ser responsable de las deficiencias en el primero, pero el segundo es especialmente importante porque requiere el conocimiento y la creatividad de los analistas humanos y su capacidad para comunicar sus necesidades a los técnicos operativos que crean datos hacia arriba del proceso.

Garantizar la calidad de los datos desde el principio

El enfoque de Redman para garantizar la calidad de los datos difiere de otros en que, si bien reconoce que la tecnología es importante, cree que es, ante todo, una preocupación de gestión. En su opinión, cuando la comunicación entre los creadores de datos y los usuarios de datos se hace más clara, se vuelve exponencialmente más fácil no solo recopilar los datos correctos, sino también los datos correctos.

“Una cosa que notará es que nadie crea realmente datos incorrectos si los van a usar ellos mismos, pero muchos datos se crean la primera vez en una parte de una organización y no se usan más hasta otro momento en otro lugar de la empresa. Las personas siguen alegremente creando los datos, y luego quienes tienen que usarlos dicen: 'Ah, esto no está bien', y luego deben hacer una limpieza", dice. “Nunca se les ocurre que tal vez deberían averiguar quién está creando los datos e ir allí y hablar un poco sobre sus requisitos. El objetivo de la calidad de los datos debe ser salir del negocio de una limpieza completa".



Destácate del resto: descubre las novedades en empaque y procesamiento!
<strong>En PACK EXPO Las Vegas, encuentra maquinaria en funcionamiento, tecnología de 2.300 proveedores, expertos de la industria y soluciones que transforman. Acompáñanos este septiembre y experimenta los avances en empaque y procesamiento.</strong>
Regístrate ya y ahorra!
Destácate del resto: descubre las novedades en empaque y procesamiento!