Cómo reducir y eliminar el error de medición en tus análisis de datos

Al analizar los datos de los clientes, no me sorprende encontrar irregularidades que claramente están equivocadas, pero aún así resulta divertido.

Por ejemplo, estoy trabajando con una gran compañía de petróleo y gas que está interesada en medir el grosor de las tuberías. Contratan a contratistas especializados en esta área para tomar mediciones periódicas, y luego sus inspectores analizan los datos para ver si es necesario hacer algo con las tuberías que se están volviendo demasiado delgadas.

Desafortunadamente, el análisis temporal preliminar parece ser un poco dudoso. Aunque los contratistas toman las mediciones en el mismo lugar de la misma tubería, una interpretación literal de los datos sugeriría que ¡algunas tuberías en realidad aumentan su grosor con el tiempo! Lo cual no es probable. Lo más probable es un error de medición.

Índice de Contenido
  1. Errar es humano
  2. Técnicas para reducir o eliminar el error de medición
  3. Resumen

Errar es humano

El error de medición es la cantidad de variabilidad del proceso que se puede atribuir a la recolección y medición de los datos.

Imagina a dos cronometristas capturando el tiempo de ciclo, en milésimas de segundo, de un jugador de fútbol americano corriendo 40 yardas. ¿Tendrán exactamente el mismo tiempo? Probablemente no. Pero solo hay un tiempo verdadero, ¿verdad? Entonces, ¿qué valor utilizarás como el tiempo de ciclo de registro? Cualquiera que elijas contendrá cierto grado de error debido a la forma en que se recolectaron los datos.

Este es un concepto importante tanto para los científicos de datos como para los consumidores de ciencia de datos, porque el valor de cualquier algoritmo depende de la calidad de sus entradas. Y aunque todos estamos de acuerdo con esta premisa, a menudo se pasa por alto la confiabilidad del sistema utilizado para recolectar los datos.

Vale la pena invertir en minería de datos

El Análisis del Sistema de Medición (MSA, por sus siglas en inglés) es un método estructurado y matemático para determinar cuántos de los problemas de calidad de datos están causados por el sistema de medición. La industria automotriz estableció una regla generalmente aceptada sobre el error de medición: menos del 10% es lo mejor, pero no debería superar el 30%.

Supongamos que estás analizando el rendimiento general de nuestro jugador de fútbol mencionado anteriormente. En los últimos 100 sprints, notas un tiempo promedio de 4.523 segundos, con una desviación estándar de 0.132 segundos, no está mal. La variación total se debe a más que solo el error de medición, por ejemplo, algunos días puede que no se sienta bien. Sin embargo, parte de esa variabilidad se debe al hecho de que los cronometristas no pueden registrar el verdadero tiempo de ciclo, por lo que hacen lo mejor que pueden. Pero no queremos que representen más del 30% de esos 0.132 segundos de desviación estándar.

Técnicas para reducir o eliminar el error de medición

Si tu sistema de medición contribuye con más del 30% de tu error total, es necesario hacer algo para mejorarlo. Y aunque estés por debajo del 30%, o incluso por debajo del 10%, el objetivo debería ser eliminar por completo el error de medición. Los estadísticos tendrán problemas con ese comentario, porque estadísticamente no se puede eliminar el error de medición, pero no uses eso como excusa; puedes y debes establecer cero como tu objetivo. La estrategia más eficaz es alejar a los humanos del proceso.

No me gusta señalar a nuestra propia especie, pero si quieres una medición precisa, un humano es la herramienta equivocada. En nuestro ejemplo ficticio del jugador de fútbol y en nuestro ejemplo muy real de medición de tuberías, los humanos son la raíz de nuestros problemas de medición, no necesitas un análisis de causa raíz para darse cuenta de eso. De hecho, la Liga Nacional de Fútbol Americano (NFL, por sus siglas en inglés) cambió a cronometraje electrónico hace más de una década por esta misma razón.

El uso de computadoras y otros medios automatizados/electrónicos para registrar mediciones es obvio, pero lo que no es tan obvio es que incluso una computadora no puede garantizar mediciones precisas. Cuando trabajé con una gran institución financiera en ciberseguridad, nos enfrentamos a un gran problema durante un análisis de series de tiempo utilizando varios puntos de recopilación de datos (no humanos). En algunos casos, encontramos una transacción aprobada antes de que se iniciara (el humor de eso nunca me abandona). Obviamente, eso no fue lo que sucedió; había un problema de sincronización de tiempo entre diferentes servidores.

El error de medición como este se detecta explícitamente, aunque la mayoría de los errores del sistema de medición electrónico pasan desapercibidos porque la medición proviene de una única fuente de recopilación. Deberías idear una forma de recolectar la misma medición desde al menos dos fuentes.

Fase de análisis: Entendiendo lo que el cliente quiere

Por último, formaliza un proceso para erradicar el error de medición. Refuerza tus habilidades en análisis de Fuentes de Variación (SOV, por sus siglas en inglés); estos son análisis especializados creados con el propósito específico de aislar la naturaleza y magnitud de la variación. Una vez que hayas identificado al mayor contribuidor del error de medición, toma medidas específicas para eliminarlo. Por ejemplo, si el exceso de E/S de archivo está comprometiendo la integridad de los tiempos reportados en tus registros web, mueve el servidor web a una máquina menos activa. Hay más valor en el proceso que en la solución; no habrías encontrado el exceso de E/S de archivo si no lo hubieras estado buscando, y no te darías cuenta de que tu servidor está generando tiempos erróneos si no estuvieras tomando mediciones sombra.

Resumen

No puedes gestionar lo que no puedes medir, y no puedes medir sin las herramientas adecuadas. Todo análisis de datos depende de los datos subyacentes, que deben recolectarse de alguna manera. Si ese proceso de recolección está generando datos incorrectos, tu análisis está condenado desde el principio.

Tómate el tiempo para analizar tu proceso de recolección de datos y sistema de medición antes de construir tus sofisticados algoritmos de datos. Evita los sistemas de recolección de datos humanos; asegúrate de tener múltiples lecturas para el mismo punto de datos; y formaliza un proceso para eliminar el error de medición.

Ya lidias con suficientes problemas de calidad de datos, no permitas que el error de medición exacerbe el problema.

Los 12 errores más comunes al trabajar con el objeto Recordset en Access

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Big Data, allí encontraras muchos artículos similares a Cómo reducir y eliminar el error de medición en tus análisis de datos , tenemos lo ultimo en tecnología 2023.

Artículos Relacionados

Subir

Utilizamos cookies para mejorar su experiencia de navegación, mostrarle anuncios o contenidos personalizados y analizar nuestro tráfico. Al hacer clic en “Aceptar todo” usted da su consentimiento a nuestro uso de las cookies.