Cómo mejorar la calidad de los datos en los lagos de datos

Desde hace mucho tiempo, las empresas han intentado almacenar datos y hacerlos útiles. Desafortunadamente, a veces la forma en que las empresas almacenan los datos no se correlaciona directamente con hacerlos útiles. Sí, estoy hablando de los lagos de datos.

Cómo mejorar la calidad de los datos en los lagos de datos - Big Data | Imagen 1 Newsmatic

La promesa de los lagos de datos es clara: un lugar central para que una empresa empuje sus datos. De alguna manera, los lagos de datos podrían verse como la próxima generación de almacenes de datos. Sin embargo, a diferencia del almacén, los lagos de datos permiten a las empresas verter datos en el lago sin limpiarlos y prepararlos de antemano.

Este enfoque simplemente retrasa la necesidad inevitable de dar sentido a esos datos. Sin embargo, las iniciativas de calidad de datos debidamente aplicadas pueden simplificar y estandarizar la forma en que se utilizan los lagos de datos. En esta guía, aprenda formas útiles de hacer que todos esos datos sean accesibles para los analistas de negocios, científicos de datos y otros en su empresa que se les paga para dar sentido a ellos.

Salta a:

  • ¿Qué es un lago de datos?
  • Desafíos comunes con los lagos de datos
  • Top 5 consejos para mejorar la calidad de los datos dentro de los lagos de datos
Índice de Contenido
  1. ¿Qué es un lago de datos?
  2. Desafíos comunes con los lagos de datos
  3. Top 5 consejos para mejorar la calidad de los datos dentro de los lagos de datos
    1. Transforma los lagos de datos en casas de lagos de datos
    2. Estandariza los formatos de datos lo antes posible
    3. Implementa políticas de gobierno de datos de inmediato
    4. Implementa gestión del cambio organizacional y procedimientos relacionados con los lagos de datos
    5. Contrata a un ingeniero de datos

¿Qué es un lago de datos?

Un lago de datos es un repositorio central para almacenar datos, sea cual sea la fuente o naturaleza (estructurados, no estructurados o semi-estructurados) de esos datos. A diferencia de un almacén de datos en el que los datos se almacenan en archivos y carpetas, un lago de datos mantiene los datos en una estructura plana y utiliza almacenamiento de objetos que está etiquetado para una recuperación más fácil y rápida.

Vale la pena invertir en minería de datos

También a diferencia de un almacén de datos, que requiere que los datos entrantes se almacenen en un esquema común para facilitar el procesamiento, los lagos de datos permiten a las empresas almacenar los datos en su formato sin procesar. Los almacenes de datos tienden a almacenar datos en formatos relacionales, extrayendo datos estructurados de aplicaciones y sistemas transaccionales. Permiten consultas SQL rápidas pero tienden a ser costosos y propietarios.

Los almacenes de datos también suelen ser utilizados de manera incorrecta, como ha argumentado el CEO de Decodable, Eric Sammer, al poner procesos ETL costosos y lentos entre aplicaciones para mover datos. Los lagos de datos, en cambio, tienden a almacenar datos en formatos abiertos y permiten una gama más amplia de consultas analíticas.

Es decir, si primero puedes dar sentido a los datos.

Desafíos comunes con los lagos de datos

Este es el primer y más urgente problema de los lagos de datos: aprender cómo dar sentido a esos datos tan dispares.

En una entrevista con David Meyer, SVP de Gestión de Productos en Databricks, uno de los principales proveedores de soluciones de lago de datos y almacén de datos, destacó los beneficios de los lagos de datos como "grandes en muchos aspectos" porque "puedes meter todos tus datos en ellos".

El problema, sin embargo, es que "no tienen muchas características que querrías para hacer análisis de datos y IA a gran escala". Continuó diciendo que "no eran transaccionales ni cumplían con ACID. No eran rápidos".

Fase de análisis: Entendiendo lo que el cliente quiere

Databricks ha solucionado muchos de esos problemas mediante la superposición de cosas como capacidades de gobierno y luego la liberación en código abierto. Como ejemplo, desarrollaron el formato Delta Lake, para el cual Google Cloud anunció recientemente su soporte. El formato Delta Lake convierte en esencia un lago de datos en un almacén de datos.

Aunque no sufren de los mismos problemas que los almacenes de datos, los lagos de datos pueden ser costosos de implementar y mantener, en parte porque incluso los profesionales capacitados pueden encontrar dificultades para administrarlos.

La falta de estructura puede parecer liberadora cuando se ingieren datos, pero puede ser una carga cuando una empresa espera dar sentido a los datos. En ausencia de algo como la superposición de gobierno de Databricks, los lagos de datos a menudo sufren de un mal gobierno y falta de seguridad.

A pesar de todo, hay suficiente promesa en los lagos de datos para que las empresas sigan invirtiendo en ellos para sus necesidades de gestión de datos. Entonces, ¿cómo pueden las empresas usar los lagos de datos de manera inteligente?

Top 5 consejos para mejorar la calidad de los datos dentro de los lagos de datos

Transforma los lagos de datos en casas de lagos de datos

Una respuesta al lago de datos tradicional es convertirlo en algo más. Databricks fue el primero en idear la idea de una "casa de lagos de datos", que combina lo mejor de los lagos de datos y los almacenes de datos al agregar una capa de almacenamiento transaccional encima del lago de datos.

Esto significa, como ha descrito Meyer, "no tienes que copiar los datos. Puedes dejar los datos donde están." Los datos permanecen en el lago, pero si se almacenan en el marco de almacenamiento de código abierto de Delta Lake, se pueden utilizar herramientas de almacenamiento de datos de Databricks, BigQuery de Google u cualquier otro proveedor que admita el formato para mejorar la calidad de los datos.

Los 12 errores más comunes al trabajar con el objeto Recordset en Access

Estandariza los formatos de datos lo antes posible

Como he mencionado antes, hay varios enfoques efectivos para mejorar la calidad de los datos, y muchos de ellos también se aplican a los lagos de datos. Aunque puede ser tentador volcar los datos en un lago sin preocuparse por el esquema, un enfoque más inteligente es aplicar un pensamiento previo. Muchas empresas están completando proyectos extensos de limpieza y preparación de datos antes de agregar sus datos a los entornos de lago de datos.

Probablemente, no querrás asumir la carga de reconstruir bases de datos después del hecho. Para mantenerse al día con tus competidores, piensa con anticipación y estandariza los formatos de datos cuando se ingieran los datos; este paso puede eliminar gran parte del dolor asociado con la preparación de datos.

Implementa políticas de gobierno de datos de inmediato

Así es, a pesar de la promesa de libertad sin restricciones en el lago de datos, en realidad querrás implementar políticas y prácticas sólidas de gobierno de datos para asegurarte de que tu lago de datos no se convierta en un pantano de datos. El gobierno de datos dicta cómo una organización gestiona sus datos a lo largo del ciclo de vida de los datos, desde la adquisición hasta la eliminación, así como los diferentes modos de uso intermedios.

Aunque el gobierno de datos implica herramientas, es mucho más que eso: también implica los procesos que las personas deben seguir para garantizar la seguridad, disponibilidad e integridad de los datos.

Implícito en esto está la realidad de que la calidad de los datos es más una cuestión de proceso que de herramientas. Estos procesos incluyen definir estándares "suficientemente buenos" para la calidad de los datos y convertirlo en un tema recurrente en las reuniones del comité de gobierno de datos.

Tales procesos ayudan a asegurar que los empleados puedan confiar en los datos que están utilizando para alimentar una variedad de casos de uso operativos, especialmente operaciones de IA/ML. Con las tecnologías de IA y ML aumentando su prominencia y casos de uso empresariales, la consistencia, integridad y calidad general de los datos continúan aumentando en valor empresarial.

Las mejores herramientas de inteligencia empresarial para tomar decisiones basadas en datos

En relación con esto, probablemente no querrás buscar y sanitizar datos que contengan información privada de forma retroactiva después de que ya estén en el lago de datos. Es inteligente pseudonimizar la información de identificación personal antes o al ingresar al lago de datos. Este enfoque te permite cumplir con las regulaciones del GDPR y almacenar los datos indefinidamente.

Implementa gestión del cambio organizacional y procedimientos relacionados con los lagos de datos

También es importante recordar que los silos de datos y la calidad de datos descuidada son un reflejo de las personas y las organizaciones que los crean. Como tal, una de las mejores formas de mejorar la calidad de los datos dentro de los lagos de datos es mejorar la estructura organizativa que alimenta los datos en el lago.

Considera invertir en formación de calidad de datos para tu personal y asegúrate de ofrecerles capacitación regular sobre las mejores prácticas de seguridad de datos y conocimientos generales sobre datos.

Contrata a un ingeniero de datos

No importa qué tan bien te vaya con el resto de estos consejos, tu empresa debe contratar y retener a buenos ingenieros de datos si quieres preparar tus lagos de datos para el éxito. Independientemente de los procesos que se hayan utilizado en la creación de datos y silos de datos, acceder a los datos sigue siendo una tarea más adecuada para un ingeniero de datos, que no es lo mismo que un científico de datos o un analista de negocios.

Aunque puede ser difícil contratar científicos de datos, los ingenieros de datos son aún más escasos, tal vez haya un ingeniero de datos por cada 100 científicos de datos o analistas de negocios en una empresa dada. Un ingeniero de datos prepara los datos para usos operativos y/o analíticos, y son escasos. Sin embargo, sus habilidades valen la inversión que se necesita para incorporarlos en la gestión del lago de datos y la calidad de los datos.

Divulgación: Trabajo para MongoDB, pero las opiniones expresadas aquí son mías.

Cómo agregar una barra de desplazamiento a un gráfico en Excel

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Big Data, allí encontraras muchos artículos similares a Cómo mejorar la calidad de los datos en los lagos de datos , tenemos lo ultimo en tecnología 2023.

Artículos Relacionados

Subir

Utilizamos cookies para mejorar su experiencia de navegación, mostrarle anuncios o contenidos personalizados y analizar nuestro tráfico. Al hacer clic en “Aceptar todo” usted da su consentimiento a nuestro uso de las cookies.