Qué es un lago de datos y por qué importa

La idea de un lago de datos es posiblemente el aspecto más desafiante de la gestión de la información de comprender. Un lago de datos puede ser considerado no como algo que se compra, sino como algo que se hace. "Lago de datos" suena como un sustantivo, pero funciona como un verbo. Esta guía es un resumen introductorio sobre los lagos de datos.

Índice de Contenido
  1. Resumen ejecutivo
  2. ¿Qué es un lago de datos?
  3. ¿Por qué los lagos de datos son importantes?
  4. ¿A quién afecta esto?
  5. ¿Cuándo sucede esto?
  6. ¿Cómo puedo obtener un lago de datos?

Resumen ejecutivo

  • ¿Qué es? Un lago de datos es un conjunto de información no estructurada que se organiza para su análisis.
  • ¿Por qué es importante? Analizar información estructurada, la cual se ajusta perfectamente a las filas, columnas y tablas de una base de datos, es un proceso relativamente sencillo; sin embargo, analizar información no estructurada es más difícil. Los lagos de datos, generalmente evaluados con el sistema de archivos de código abierto Apache Hadoop, buscan hacer que este proceso sea simple y económico. De esta manera, tu empresa puede aprovechar y explotar información que previamente era considerada aleatoria.
  • ¿A quién afecta? A primera vista, una empresa asignaría proyectos de lagos de datos a un administrador de bases de datos o a un administrador de almacenamiento, aunque la mejor práctica es contratar expertos experimentados en Hadoop. No es obligatorio utilizar Hadoop, se pueden usar otros sistemas de archivos, pero esto sería la excepción y no la norma.
  • ¿Cuándo sucede esto? Ahora. Los lagos de datos se están convirtiendo en un concepto maduro con ofertas de servicios de empresas reconocidas.
  • ¿Cómo obtenerlo? Un lago de datos consta de cuatro partes: fuentes de datos no estructurados, almacenamiento donde reside la información, el sistema de archivos y personas/herramientas para analizarlo. Necesitarás las cuatro partes para convertir tu lago en agua embotellada de manera limpia.

¿Qué es un lago de datos?

James Dixon, director de tecnología de Pentaho, propiedad de Hitachi, es reconocido por acuñar el término "lago de datos" en 2008. Dixon dijo que estaba buscando una forma de explicar datos no estructurados.

Los términos "data mart" y "data warehouse" ya existían; el primero se define generalmente como un concepto a nivel de departamento donde se utiliza efectivamente la información, mientras que el segundo es más un concepto de almacenamiento. Dixon comenzó a pensar en metáforas con el agua: la gente sedienta toma agua de un mart, este obtiene cajas de un almacén, y el almacén obtiene y embotella el agua de la fuente original: el lago.

¿Por qué los lagos de datos son importantes?

Los lagos de datos son importantes porque el lado oscuro de los grandes datos es que alguien tiene que analizarlos. Considera algunas de las fuentes de datos modernas: el caos de los discos duros de los PC de tus usuarios, las redes sociales, el Internet de las Cosas, los dispositivos móviles, las redes clandestinas y quién sabe qué datos guardados en las copias de seguridad en cintas.

Los lagos (con cualquier otro nombre) siempre han existido, explicó Nik Rouda, analista de Enterprise Strategy Group. Acceder a tu lago solía implicar gastar mucho dinero. Normalmente, cuanto más crece la cantidad de datos, más tendrás que gastar.

Algo gracioso sucedió en el camino hacia el futuro: los departamentos de TI ahora tienen acceso fácil a almacenamiento masivo económico, como a través de hardware de bajo costo o en la nube, junto con el sistema de archivos de código abierto Hadoop, el cual puede escalar de maneras que los arreglos de datos no estructurados anteriores no permitían.

Vale la pena invertir en minería de datos

Dixon mencionó un cliente que utilizó lagos de datos ad hoc, Hadoop y servicios de análisis de datos para descubrir intrusiones en los mercados financieros. Dijo que otro cliente utilizó este enfoque para determinar cuándo limpiar los barcos, ahorrando así dinero en combustible debido a una menor resistencia en el mar. No todos los casos son tan emocionantes. Por lo general, el análisis de lagos de datos se puede utilizar para instruir al software de gestión de información sobre cómo reducir los costos de almacenamiento de la empresa y descubrir inteligencia desconocida o perdida.

¿A quién afecta esto?

Nik Rouda dijo que el error más común en los proyectos de lagos de datos es que las empresas no tienen a las personas adecuadas para administrarlos. Los administradores de bases de datos pueden no entender cómo aplicar sus conocimientos a la información no estructurada, mientras que los administradores de almacenamiento suelen centrarse en los aspectos técnicos. Las personas más afectadas por un lago de datos son probablemente aquellas encargadas de administrar el presupuesto, porque la empresa necesitará destinar recursos para contratar expertos en análisis de datos o externalizar este trabajo a una organización de servicios profesionales.

¿Cuándo sucede esto?

Los lagos de datos se están convirtiendo en un concepto maduro. Las agencias federales de inteligencia utilizan lagos de datos para rastrear delincuentes, estafadores y terroristas. Las empresas están siguiendo el ejemplo y comenzando a utilizar lagos de datos para proyectos críticos, no solo en experimentos científicos.

Un factor en evolución es la seguridad. Las empresas en el nicho de los lagos de datos están comenzando a darse cuenta de que la seguridad es vital, ya que crear un lago implica sacar los datos de su ubicación normal y, a menudo, confiarlos a proveedores externos.

¿Cómo puedo obtener un lago de datos?

Una vez que hayas identificado tus fuentes de datos no estructurados, necesitarás almacenarlos en algún lugar. Esto puede ser lo que los administradores de almacenamiento llaman "solo un conjunto de discos" (JBOD) en una configuración RAID, o puede ser en una red de área de almacenamiento (SAN) si tienes el espacio y el presupuesto. También puedes utilizar almacenamiento en la nube. Amazon Web Services y Microsoft Azure son opciones comunes. A continuación, elige un sistema de archivos: Hadoop de Apache es la elección abrumadora.

La parte más difícil es averiguar qué hacer realmente con tu lago. Proveedores de servicios profesionales como Accenture, Cap Gemini y Deloitte pueden ofrecerte asistencia. Las divisiones de servicios de empresas de TI como EMC (próximamente Dell), HP Enterprise e IBM también están en la lista. Pentaho y otras empresas más pequeñas también pueden echarte una mano. Dixon bromeó diciendo que encontrar un experto asequible para que forme parte de tu personal a tiempo completo sería lo ideal.

Fase de análisis: Entendiendo lo que el cliente quiere

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Big Data, allí encontraras muchos artículos similares a Qué es un lago de datos y por qué importa , tenemos lo ultimo en tecnología 2023.

Artículos Relacionados

Subir

Utilizamos cookies para mejorar su experiencia de navegación, mostrarle anuncios o contenidos personalizados y analizar nuestro tráfico. Al hacer clic en “Aceptar todo” usted da su consentimiento a nuestro uso de las cookies.