Algo esencial para para poder aplicar la tecnología Big Data son los datos, considerados la gasolina del siglo XXI.
Según la Wikipedia, un dato “es una representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de un atributo o variable cuantitativa o cualitativa…” Aunque “Los datos aisladamente pueden no contener información humanamente relevante. Solo cuando un conjunto de datos se examina conjuntamente a la luz de un enfoque”.
Por lo tanto, en estructuras de datos, el dato es la parte mínima de la información, pero de una gran notabilidad para la sociedad actual.
Todo sobre… Los datos
En entornos Big Data nos movemos del Data Warehouse al Data Lake:
- De los datos almacenados en un Data Warehouse, que son los que están estructurados y que se utilizan para su análisis y para la generación de informes
- Y los Data Lake, que almacena datos de distintas fuentes, multiestructurados. Y se mantienen en su formato original hasta que se decide que van a ser utilizados para la consecución de algún fin.
En este desarrollo de la búsqueda contante de conocimientos, el proceso es el que nos puede dar información relevante.
¿Conoces las diferencias más relevantes entre el Data Warehouse y el Data Lake?
Almacenamiento
- El Data Lake guarda los datos independientemente de la fuente y su estructura por eso los datos se mantienen en su forma sin procesar. Por lo tanto, estos datos solo se transforma cuando está listo para ser utilizado.
- En cambio con el Data Warehouse los datos se extraen de sistemas transaccionales, que consisten en métricas cuantitativas con sus atributos. Los datos se limpian y transforman.
Historia
- El Data Lake es relativamente reciente y el Data Warehouse se lleva usando durante décadas.
Captura de datos
- El Data Lake captura todo tipo de datos y estructuras, semiestructurados y no estructurados en su forma original de los sistemas de origen.
- El Data Warehouse captura información estructurada y la organiza en esquemas definidos para fines de almacenamiento.
En el fascinante mundo del Big Data, navegamos de manera fluida y sin límites, transitando desde el confinamiento estructurado del Data Warehouse hasta la vastedad expansiva del Data Lake
Cronograma de datos
- EL Data Lake puede retener todos los datos. Esto incluye no solo los datos que están en uso, sino también los datos que podría usar en el futuro. Además, los datos se guardan para siempre, para retroceder en el tiempo y hacer un análisis.
- En cambio, el Data Warehouse dedica un tiempo considerable a analizar diversas fuentes de datos.
Usuarios
- El Data Lake es ideal para los usuarios que se entregan a un análisis profundo. Dichos usuarios incluyen científicos de datos que necesitan herramientas analíticas avanzadas con capacidades como el modelado predictivo y el análisis estadístico.
- En cambio, el Data Warehouse es perfecto para usuarios operativos debido a que está bien estructurados, es fácil de usar y comprender.
Costes de almacenamiento
- Por parte del El Data Lake, el almacenamiento es relativamente económico.
- El almacenamiento del Data Warehouse es costoso y lleva mucho tiempo.
Tarea
- El Data Lake puede contener todos los datos y tipos de datos; permite a los usuarios acceder a los datos antes del proceso de transformación, limpieza y estructuración.
- El Data Warehouse proporcionar información sobre preguntas predefinidas para tipos de datos predefinidos.
Tiempo de procesamiento
- El Data Lake capacita a los usuarios para acceder a los datos antes de que se hayan transformado, depurado y estructurado. Por lo tanto, permite a los usuarios llegar a su resultado más rápidamente en comparación con el almacén de datos tradicional.
- Por contra, el Data Warehouse ofrece información sobre preguntas predefinidas para tipos de datos predefinidos. Por lo tanto, cualquier cambio en el almacenamiento de datos requería más tiempo.
Posición del esquema
- Con el Data Lake, normalmente, el esquema se define después de que se almacenan los datos. Esto ofrece una gran agilidad y facilidad de captura de datos, pero requiere trabajo al final del proceso.
- Con el Data Warehouse, el esquema se define antes de almacenar los datos. Requiere trabajo al inicio del proceso, pero ofrece rendimiento, seguridad e integración.
Procesamiento de datos
- El Data Lake utiliza el proceso ELT.
- El Data Warehouse utiliza un proceso tradicional ETL.
Deficiencias
- El Data Lake solo se transforma cuando está listo para ser utilizado.
- El Data Warehouse le es difícil realizar cambios en los datos.
Beneficios
- El Data Lake integran diferentes tipos de datos para generar preguntas completamente nuevas, ya que no es probable que estos usuarios utilicen almacenes de datos porque es posible que deban ir más allá de sus capacidades.
- Con el Data Warehouse la mayoría de los usuarios de una organización están operativos. Este tipo de usuarios solo se preocupan por los informes y las métricas clave de rendimiento.
En definitiva, cada “click” es parte decisiva de un tráfico de gran riqueza digital y por eso los datos se han convertido en un bien tan preciado. Es por ello por lo que, el objetivo del Big Data es convertir los datos en información que facilite la toma de decisiones e incluso en tiempo real.
La importancia del dato para cualquier institución ya sea pública y privada, tiene una gran relevancia, pero sin su análisis correcto existiría un gran desperdicio que tiene un gran valor tanto económico como informativo. Es por ello por lo que, se habla constantemente del científico de datos con perfil científico, tecnológico…y con una gran visión de negocio. Pero también, existen otros profesionales ligados al entorno de los datos que son de vital importancia para el futuro de la sociedad.
Para que no exista ese desperdicio de información, es necesario prepararse para trabajar como Data Scientist o Business Analyst, aprovechando toda la potencia de la Inteligencia Artificial, para aportar una gran visión e integrarse dentro de un sistema con gran proyección laboral.