Big Data Blog

Procesos de Análisis de Datos
02 Ago

Procesos de Análisis de Datos

Para llevar a cabo un proyecto de Análisis de Datos existen varias metodologías a seguir. KDD, SEMMA y CRISP-DM son las tres más utilizadas.

Conociendo los Procesos de Análisis de Datos

KDD o Knowledge Discover Database

Es un proceso centrado en la extracción de conocimiento de un repositorio, enfatizando las aplicaciones de alto nivel de ciertos métodos de Minería de Datos.

Es interactivo e iterativo y consta de 5 etapas:

  • Selección: A través de esta fase se seleccionan las variables, o si se va a trabajar con muestras, los datos que deben ir a las mismas, su distribución, etc.
  • Preprocesamiento: En esta etapa los datos se limpian y se adecúan para poder ser consumidos por la herramienta de Análisis de datos.
  • Transformación: Aquí se utilizan métodos de reducción de la dimensión u otros métodos de transformación, para poder aplicar las técnicas de Data Mining que son elegidas.
  • Minería de datos: Aquí se intenta resolver las preguntas planteadas con las técnicas de Minería de datos escogidas, o se emprende la búsqueda de nuevos hallazgos, se intenta detectar patrones en los datos.
  • Interpretación / Evaluación: A través de esta última etapa se extraen las conclusiones del estudio, y se evalúan los modelos de Minería de datos utilizados.

SEMMA o Sample, Explore, Modify, Model and Assess

Como metodología se puede aplicar a cualquier proceso de Minería de Datos, está ligado al Software de SAS para Minería de Datos.

Consta de 5 etapas:

  • Muestrear: En esta etapa se obtienen muestras de los datos que sean representativas para el análisis, pero de tamaño adecuado para poder manipularlas en un tiempo y con unos recursos razonables.
  • Explorar: Análisis preliminar de los datos, obteniendo unas primeras conclusiones sobre su morfología, tendencias, etc., para ayudarnos a decidir qué camino seguir.
  • Modificar: En esta fase se modifican los datos, se aplican transformaciones y realizan selecciones para crear las variables ya orientadas al proceso de selección del modelo. 
  • Modelar: Aplicando Modelos de Minería de Datos, se obtienen funciones o combinaciones de las variables de elegidas como predictoras, que nos ayudan a predecir la variable objetivo.
  • Evaluar: En esta última fase se evalúa la utilidad y fiabilidad de los insights obtenidos con el Modelo, y se estima su rendimiento.

CRISP-DM o Cross Industry Standard Process for Data Mining

Es un proceso iterativo y centrado en el negocio. Es independiente de la herramienta de Minería de datos que se utilice y está muy ligado a SPSS Clementine.  

Es cíclico y consta de seis etapas flexibles:

  • Entendimiento del Negocio: Entender los objetivos y requisitos desde un punto de vista de Negocio, como paso previo a la definición del problema de Minería de Datos.
  • Entendimiento de los datos: Se recolectan los datos, se exploran, se detectan problemas con la calidad de los mismos, y se obtienen los primeros insights, subconjuntos de datos, primeras hipótesis.
  • Preparación de los datos: Se construye un dataset a partir de los datos en crudo.
  • Modelado: Se seleccionan y aplican técnicas de Modelado, y se calibran sus parámetros en búsqueda de los mejores resultados.
  • Evaluación: Se evalúan los modelos y se revisan los pasos seguidos para la construcción de los Modelos, en relación a los objetivos de Negocio.
  • Despliegue: El/los modelo/s se “industrializa/n”. Se puede llegar a desplegar en un sistema o entorno de producción, o al menos se genera un entregable que el cliente pueda usar

¿Quieres saber más sobre los Procesos de Análisis de Datos? Pincha en aquí

Síguenos en:   

  

Comparte en: 

Visto 1544 veces Modificado por última vez en Miércoles, 02 Agosto 2017 12:00
Inicia sesión para enviar comentarios

Suscríbete a nuestro Newsletter:

Introduce tu e-mail y pulsa Enter para suscribirte
  • Dirección: C\ Lopez Gómez , 17,
    Entreplanta. Valladolid
    47002, España
  • Teléfono: +34 983 390 716
    Fax: +34 983 519 631
  • E-mail: info@campusbigdata.com